Установка Sherpa AIServer (только CPU, без GPU)#

Этот гайд описывает установку и запуск стека, когда языковая модель работает на CPU (без NVIDIA GPU). Порядок подготовки совпадает с общей установкой отличаются набор скачиваемых Docker-образов, файл Compose и профиль запуска.

Кому подходит#

Сервер без видеокарты NVIDIA или без необходимости использовать GPU для LLM.
Готовность к значительно более медленной генерации ответов LLM по сравнению с GPU-вариантом.

Важно: В docker-compose.yml сервисы Whisper и BGE Reranker по-прежнему рассчитаны на GPU. Для чисто CPU-сценария не включайте профили whisper, reranker и full — используйте только профиль cpu (и при необходимости отдельно решайте вопрос с embed/pg и т.д., они не требуют NVIDIA).

Что скачать (как при обычной установке, с заменой образа LLM)#

Скачайте архив клиентских файлов, модели, остальные образы.

Отличие от GPU-установки#

Компонент	GPU-установка	CPU-установка
Образ LLM	`aiserver-llm-server`	`aiserver-llm-server-cpu`
Запуск Compose	`docker-compose.yml`, без профиля `cpu`	`docker-compose.yml`, профиль `cpu`

Остальное по списку из подготовки без изменений, если вы не используете опциональные GPU-сервисы:

Клиентский архив: client-files/latest
Образы: aiserver, aiserver-pg, aiserver-embed, aiserver-code-interpreter, aiserver-nginx, aiserver-websocket, опционально aiserver-whisper и aiserver-bge-reranker (только если планируете профили с GPU)
Модели: embed_model_store.tar.gz (обязательно для embed), одна LLM-модель на выбор те же пути распаковки

Прямые ссылки для образа CPU-LLM#

Скачайте образ вместо aiserver-llm-server (или дополнительно к нему, если хотите иметь оба варианта):

Образ aiserver-llm-server для CPU-сценария не обязателен — его можно не скачивать, чтобы сэкономить место и трафик.

Распаковка и загрузка образов в Docker#

Распакуйте клиентский архив и подготовьте скрипты.
Загрузите образы через sudo ./sh_scripts/load_all_docker_images.sh.
Если в каталоге есть архив aiserver-llm-server-cpu_*.tar.gz, а скрипт загрузки его не подхватывает, импортируйте вручную:

docker load --input aiserver-llm-server-cpu_*.tar.gz

Выполните extract_models.sh, extract_vllm.sh и настройте .env и сертификаты по как в установке.

Настройка `.env` для связи с CPU-LLM#

Основной сервис aiserver обращается к LLM по переменным LLM_MODEL_API_BASE_URL / LLM_API_HOST и LLM_API_PORT. Для контейнера aiserver-llm-server-cpu внутри Docker-сети API слушает порт 8000 (внешний публикации на хосте в docker-compose.yml — 3007, для отладки с хоста).

Укажите:

LLM_API_HOST=aiserver-llm-server-cpu
LLM_API_PORT=8000
LLM_MODEL_API_BASE_URL=http://aiserver-llm-server-cpu:8000

Запуск с `docker-compose.yml` и профилем `cpu`#

В каталоге установки используйте файл docker-compose.yml (как в поставке клиенту) и явно включите профиль cpu, чтобы поднялся сервис aiserver-llm-server-cpu, а GPU-профили (gpu, gpu2) не активировались.

Базовый запуск (только CPU для LLM)#

docker compose -f docker-compose.yml --profile cpu up -d

Остановка#

docker compose -f docker-compose.yml --profile cpu down

Проверка контейнеров#

docker compose -f docker-compose.yml --profile cpu ps

Должен быть в статусе Up, в том числе контейнер aiserver-llm-server-cpu.

Проверка LLM с хоста (опционально)#

В docker-compose.yml порт LLM на CPU проброшен как 3007:8000. Пример проверки (подставьте свою модель и эндпоинт API вашего LLM-сервиса):

curl -sS "http://127.0.0.1:3007/v1/models" || curl -sS "http://127.0.0.1:3007/health"

Точный путь зависит от API образа aiserver-llm-server-cpu; при необходимости смотрите логи:
docker compose -f docker-compose.yml logs -f aiserver-llm-server-cpu.

Краткий чеклист#

Скачать те же артефакты, что для обычной установки, но образ LLM — aiserver-llm-server-cpu, не aiserver-llm-server (если не нужен GPU).
Распаковать клиентские файлы, загрузить образы, распаковать модели.
В .env задать LLM_MODEL_API_BASE_URL=http://aiserver-llm-server-cpu:8000 (и согласованные LLM_API_HOST / LLM_API_PORT).
Запустить: docker compose -f docker-compose.yml --profile cpu up -d.
Не использовать профили whisper / reranker / full, если на машине нет GPU под эти сервисы.

для CPU-установки блок про NVIDIA и Container Toolkit можно не выполнять, если вы не запускаете GPU-контейнеры.