Установка Sherpa AIServer (только CPU, без GPU)#

Этот гайд описывает установку и запуск стека, когда языковая модель работает на CPU (без NVIDIA GPU). Порядок подготовки совпадает с общей установкой отличаются набор скачиваемых Docker-образов, файл Compose и профиль запуска.

Кому подходит#

  • Сервер без видеокарты NVIDIA или без необходимости использовать GPU для LLM.
  • Готовность к значительно более медленной генерации ответов LLM по сравнению с GPU-вариантом.

Важно: В docker-compose.yml сервисы Whisper и BGE Reranker по-прежнему рассчитаны на GPU. Для чисто CPU-сценария не включайте профили whisper, reranker и full — используйте только профиль cpu (и при необходимости отдельно решайте вопрос с embed/pg и т.д., они не требуют NVIDIA).

Что скачать (как при обычной установке, с заменой образа LLM)#

Скачайте архив клиентских файлов, модели, остальные образы.

Отличие от GPU-установки#

Компонент GPU-установка CPU-установка
Образ LLM aiserver-llm-server aiserver-llm-server-cpu
Запуск Compose docker-compose.yml, без профиля cpu docker-compose.yml, профиль cpu

Остальное по списку из подготовки без изменений, если вы не используете опциональные GPU-сервисы:

  • Клиентский архив: client-files/latest
  • Образы: aiserver, aiserver-pg, aiserver-embed, aiserver-code-interpreter, aiserver-nginx, aiserver-websocket, опционально aiserver-whisper и aiserver-bge-reranker (только если планируете профили с GPU)
  • Модели: embed_model_store.tar.gz (обязательно для embed), одна LLM-модель на выбор те же пути распаковки

Прямые ссылки для образа CPU-LLM#

Скачайте образ вместо aiserver-llm-server (или дополнительно к нему, если хотите иметь оба варианта):

Образ aiserver-llm-server для CPU-сценария не обязателен — его можно не скачивать, чтобы сэкономить место и трафик.

Распаковка и загрузка образов в Docker#

  1. Распакуйте клиентский архив и подготовьте скрипты.
  2. Загрузите образы через sudo ./sh_scripts/load_all_docker_images.sh.
  3. Если в каталоге есть архив aiserver-llm-server-cpu_*.tar.gz, а скрипт загрузки его не подхватывает, импортируйте вручную:
docker load --input aiserver-llm-server-cpu_*.tar.gz
  1. Выполните extract_models.sh, extract_vllm.sh и настройте .env и сертификаты по как в установке.

Настройка .env для связи с CPU-LLM#

Основной сервис aiserver обращается к LLM по переменным LLM_MODEL_API_BASE_URL / LLM_API_HOST и LLM_API_PORT. Для контейнера aiserver-llm-server-cpu внутри Docker-сети API слушает порт 8000 (внешний публикации на хосте в docker-compose.yml3007, для отладки с хоста).

Укажите:

LLM_API_HOST=aiserver-llm-server-cpu
LLM_API_PORT=8000
LLM_MODEL_API_BASE_URL=http://aiserver-llm-server-cpu:8000

Запуск с docker-compose.yml и профилем cpu#

В каталоге установки используйте файл docker-compose.yml (как в поставке клиенту) и явно включите профиль cpu, чтобы поднялся сервис aiserver-llm-server-cpu, а GPU-профили (gpu, gpu2) не активировались.

Базовый запуск (только CPU для LLM)#

docker compose -f docker-compose.yml --profile cpu up -d

Остановка#

docker compose -f docker-compose.yml --profile cpu down

Проверка контейнеров#

docker compose -f docker-compose.yml --profile cpu ps

Должен быть в статусе Up, в том числе контейнер aiserver-llm-server-cpu.

Проверка LLM с хоста (опционально)#

В docker-compose.yml порт LLM на CPU проброшен как 3007:8000. Пример проверки (подставьте свою модель и эндпоинт API вашего LLM-сервиса):

curl -sS "http://127.0.0.1:3007/v1/models" || curl -sS "http://127.0.0.1:3007/health"

Точный путь зависит от API образа aiserver-llm-server-cpu; при необходимости смотрите логи:
docker compose -f docker-compose.yml logs -f aiserver-llm-server-cpu.

Краткий чеклист#

  1. Скачать те же артефакты, что для обычной установки, но образ LLM — aiserver-llm-server-cpu, не aiserver-llm-server (если не нужен GPU).
  2. Распаковать клиентские файлы, загрузить образы, распаковать модели.
  3. В .env задать LLM_MODEL_API_BASE_URL=http://aiserver-llm-server-cpu:8000 (и согласованные LLM_API_HOST / LLM_API_PORT).
  4. Запустить: docker compose -f docker-compose.yml --profile cpu up -d.
  5. Не использовать профили whisper / reranker / full, если на машине нет GPU под эти сервисы.

для CPU-установки блок про NVIDIA и Container Toolkit можно не выполнять, если вы не запускаете GPU-контейнеры.