Установка Sherpa AIServer (только CPU, без GPU)#
Этот гайд описывает установку и запуск стека, когда языковая модель работает на CPU (без NVIDIA GPU). Порядок подготовки совпадает с общей установкой отличаются набор скачиваемых Docker-образов, файл Compose и профиль запуска.
Кому подходит#
- Сервер без видеокарты NVIDIA или без необходимости использовать GPU для LLM.
- Готовность к значительно более медленной генерации ответов LLM по сравнению с GPU-вариантом.
Важно: В docker-compose.yml сервисы Whisper и BGE Reranker по-прежнему рассчитаны на GPU. Для чисто CPU-сценария не включайте профили whisper, reranker и full — используйте только профиль cpu (и при необходимости отдельно решайте вопрос с embed/pg и т.д., они не требуют NVIDIA).
Что скачать (как при обычной установке, с заменой образа LLM)#
Скачайте архив клиентских файлов, модели, остальные образы.
Отличие от GPU-установки#
| Компонент | GPU-установка | CPU-установка |
|---|---|---|
| Образ LLM | aiserver-llm-server |
aiserver-llm-server-cpu |
| Запуск Compose | docker-compose.yml, без профиля cpu |
docker-compose.yml, профиль cpu |
Остальное по списку из подготовки без изменений, если вы не используете опциональные GPU-сервисы:
- Клиентский архив:
client-files/latest - Образы:
aiserver,aiserver-pg,aiserver-embed,aiserver-code-interpreter,aiserver-nginx,aiserver-websocket, опциональноaiserver-whisperиaiserver-bge-reranker(только если планируете профили с GPU) - Модели:
embed_model_store.tar.gz(обязательно для embed), одна LLM-модель на выбор те же пути распаковки
Прямые ссылки для образа CPU-LLM#
Скачайте образ вместо aiserver-llm-server (или дополнительно к нему, если хотите иметь оба варианта):
Образ aiserver-llm-server для CPU-сценария не обязателен — его можно не скачивать, чтобы сэкономить место и трафик.
Распаковка и загрузка образов в Docker#
- Распакуйте клиентский архив и подготовьте скрипты.
- Загрузите образы через
sudo ./sh_scripts/load_all_docker_images.sh. - Если в каталоге есть архив
aiserver-llm-server-cpu_*.tar.gz, а скрипт загрузки его не подхватывает, импортируйте вручную:
docker load --input aiserver-llm-server-cpu_*.tar.gz
- Выполните
extract_models.sh,extract_vllm.shи настройте.envи сертификаты по как в установке.
Настройка .env для связи с CPU-LLM#
Основной сервис aiserver обращается к LLM по переменным LLM_MODEL_API_BASE_URL / LLM_API_HOST и LLM_API_PORT. Для контейнера aiserver-llm-server-cpu внутри Docker-сети API слушает порт 8000 (внешний публикации на хосте в docker-compose.yml — 3007, для отладки с хоста).
Укажите:
LLM_API_HOST=aiserver-llm-server-cpu
LLM_API_PORT=8000
LLM_MODEL_API_BASE_URL=http://aiserver-llm-server-cpu:8000
Запуск с docker-compose.yml и профилем cpu#
В каталоге установки используйте файл docker-compose.yml (как в поставке клиенту) и явно включите профиль cpu, чтобы поднялся сервис aiserver-llm-server-cpu, а GPU-профили (gpu, gpu2) не активировались.
Базовый запуск (только CPU для LLM)#
docker compose -f docker-compose.yml --profile cpu up -d
Остановка#
docker compose -f docker-compose.yml --profile cpu down
Проверка контейнеров#
docker compose -f docker-compose.yml --profile cpu ps
Должен быть в статусе Up, в том числе контейнер aiserver-llm-server-cpu.
Проверка LLM с хоста (опционально)#
В docker-compose.yml порт LLM на CPU проброшен как 3007:8000. Пример проверки (подставьте свою модель и эндпоинт API вашего LLM-сервиса):
curl -sS "http://127.0.0.1:3007/v1/models" || curl -sS "http://127.0.0.1:3007/health"
Точный путь зависит от API образа aiserver-llm-server-cpu; при необходимости смотрите логи:docker compose -f docker-compose.yml logs -f aiserver-llm-server-cpu.
Краткий чеклист#
- Скачать те же артефакты, что для обычной установки, но образ LLM —
aiserver-llm-server-cpu, неaiserver-llm-server(если не нужен GPU). - Распаковать клиентские файлы, загрузить образы, распаковать модели.
- В
.envзадатьLLM_MODEL_API_BASE_URL=http://aiserver-llm-server-cpu:8000(и согласованныеLLM_API_HOST/LLM_API_PORT). - Запустить:
docker compose -f docker-compose.yml --profile cpu up -d. - Не использовать профили
whisper/reranker/full, если на машине нет GPU под эти сервисы.
для CPU-установки блок про NVIDIA и Container Toolkit можно не выполнять, если вы не запускаете GPU-контейнеры.