Собственный AI-сервер
Анализ инфраструктурных вариантов для корпоративного RAG: поиск по документам компании и генерация на их основе. От пилота на serverless API до колокации с GPU.
Что нужно решить
Сравнить три магистральных пути развёртывания AI-инфраструктуры и принять обоснованное стартовое решение.
Цели проекта
Поиск по документам компании с генерацией связных ответов на естественном языке.
Проекты документов, выжимки, аналитические записки, ответы клиентам.
Адаптация под доменную терминологию и стилистику. Только для вариантов с GPU.
Embedding и собственная векторная база. Без зависимости от провайдеров на проде.
Вводные и ограничения
Ключевые ограничения от founder
| Параметр | Значение | Влияние |
|---|---|---|
| Юрисдикция данных | США | Колокация в US или US-регионы облака |
| Особые режимы данных | Нет | Без ПДн/гос. сведений, обычный режим |
| Managed API на пилоте | Да при NDA/DPA | Together, Fireworks, Bedrock допустимы |
| Закрытые модели на пилоте | Нет | Только open-source: Llama, Qwen, DeepSeek |
| Размещение в офисе | Mac — да · rack — нет | Mac Studio как primary; rack-сервер только в колокации |
| DevOps | Удалённый подрядчик | Нужна low-touch инфраструктура и документация |
| Файнтюн | До 500 GB корп. данных | Нужны GPU (свои или арендованные) |
| Контекст запроса | 64–128k токенов | Mac неоптимален, нужны GPU с HBM |
| Latency | До 30 сек | Допустимо для RAG с длинным промптом |
| Качество ответа | Средний–старший аналитик | Модели 70B+, продвинутый RAG |
| ROI | 4–6 мес, ROI до железа | Сначала API-пилот, потом инвестиция |
| Горизонт планирования | 12 мес → 2–3 года | Решения должны быть обратимы |
Три варианта развёртывания
Mac Studio, DGX Spark, Workstation в офисе.
- CAPEX: $3–18k
- OPEX: $20–100/мес
- Старт: 2–4 нед
- Файнтюн: ограниченно
- Конфиденциальность: максимум
Rack-сервер с 2–8 GPU у провайдера.
- CAPEX: $25–400k
- OPEX: $300–5 000/мес
- Старт: 6–12 нед
- Файнтюн: да
- Конфиденциальность: максимум
RunPod, Lambda, CoreWeave, AWS, serverless API.
- CAPEX: $0
- OPEX: $150–18 000/мес
- Старт: 1–7 дней
- Файнтюн: да
- Конфиденциальность: при DPA
Колокация дешевле облака, если железо используется ≥40% времени на горизонте 2+ лет. Эпизодическая нагрузка — выгоднее облако. На пилоте до подтверждения ROI — практически всегда облако/API.
Локальный сервер
Машина в офисе/дома, обслуживающая 5–20 пользователей по локальной сети или VPN. Только inference, минимальный OPEX.
- Любые модели до ~100B FP16/Q4
- 8–14 TPS на 70B Q4
- Очень тихий, ~270W
- Нет CUDA, нет файнтюна 70B
- DeepSeek V3 671B Q4 локально
- Любые open-source SOTA
- Уникальное предложение в сегменте
- Медленный prompt processing
- Llama 3.3 70B Q4/Q5
- Полный CUDA-стек, vLLM, TensorRT
- Тихий, маленький, дешёвый
- Лимит 128 GB на модели
- 30–50 TPS на 70B Q4
- LoRA-файнтюн до 30B
- Лицензия RTX Pro допускает DC
- Шумно, ~900W
- 70B Q4 split на 2 карты
- Высокая скорость до 70B
- ~1200W, громко
- Consumer-карты не для DC
- Максимальная конфиденциальность
- Низкий OPEX
- Быстрый старт (2–4 недели)
- Нет файнтюна крупных моделей
- Нет резервирования (single point of failure)
- В офисе нужно место, питание, охлаждение
Свой сервер в стойке колокации
Покупаем серверную платформу с GPU, ставим в датацентр. Полный контроль, возможен файнтюн, OPEX на электричество и место в стойке.
- Inference 70B FP16
- LoRA-файнтюн до 70B
- OPEX колокации $400–700/мес
- 20–50 одновременных пользователей
- Inference 405B Q4, DeepSeek V3 впритык
- LoRA 70B + полный файнтюн до 13B
- OPEX $700–1 200/мес
- Запас на 2–3 года
- Полный файнтюн 70–405B
- Тяжёлый продакшен 100–500 польз.
- OPEX $2.5–5k/мес, нужна водянка
- Окупается при загрузке ≥60% 24/7
- Inference 70B Q4/Q8
- LoRA до 13B
- OPEX $300–500/мес
- Устоявшееся железо с гарантиями
Consumer RTX 5090/4090 формально нельзя ставить в коммерческий DC (NVIDIA EULA). Допустимы RTX 6000 Pro/Ada, L40S, H100/H200, B200. Это удорожает железо в 2–3 раза против «домашних» вариантов.
Аренда GPU в облаке
Платим только за использование. Hyperscale (AWS/GCP/Azure) — дорого, но с SLA. GPU-first провайдеры (CoreWeave, Lambda, RunPod) — в 2–4× дешевле.
- 70B Q4/Q8 inference
- LoRA до 13B
- 8 ч/день: ~$260–500/мес
- 24/7: ~$800–1 500/мес
- 70B FP16, LoRA до 30B
- Reserved 1y: $2/час
- 24/7 reserved: $1 450–1 800/мес
- AWS p5: ~$10/час за тот же GPU
- Полный файнтюн 70–405B
- 1 неделя в месяц: ~$5 000
- 24/7 reserved: ~$18 000/мес
- AWS retail: ~$70k/мес
- Llama 3.3 70B, DeepSeek V3, Qwen 2.5
- Наш сценарий: ~$150–500/мес
- Авто-масштабирование, ноль инфраструктуры
- DPA: данные не идут в обучение
Совокупная стоимость на 36 месяцев
Сумма CAPEX и OPEX за три года. Допущения: режим эксплуатации «как production», цены подтверждены у дистрибьюторов в начале 2026.
1× H100 24/7 в течение 3 лет: облако ~$72k vs свой сервер ~$30–35k → колокация выгоднее в 2 раза.
1× H100 эпизодически (~25% времени): облако ~$18k vs свой сервер ~$30k → облако выгоднее на $12k.
Пять сценариев комбинации вариантов
| Сценарий | Логика | CAPEX | OPEX 36м | TCO 36м | Риск |
|---|---|---|---|---|---|
| А API → железо | Пилот на API, потом колокация | ~$45k | ~$35k | ~$80k | низкий |
| Б Mac → облако → колокация | Сразу полная изоляция, обучение в облаке | ~$69k | ~$32k | ~$100k | средний |
| В Сразу колокация | Долгосрочная ставка с первого дня | $62k | ~$33k | ~$95k | высокий |
| Г Только облако | Никогда не покупаем железо | $0 | ~$65k | ~$65k | низкий |
| Д Mac 512 GB → колокация | Уникальный low-cost доступ к DeepSeek V3 локально | ~$25k | ~$15k | ~$40k | средний |
Что мы знаем после чек-листа
Бюджет и бизнес
| CAPEX лимит | До $50k |
| OPEX лимит | $2 000–3 000 / мес |
| Срок до ROI | 4–6 мес |
| ROI до закупки железа | Да, обязательно |
| Решение принимает | Founder |
Данные
| Юрисдикция | США |
| Особые режимы (ПДн и т.п.) | Нет |
| Managed API на пилоте | Да при DPA |
| Форматы | PDF, DOCX, HTML, письма, БД |
| Источники | SharePoint, базы данных, облако |
| Audit log | Желательно |
Технические требования
| Latency | До 30 сек |
| Контекст запроса | 64–128k токенов |
| Мультимодальность | Распознавание (vision), без генерации |
| Файнтюн | Да, на ~500 GB корп. данных |
| Резервирование с 1-го дня | Нет, потом |
Команда и инфраструктура
| DevOps | Удалённый подрядчик |
| Серверная в офисе | Нет места |
| Интернет | 100 Мб – 1 Гб, VPN для удалёнки |
| RAG-пайплайн | С нуля |
| Интеграции | Telegram, Slack, Teams, web-чат |
Модели и качество
| Опыт | Claude |
| Закрытые модели на пилоте | Нет |
| Целевое качество | Средний–старший аналитик |
| Эталонные вопросы-ответы | Нужно сформировать |
Как ответы сузили выбор
| Ответ | Что отбрасывает | Что оставляет |
|---|---|---|
| Mac в офисе — да, rack — нет | Колокация на старте | Mac Studio как primary; колокация во 2-й половине года |
| Юрисдикция США | Хостинг в РФ/ЕС | Mac локально + при необходимости US-регионы |
| CAPEX до $50k | 4× RTX 6000 Pro ($60k+), 8× H200 ($300k+) | Mac $7–11k + опц. 2× RTX 6000 Pro колокация |
| OPEX $2–3k | 8× H100 reserved 24/7 ($18k+/мес) | Mac (без OPEX) + подрядчик + опц. API/cloud |
| ROI 4–6 мес до железа | Сразу колокация (3 мес до старта) | Mac за 1–2 недели, ROI к мес 3–4 |
| Без закрытых моделей | Claude, GPT-5 как основа | Llama 3.3 70B локально на Mac |
| Managed API на пилоте — да | — | Together / Fireworks как fallback для vision и 128k |
| Файнтюн на ~500 GB | Mac как primary для файнтюна 70B | Mac для inference, файнтюн — cloud GPU при необходимости |
| Контекст 64–128k | Mac на пиковых случаях (медленно) | Mac для типовых 4–16k, API для редких длинных |
| Качество ≈ старший аналитик | Модели <30B | Llama 3.3 70B Q8/FP16 на Mac |
Сценарий А′: Mac Studio в офисе → опц. колокация в США. Старт с Mac Studio M3 Ultra 192 GB в офисе как primary, serverless API только как fallback. Колокация — во второй половине года, если подтвердится регулярная потребность в файнтюне или вырастет нагрузка.
План: Mac в офисе как старт
Начинаем с Mac Studio в офисе. Данные сразу не покидают периметр компании. Колокация — опционально на втором полугодии.
- Заказ Mac Studio M3 Ultra 192 GB
- Подрядчик MLOps remote
- Стек: Llama 3.3 70B, bge-m3, Qdrant
- DPA с Together (для fallback)
- Eval-сет: ~100 эталонных Q&A
- Llama 3.3 70B Q8 через MLX/llama.cpp
- Qdrant self-hosted на Mac
- LlamaIndex + FastAPI + Auth0
- Боты: Telegram, Slack, Teams, web
- API fallback на 5% запросов (vision, 128k)
- Данные не покидают офис
- Оценка ROI на eval-сете + DAU
- ROI + хватает Mac → 3a
- ROI + нужен файнтюн / больше мощности → 3b
- Нет ROI → закрытие, потеря ≤$15k
- 3a: остаёмся на Mac, разовый файнтюн в облаке
- 3b: 2× RTX 6000 Pro в колокацию (US)
- Mac → dev-машина для DS-команды
- vLLM, файнтюн LoRA Llama 3.3 70B
Целевой стек
| Компонент | Решение | Где работает |
|---|---|---|
| LLM (генерация) | Llama 3.3 70B Q8 через MLX / llama.cpp | Mac в офисе |
| Vision (типовой) | Qwen 2.5-VL 7B | Mac в офисе |
| Vision (тяжёлый) | Qwen 2.5-VL 72B через Together API | fallback |
| Длинный контекст 128k | Llama 3.3 70B через Together API | fallback |
| Embedding | BAAI/bge-m3 | Mac в офисе |
| Vector DB | Qdrant self-hosted Docker | Mac в офисе |
| Orchestration | LlamaIndex / LangChain | open-source |
| API gateway | FastAPI + Auth0/Clerk | Render / Fly.io |
| Bot integrations | Telegram + Slack + Teams + web | Render / Fly.io |
| VPN для удалёнки | Tailscale / WireGuard | Mac + клиенты |
| Audit log | Postgres + Grafana | Mac / Render |
| Подрядчик | Remote MLOps part-time 20–30 ч/мес | — |
Token generation: 10–18 TPS · Prompt 8–16k: 30–80 сек (типовой RAG) · Prompt 64k+: 3–5 мин → fallback на API. Стратегия: хорошее RAG-чанкирование 4–16k достаточно для 95% запросов.
Бюджет на 12 месяцев
Две развилки: остаёмся на Mac или переходим в колокацию в месяце 4.
Сценарий 3a — остаёмся на Mac (рекомендуется как default)
| Статья | Период | Сумма |
|---|---|---|
| Фаза 0 — Mac Studio + подрядчик | 2 недели | $8 000 |
| Фаза 1 — пилот в офисе | 3 мес | $6 600 |
| Фаза 2 — точка решения | 1 мес | $2 200 |
| Фаза 3a — эксплуатация на Mac | 8 мес | $22 000 |
| Запас на форс-мажор | +15% | ~$6 000 |
| Итого 12 мес | — | ~$45 000 |
Сценарий 3b — Mac → колокация в месяце 4
| Статья | Период | Сумма |
|---|---|---|
| Фазы 0–2 | 4 мес | $16 800 |
| Фаза 3b — CAPEX железа (2× RTX 6000 Pro) | разово | $32 000 |
| Фаза 3b — OPEX (колокация + подрядчик + сервисы) | 8 мес | $27 000 |
| Запас на форс-мажор | +15% | ~$11 000 |
| Итого 12 мес | — | ~$87 000 |
Риски и митигации
| Риск | Митигация |
|---|---|
| Длинный контекст 128k медленный на Mac | Хорошее RAG-чанкирование 4–16k достаточно для 95% запросов; редкие длинные — через Together API |
| Vision-модели тормозят на Mac | Локально Qwen-VL 7B для типовых случаев; тяжёлая Qwen-VL 72B через API при индексации |
| Mac выходит из строя | Запасной MacBook Pro с теми же моделями; API fallback включается за 5 мин; AppleCare для замены за 1–2 дня |
| Подрядчик пропадает / срывает сроки | Контракт с вехами, репозиторий и инфраструктура в собственности компании, обязательная документация |
| Качество не дотягивает до «среднего аналитика» | Реранкеры (bge-reranker), graph-RAG, doc-aware chunking, итерации в Фазе 1; апгрейд до 512 GB для DeepSeek V3 |
| Нагрузка превысит возможности Mac | Вторая Mac Studio ($7k) или переход к Фазе 3b (колокация) в месяце 4 |
| GPU дороже на 30%+ к моменту колокации | Решение откладывается до Фазы 3b; альтернатива 2× L40S ($22–28k); запас $11k в бюджете |
| Founder меняет приоритеты | Phased план — выход в конце любой фазы; в первые 4 мес макс. потери ~$15k (Mac остаётся как dev-машина) |
| Сложно сформулировать KPI | Eval-сет 100 Q&A в Фазе 0; метрики DAU, времени поиска, доли «полезных» ответов; человеко-часы отдела |
На каждой фазе решение можно пересмотреть. CAPEX-инвестиция в колокацию ($32k) делается только в месяце 4 и только при подтверждённом ROI и потребности в файнтюне. До этого момента потери ограничены ~$15k, и Mac остаётся полезным как dev-машина.
Следующие шаги
Что нужно прояснить с founder (не блокирует Фазу 0)
- Mac 192 vs 512 GB? 192 — достаточно для Llama 3.3 70B Q8. 512 — открывает DeepSeek V3 / Llama 4 (+$4–5k). Рекомендация: 192 на старте, апгрейд через год.
- Размещение Mac в офисе. Где конкретно, доступ в сеть, UPS?
- Часы подрядчика. 20 или 30 ч/мес на старте?
- Эталонные Q&A. Кто в команде сформирует ~100 пар вопрос-ответ?
- Product owner. Кто в отделе будет собирать обратную связь?
- VPN. Tailscale / WireGuard / другое для удалёнки — кто настроит?
Действия на этой неделе
- Согласовать рекомендацию с founder.
- Заказать Mac Studio M3 Ultra 192 GB (доставка 5–10 дней).
- Открыть поиск remote-подрядчика (MLOps + RAG опыт с MLX/llama.cpp).
- Запросить DPA у Together AI как fallback-провайдера.
- Назначить ответственного за сбор эталонного eval-сета.
- Зафиксировать решение в decision log.
Что попадает в следующий этап работ
- Архитектура RAG-пайплайна и схема индексации.
- Бенчмарки моделей на корпоративных данных.
- Юр. обработка DPA с провайдерами.
- Выбор конкретного подрядчика и условия контракта.
- Дизайн ботов и интеграции с SharePoint и БД.
- Политика ролей и audit log.
Сценарий А′: Mac Studio M3 Ultra 192 GB в офис. Старт через 1–2 недели. Данные не покидают офис. Llama 3.3 70B Q8 локально, RAG-пайплайн, боты Telegram/Slack/Teams/web. API только как fallback. К месяцу 4 — ROI-чекпойнт. TCO 12 мес: ~$45k (остаёмся на Mac) или ~$87k (с колокацией). Оба варианта в рамках $50k CAPEX.