dotart / 2026

Собственный AI-сервер

Анализ инфраструктурных вариантов для корпоративного RAG: поиск по документам компании и генерация на их основе. От пилота на serverless API до колокации с GPU.

Дата
14 мая 2026
Заказчик
az@nic.art / founder
Горизонт
12 мес → 2–3 года
Документ
Версия 1.0
01 / Постановка задачи

Что нужно решить

Сравнить три магистральных пути развёртывания AI-инфраструктуры и принять обоснованное стартовое решение.

Цели проекта

Корпоративный RAG

Поиск по документам компании с генерацией связных ответов на естественном языке.

Генерация на основе корп. данных

Проекты документов, выжимки, аналитические записки, ответы клиентам.

Файнтюн моделей (опц.)

Адаптация под доменную терминологию и стилистику. Только для вариантов с GPU.

Своя векторизация (опц.)

Embedding и собственная векторная база. Без зависимости от провайдеров на проде.

02 / Вводные

Вводные и ограничения

Объём документов
100k–1M
50–500 GB
Пользователи
5–20
один отдел
CAPEX лимит
$50k
единоразово
OPEX лимит
$2–3k
в месяц

Ключевые ограничения от founder

ПараметрЗначениеВлияние
Юрисдикция данныхСШАКолокация в US или US-регионы облака
Особые режимы данныхНетБез ПДн/гос. сведений, обычный режим
Managed API на пилотеДа при NDA/DPATogether, Fireworks, Bedrock допустимы
Закрытые модели на пилотеНетТолько open-source: Llama, Qwen, DeepSeek
Размещение в офисеMac — да · rack — нетMac Studio как primary; rack-сервер только в колокации
DevOpsУдалённый подрядчикНужна low-touch инфраструктура и документация
ФайнтюнДо 500 GB корп. данныхНужны GPU (свои или арендованные)
Контекст запроса64–128k токеновMac неоптимален, нужны GPU с HBM
LatencyДо 30 секДопустимо для RAG с длинным промптом
Качество ответаСредний–старший аналитикМодели 70B+, продвинутый RAG
ROI4–6 мес, ROI до железаСначала API-пилот, потом инвестиция
Горизонт планирования12 мес → 2–3 годаРешения должны быть обратимы
03 / Три магистральных пути

Три варианта развёртывания

Вариант 1
Локальный сервер

Mac Studio, DGX Spark, Workstation в офисе.

  • CAPEX: $3–18k
  • OPEX: $20–100/мес
  • Старт: 2–4 нед
  • Файнтюн: ограниченно
  • Конфиденциальность: максимум
Вариант 2
Своя стойка в датацентре

Rack-сервер с 2–8 GPU у провайдера.

  • CAPEX: $25–400k
  • OPEX: $300–5 000/мес
  • Старт: 6–12 нед
  • Файнтюн: да
  • Конфиденциальность: максимум
Вариант 3
Аренда GPU в облаке

RunPod, Lambda, CoreWeave, AWS, serverless API.

  • CAPEX: $0
  • OPEX: $150–18 000/мес
  • Старт: 1–7 дней
  • Файнтюн: да
  • Конфиденциальность: при DPA
Базовое правило выбора

Колокация дешевле облака, если железо используется ≥40% времени на горизонте 2+ лет. Эпизодическая нагрузка — выгоднее облако. На пилоте до подтверждения ROI — практически всегда облако/API.

04 / Вариант 1

Локальный сервер

Машина в офисе/дома, обслуживающая 5–20 пользователей по локальной сети или VPN. Только inference, минимальный OPEX.

1A · Apple
Mac Studio M3 Ultra 192 GB
$6.5–7.5k
CAPEX · унифиц. память
  • Любые модели до ~100B FP16/Q4
  • 8–14 TPS на 70B Q4
  • Очень тихий, ~270W
  • Нет CUDA, нет файнтюна 70B
1B · Apple
Mac Studio M3 Ultra 512 GB
$10–12k
CAPEX · топ unified memory
  • DeepSeek V3 671B Q4 локально
  • Любые open-source SOTA
  • Уникальное предложение в сегменте
  • Медленный prompt processing
1C · NVIDIA
DGX Spark 128 GB
$3–4k
CAPEX · CUDA-десктоп
  • Llama 3.3 70B Q4/Q5
  • Полный CUDA-стек, vLLM, TensorRT
  • Тихий, маленький, дешёвый
  • Лимит 128 GB на модели
1D · Workstation
RTX 6000 Pro Blackwell 96 GB
$13–18k
CAPEX · топ inference для офиса
  • 30–50 TPS на 70B Q4
  • LoRA-файнтюн до 30B
  • Лицензия RTX Pro допускает DC
  • Шумно, ~900W
1E · Workstation
2× RTX 5090 32 GB
$8–11k
CAPEX · бюджетный CUDA
  • 70B Q4 split на 2 карты
  • Высокая скорость до 70B
  • ~1200W, громко
  • Consumer-карты не для DC
Плюсы варианта 1
  • Максимальная конфиденциальность
  • Низкий OPEX
  • Быстрый старт (2–4 недели)
Минусы варианта 1
  • Нет файнтюна крупных моделей
  • Нет резервирования (single point of failure)
  • В офисе нужно место, питание, охлаждение
05 / Вариант 2

Свой сервер в стойке колокации

Покупаем серверную платформу с GPU, ставим в датацентр. Полный контроль, возможен файнтюн, OPEX на электричество и место в стойке.

2A · entry-level
2× RTX 6000 Pro Blackwell
$28–35k
CAPEX · 192 GB VRAM · 2U
  • Inference 70B FP16
  • LoRA-файнтюн до 70B
  • OPEX колокации $400–700/мес
  • 20–50 одновременных пользователей
2B · universal
4× RTX 6000 Pro Blackwell
$55–70k
CAPEX · 384 GB VRAM · 4U
  • Inference 405B Q4, DeepSeek V3 впритык
  • LoRA 70B + полный файнтюн до 13B
  • OPEX $700–1 200/мес
  • Запас на 2–3 года
2C · enterprise
8× NVIDIA H200 SXM
$300–400k
CAPEX · 1128 GB HBM3e · NVLink
  • Полный файнтюн 70–405B
  • Тяжёлый продакшен 100–500 польз.
  • OPEX $2.5–5k/мес, нужна водянка
  • Окупается при загрузке ≥60% 24/7
2D · бюджет
2× NVIDIA L40S 48 GB
$22–28k
CAPEX · 96 GB VRAM · 2U
  • Inference 70B Q4/Q8
  • LoRA до 13B
  • OPEX $300–500/мес
  • Устоявшееся железо с гарантиями
Важно при колокации

Consumer RTX 5090/4090 формально нельзя ставить в коммерческий DC (NVIDIA EULA). Допустимы RTX 6000 Pro/Ada, L40S, H100/H200, B200. Это удорожает железо в 2–3 раза против «домашних» вариантов.

06 / Вариант 3

Аренда GPU в облаке

Платим только за использование. Hyperscale (AWS/GCP/Azure) — дорого, но с SLA. GPU-first провайдеры (CoreWeave, Lambda, RunPod) — в 2–4× дешевле.

3A · entry
1× A100 80 GB / L40S
$1.20–$2.00 / час
on-demand · Lambda, RunPod, Hetzner
  • 70B Q4/Q8 inference
  • LoRA до 13B
  • 8 ч/день: ~$260–500/мес
  • 24/7: ~$800–1 500/мес
3B · средний
1× H100 80 GB
$2.50–$3.50 / час
on-demand · CoreWeave, Lambda
  • 70B FP16, LoRA до 30B
  • Reserved 1y: $2/час
  • 24/7 reserved: $1 450–1 800/мес
  • AWS p5: ~$10/час за тот же GPU
3C · обучение
8× H100 / 8× H200
$24–$45 / час
on-demand · большой узел
  • Полный файнтюн 70–405B
  • 1 неделя в месяц: ~$5 000
  • 24/7 reserved: ~$18 000/мес
  • AWS retail: ~$70k/мес
3D · serverless
Together / Fireworks / Groq API
$0.20–$0.90 / 1M токенов
оплата по факту, open-source модели
  • Llama 3.3 70B, DeepSeek V3, Qwen 2.5
  • Наш сценарий: ~$150–500/мес
  • Авто-масштабирование, ноль инфраструктуры
  • DPA: данные не идут в обучение
07 / Сравнение

Совокупная стоимость на 36 месяцев

Сумма CAPEX и OPEX за три года. Допущения: режим эксплуатации «как production», цены подтверждены у дистрибьюторов в начале 2026.

TCO 36 мес, USD (без зарплат)
Где находится break-even

1× H100 24/7 в течение 3 лет: облако ~$72k vs свой сервер ~$30–35k → колокация выгоднее в 2 раза.
1× H100 эпизодически (~25% времени): облако ~$18k vs свой сервер ~$30k → облако выгоднее на $12k.

08 / Сценарии развития

Пять сценариев комбинации вариантов

СценарийЛогикаCAPEXOPEX 36мTCO 36мРиск
А API → железо Пилот на API, потом колокация ~$45k~$35k~$80k низкий
Б Mac → облако → колокация Сразу полная изоляция, обучение в облаке ~$69k~$32k~$100k средний
В Сразу колокация Долгосрочная ставка с первого дня $62k~$33k~$95k высокий
Г Только облако Никогда не покупаем железо $0~$65k~$65k низкий
Д Mac 512 GB → колокация Уникальный low-cost доступ к DeepSeek V3 локально ~$25k~$15k~$40k средний
TCO сценариев на 36 мес, USD
09 / Ответы founder

Что мы знаем после чек-листа

Бюджет и бизнес

CAPEX лимитДо $50k
OPEX лимит$2 000–3 000 / мес
Срок до ROI4–6 мес
ROI до закупки железаДа, обязательно
Решение принимаетFounder

Данные

ЮрисдикцияСША
Особые режимы (ПДн и т.п.)Нет
Managed API на пилотеДа при DPA
ФорматыPDF, DOCX, HTML, письма, БД
ИсточникиSharePoint, базы данных, облако
Audit logЖелательно

Технические требования

LatencyДо 30 сек
Контекст запроса64–128k токенов
МультимодальностьРаспознавание (vision), без генерации
ФайнтюнДа, на ~500 GB корп. данных
Резервирование с 1-го дняНет, потом

Команда и инфраструктура

DevOpsУдалённый подрядчик
Серверная в офисеНет места
Интернет100 Мб – 1 Гб, VPN для удалёнки
RAG-пайплайнС нуля
ИнтеграцииTelegram, Slack, Teams, web-чат

Модели и качество

ОпытClaude
Закрытые модели на пилотеНет
Целевое качествоСредний–старший аналитик
Эталонные вопросы-ответыНужно сформировать
10 / Применение фильтров

Как ответы сузили выбор

ОтветЧто отбрасываетЧто оставляет
Mac в офисе — да, rack — нет Колокация на старте Mac Studio как primary; колокация во 2-й половине года
Юрисдикция США Хостинг в РФ/ЕС Mac локально + при необходимости US-регионы
CAPEX до $50k 4× RTX 6000 Pro ($60k+), 8× H200 ($300k+) Mac $7–11k + опц. 2× RTX 6000 Pro колокация
OPEX $2–3k 8× H100 reserved 24/7 ($18k+/мес) Mac (без OPEX) + подрядчик + опц. API/cloud
ROI 4–6 мес до железа Сразу колокация (3 мес до старта) Mac за 1–2 недели, ROI к мес 3–4
Без закрытых моделей Claude, GPT-5 как основа Llama 3.3 70B локально на Mac
Managed API на пилоте — да Together / Fireworks как fallback для vision и 128k
Файнтюн на ~500 GB Mac как primary для файнтюна 70B Mac для inference, файнтюн — cloud GPU при необходимости
Контекст 64–128k Mac на пиковых случаях (медленно) Mac для типовых 4–16k, API для редких длинных
Качество ≈ старший аналитик Модели <30B Llama 3.3 70B Q8/FP16 на Mac
Магистральный путь

Сценарий А′: Mac Studio в офисе → опц. колокация в США. Старт с Mac Studio M3 Ultra 192 GB в офисе как primary, serverless API только как fallback. Колокация — во второй половине года, если подтвердится регулярная потребность в файнтюне или вырастет нагрузка.

11 / План действий

План: Mac в офисе как старт

Начинаем с Mac Studio в офисе. Данные сразу не покидают периметр компании. Колокация — опционально на втором полугодии.

Фаза 0
Заказ Mac + подрядчик
Недели 1–2
  • Заказ Mac Studio M3 Ultra 192 GB
  • Подрядчик MLOps remote
  • Стек: Llama 3.3 70B, bge-m3, Qdrant
  • DPA с Together (для fallback)
  • Eval-сет: ~100 эталонных Q&A
$8 000
Фаза 1
Mac-пилот в офисе
Месяцы 1–3
  • Llama 3.3 70B Q8 через MLX/llama.cpp
  • Qdrant self-hosted на Mac
  • LlamaIndex + FastAPI + Auth0
  • Боты: Telegram, Slack, Teams, web
  • API fallback на 5% запросов (vision, 128k)
  • Данные не покидают офис
~$6 600
Фаза 2
Точка решения
Месяц 4
  • Оценка ROI на eval-сете + DAU
  • ROI + хватает Mac → 3a
  • ROI + нужен файнтюн / больше мощности → 3b
  • Нет ROI → закрытие, потеря ≤$15k
$2 200
Фаза 3a / 3b
Mac или Mac+колокация
Месяцы 4–12
  • 3a: остаёмся на Mac, разовый файнтюн в облаке
  • 3b: 2× RTX 6000 Pro в колокацию (US)
  • Mac → dev-машина для DS-команды
  • vLLM, файнтюн LoRA Llama 3.3 70B
3a: $22k · 3b: $59k

Целевой стек

КомпонентРешениеГде работает
LLM (генерация)Llama 3.3 70B Q8 через MLX / llama.cppMac в офисе
Vision (типовой)Qwen 2.5-VL 7BMac в офисе
Vision (тяжёлый)Qwen 2.5-VL 72B через Together APIfallback
Длинный контекст 128kLlama 3.3 70B через Together APIfallback
EmbeddingBAAI/bge-m3Mac в офисе
Vector DBQdrant self-hosted DockerMac в офисе
OrchestrationLlamaIndex / LangChainopen-source
API gatewayFastAPI + Auth0/ClerkRender / Fly.io
Bot integrationsTelegram + Slack + Teams + webRender / Fly.io
VPN для удалёнкиTailscale / WireGuardMac + клиенты
Audit logPostgres + GrafanaMac / Render
ПодрядчикRemote MLOps part-time 20–30 ч/мес
Производительность Mac Studio 192 GB на Llama 3.3 70B Q8

Token generation: 10–18 TPS · Prompt 8–16k: 30–80 сек (типовой RAG) · Prompt 64k+: 3–5 мин → fallback на API. Стратегия: хорошее RAG-чанкирование 4–16k достаточно для 95% запросов.

12 / Бюджет

Бюджет на 12 месяцев

Две развилки: остаёмся на Mac или переходим в колокацию в месяце 4.

Сценарий 3a (Mac)
~$45k
минимальный, с запасом по бюджету
Сценарий 3b (Mac → колокация)
~$87k
если нужен файнтюн и рост нагрузки
CAPEX Фазы 0–1
$7k
Mac Studio 192 GB
Точка невозврата
мес 4
макс. потеря ~$15k
Сравнение сценариев 3a и 3b на 12 мес, USD

Сценарий 3a — остаёмся на Mac (рекомендуется как default)

СтатьяПериодСумма
Фаза 0 — Mac Studio + подрядчик2 недели$8 000
Фаза 1 — пилот в офисе3 мес$6 600
Фаза 2 — точка решения1 мес$2 200
Фаза 3a — эксплуатация на Mac8 мес$22 000
Запас на форс-мажор+15%~$6 000
Итого 12 мес~$45 000

Сценарий 3b — Mac → колокация в месяце 4

СтатьяПериодСумма
Фазы 0–24 мес$16 800
Фаза 3b — CAPEX железа (2× RTX 6000 Pro)разово$32 000
Фаза 3b — OPEX (колокация + подрядчик + сервисы)8 мес$27 000
Запас на форс-мажор+15%~$11 000
Итого 12 мес~$87 000
13 / Управление рисками

Риски и митигации

РискМитигация
Длинный контекст 128k медленный на Mac Хорошее RAG-чанкирование 4–16k достаточно для 95% запросов; редкие длинные — через Together API
Vision-модели тормозят на Mac Локально Qwen-VL 7B для типовых случаев; тяжёлая Qwen-VL 72B через API при индексации
Mac выходит из строя Запасной MacBook Pro с теми же моделями; API fallback включается за 5 мин; AppleCare для замены за 1–2 дня
Подрядчик пропадает / срывает сроки Контракт с вехами, репозиторий и инфраструктура в собственности компании, обязательная документация
Качество не дотягивает до «среднего аналитика» Реранкеры (bge-reranker), graph-RAG, doc-aware chunking, итерации в Фазе 1; апгрейд до 512 GB для DeepSeek V3
Нагрузка превысит возможности Mac Вторая Mac Studio ($7k) или переход к Фазе 3b (колокация) в месяце 4
GPU дороже на 30%+ к моменту колокации Решение откладывается до Фазы 3b; альтернатива 2× L40S ($22–28k); запас $11k в бюджете
Founder меняет приоритеты Phased план — выход в конце любой фазы; в первые 4 мес макс. потери ~$15k (Mac остаётся как dev-машина)
Сложно сформулировать KPI Eval-сет 100 Q&A в Фазе 0; метрики DAU, времени поиска, доли «полезных» ответов; человеко-часы отдела
Принцип обратимости

На каждой фазе решение можно пересмотреть. CAPEX-инвестиция в колокацию ($32k) делается только в месяце 4 и только при подтверждённом ROI и потребности в файнтюне. До этого момента потери ограничены ~$15k, и Mac остаётся полезным как dev-машина.

14 / Что дальше

Следующие шаги

Что нужно прояснить с founder (не блокирует Фазу 0)

  1. Mac 192 vs 512 GB? 192 — достаточно для Llama 3.3 70B Q8. 512 — открывает DeepSeek V3 / Llama 4 (+$4–5k). Рекомендация: 192 на старте, апгрейд через год.
  2. Размещение Mac в офисе. Где конкретно, доступ в сеть, UPS?
  3. Часы подрядчика. 20 или 30 ч/мес на старте?
  4. Эталонные Q&A. Кто в команде сформирует ~100 пар вопрос-ответ?
  5. Product owner. Кто в отделе будет собирать обратную связь?
  6. VPN. Tailscale / WireGuard / другое для удалёнки — кто настроит?

Действия на этой неделе

  1. Согласовать рекомендацию с founder.
  2. Заказать Mac Studio M3 Ultra 192 GB (доставка 5–10 дней).
  3. Открыть поиск remote-подрядчика (MLOps + RAG опыт с MLX/llama.cpp).
  4. Запросить DPA у Together AI как fallback-провайдера.
  5. Назначить ответственного за сбор эталонного eval-сета.
  6. Зафиксировать решение в decision log.

Что попадает в следующий этап работ

  • Архитектура RAG-пайплайна и схема индексации.
  • Бенчмарки моделей на корпоративных данных.
  • Юр. обработка DPA с провайдерами.
  • Выбор конкретного подрядчика и условия контракта.
  • Дизайн ботов и интеграции с SharePoint и БД.
  • Политика ролей и audit log.
Базовая рекомендация

Сценарий А′: Mac Studio M3 Ultra 192 GB в офис. Старт через 1–2 недели. Данные не покидают офис. Llama 3.3 70B Q8 локально, RAG-пайплайн, боты Telegram/Slack/Teams/web. API только как fallback. К месяцу 4 — ROI-чекпойнт. TCO 12 мес: ~$45k (остаёмся на Mac) или ~$87k (с колокацией). Оба варианта в рамках $50k CAPEX.