dotart / 2026

Собственный AI-сервер

Анализ инфраструктурных вариантов для корпоративного RAG: поиск по документам компании и генерация на их основе. От пилота на serverless API до колокации с GPU.

Дата

14 мая 2026

Заказчик

az@nic.art / founder

Горизонт

12 мес → 2–3 года

Документ

Версия 1.0

01 / Постановка задачи

Что нужно решить

Сравнить три магистральных пути развёртывания AI-инфраструктуры и принять обоснованное стартовое решение.

Цели проекта

Корпоративный RAG

Поиск по документам компании с генерацией связных ответов на естественном языке.

Генерация на основе корп. данных

Проекты документов, выжимки, аналитические записки, ответы клиентам.

Файнтюн моделей (опц.)

Адаптация под доменную терминологию и стилистику. Только для вариантов с GPU.

Своя векторизация (опц.)

Embedding и собственная векторная база. Без зависимости от провайдеров на проде.

02 / Вводные

Вводные и ограничения

Объём документов

100k–1M

50–500 GB

Пользователи

5–20

один отдел

CAPEX лимит

$50k

единоразово

OPEX лимит

$2–3k

в месяц

Ключевые ограничения от founder

Параметр	Значение	Влияние
Юрисдикция данных	США	Колокация в US или US-регионы облака
Особые режимы данных	Нет	Без ПДн/гос. сведений, обычный режим
Managed API на пилоте	Да при NDA/DPA	Together, Fireworks, Bedrock допустимы
Закрытые модели на пилоте	Нет	Только open-source: Llama, Qwen, DeepSeek
Размещение в офисе	Mac — да · rack — нет	Mac Studio как primary; rack-сервер только в колокации
DevOps	Удалённый подрядчик	Нужна low-touch инфраструктура и документация
Файнтюн	До 500 GB корп. данных	Нужны GPU (свои или арендованные)
Контекст запроса	64–128k токенов	Mac неоптимален, нужны GPU с HBM
Latency	До 30 сек	Допустимо для RAG с длинным промптом
Качество ответа	Средний–старший аналитик	Модели 70B+, продвинутый RAG
ROI	4–6 мес, ROI до железа	Сначала API-пилот, потом инвестиция
Горизонт планирования	12 мес → 2–3 года	Решения должны быть обратимы

03 / Три магистральных пути

Три варианта развёртывания

Вариант 1

Локальный сервер

Mac Studio, DGX Spark, Workstation в офисе.

CAPEX: $3–18k
OPEX: $20–100/мес
Старт: 2–4 нед
Файнтюн: ограниченно
Конфиденциальность: максимум

Вариант 2

Своя стойка в датацентре

Rack-сервер с 2–8 GPU у провайдера.

CAPEX: $25–400k
OPEX: $300–5 000/мес
Старт: 6–12 нед
Файнтюн: да
Конфиденциальность: максимум

Вариант 3

Аренда GPU в облаке

RunPod, Lambda, CoreWeave, AWS, serverless API.

CAPEX: $0
OPEX: $150–18 000/мес
Старт: 1–7 дней
Файнтюн: да
Конфиденциальность: при DPA

Базовое правило выбора

Колокация дешевле облака, если железо используется ≥40% времени на горизонте 2+ лет. Эпизодическая нагрузка — выгоднее облако. На пилоте до подтверждения ROI — практически всегда облако/API.

04 / Вариант 1

Локальный сервер

Машина в офисе/дома, обслуживающая 5–20 пользователей по локальной сети или VPN. Только inference, минимальный OPEX.

1A · Apple

Mac Studio M3 Ultra 192 GB

$6.5–7.5k

CAPEX · унифиц. память

Любые модели до ~100B FP16/Q4
8–14 TPS на 70B Q4
Очень тихий, ~270W
Нет CUDA, нет файнтюна 70B

1B · Apple

Mac Studio M3 Ultra 512 GB

$10–12k

CAPEX · топ unified memory

DeepSeek V3 671B Q4 локально
Любые open-source SOTA
Уникальное предложение в сегменте
Медленный prompt processing

1C · NVIDIA

DGX Spark 128 GB

$3–4k

CAPEX · CUDA-десктоп

Llama 3.3 70B Q4/Q5
Полный CUDA-стек, vLLM, TensorRT
Тихий, маленький, дешёвый
Лимит 128 GB на модели

1D · Workstation

RTX 6000 Pro Blackwell 96 GB

$13–18k

CAPEX · топ inference для офиса

30–50 TPS на 70B Q4
LoRA-файнтюн до 30B
Лицензия RTX Pro допускает DC
Шумно, ~900W

1E · Workstation

2× RTX 5090 32 GB

$8–11k

CAPEX · бюджетный CUDA

70B Q4 split на 2 карты
Высокая скорость до 70B
~1200W, громко
Consumer-карты не для DC

Плюсы варианта 1

Максимальная конфиденциальность
Низкий OPEX
Быстрый старт (2–4 недели)

Минусы варианта 1

Нет файнтюна крупных моделей
Нет резервирования (single point of failure)
В офисе нужно место, питание, охлаждение

05 / Вариант 2

Свой сервер в стойке колокации

Покупаем серверную платформу с GPU, ставим в датацентр. Полный контроль, возможен файнтюн, OPEX на электричество и место в стойке.

2A · entry-level

2× RTX 6000 Pro Blackwell

$28–35k

CAPEX · 192 GB VRAM · 2U

Inference 70B FP16
LoRA-файнтюн до 70B
OPEX колокации $400–700/мес
20–50 одновременных пользователей

2B · universal

4× RTX 6000 Pro Blackwell

$55–70k

CAPEX · 384 GB VRAM · 4U

Inference 405B Q4, DeepSeek V3 впритык
LoRA 70B + полный файнтюн до 13B
OPEX $700–1 200/мес
Запас на 2–3 года

2C · enterprise

8× NVIDIA H200 SXM

$300–400k

CAPEX · 1128 GB HBM3e · NVLink

Полный файнтюн 70–405B
Тяжёлый продакшен 100–500 польз.
OPEX $2.5–5k/мес, нужна водянка
Окупается при загрузке ≥60% 24/7

2D · бюджет

2× NVIDIA L40S 48 GB

$22–28k

CAPEX · 96 GB VRAM · 2U

Inference 70B Q4/Q8
LoRA до 13B
OPEX $300–500/мес
Устоявшееся железо с гарантиями

Важно при колокации

Consumer RTX 5090/4090 формально нельзя ставить в коммерческий DC (NVIDIA EULA). Допустимы RTX 6000 Pro/Ada, L40S, H100/H200, B200. Это удорожает железо в 2–3 раза против «домашних» вариантов.

06 / Вариант 3

Аренда GPU в облаке

Платим только за использование. Hyperscale (AWS/GCP/Azure) — дорого, но с SLA. GPU-first провайдеры (CoreWeave, Lambda, RunPod) — в 2–4× дешевле.

3A · entry

1× A100 80 GB / L40S

$1.20–$2.00 / час

on-demand · Lambda, RunPod, Hetzner

70B Q4/Q8 inference
LoRA до 13B
8 ч/день: ~$260–500/мес
24/7: ~$800–1 500/мес

3B · средний

1× H100 80 GB

$2.50–$3.50 / час

on-demand · CoreWeave, Lambda

70B FP16, LoRA до 30B
Reserved 1y: $2/час
24/7 reserved: $1 450–1 800/мес
AWS p5: ~$10/час за тот же GPU

3C · обучение

8× H100 / 8× H200

$24–$45 / час

on-demand · большой узел

Полный файнтюн 70–405B
1 неделя в месяц: ~$5 000
24/7 reserved: ~$18 000/мес
AWS retail: ~$70k/мес

3D · serverless

Together / Fireworks / Groq API

$0.20–$0.90 / 1M токенов

оплата по факту, open-source модели

Llama 3.3 70B, DeepSeek V3, Qwen 2.5
Наш сценарий: ~$150–500/мес
Авто-масштабирование, ноль инфраструктуры
DPA: данные не идут в обучение

07 / Сравнение

Совокупная стоимость на 36 месяцев

Сумма CAPEX и OPEX за три года. Допущения: режим эксплуатации «как production», цены подтверждены у дистрибьюторов в начале 2026.

TCO 36 мес, USD (без зарплат)

Где находится break-even

1× H100 24/7 в течение 3 лет: облако ~$72k vs свой сервер ~$30–35k → колокация выгоднее в 2 раза.
1× H100 эпизодически (~25% времени): облако ~$18k vs свой сервер ~$30k → облако выгоднее на $12k.

08 / Сценарии развития

Пять сценариев комбинации вариантов

Сценарий	Логика	CAPEX	OPEX 36м	TCO 36м	Риск
А API → железо	Пилот на API, потом колокация	~$45k	~$35k	~$80k	низкий
Б Mac → облако → колокация	Сразу полная изоляция, обучение в облаке	~$69k	~$32k	~$100k	средний
В Сразу колокация	Долгосрочная ставка с первого дня	$62k	~$33k	~$95k	высокий
Г Только облако	Никогда не покупаем железо	$0	~$65k	~$65k	низкий
Д Mac 512 GB → колокация	Уникальный low-cost доступ к DeepSeek V3 локально	~$25k	~$15k	~$40k	средний

TCO сценариев на 36 мес, USD

09 / Ответы founder

Что мы знаем после чек-листа

Бюджет и бизнес

CAPEX лимит	До $50k
OPEX лимит	$2 000–3 000 / мес
Срок до ROI	4–6 мес
ROI до закупки железа	Да, обязательно
Решение принимает	Founder

Данные

Юрисдикция	США
Особые режимы (ПДн и т.п.)	Нет
Managed API на пилоте	Да при DPA
Форматы	PDF, DOCX, HTML, письма, БД
Источники	SharePoint, базы данных, облако
Audit log	Желательно

Технические требования

Latency	До 30 сек
Контекст запроса	64–128k токенов
Мультимодальность	Распознавание (vision), без генерации
Файнтюн	Да, на ~500 GB корп. данных
Резервирование с 1-го дня	Нет, потом

Команда и инфраструктура

DevOps	Удалённый подрядчик
Серверная в офисе	Нет места
Интернет	100 Мб – 1 Гб, VPN для удалёнки
RAG-пайплайн	С нуля
Интеграции	Telegram, Slack, Teams, web-чат

Модели и качество

Опыт	Claude
Закрытые модели на пилоте	Нет
Целевое качество	Средний–старший аналитик
Эталонные вопросы-ответы	Нужно сформировать

10 / Применение фильтров

Как ответы сузили выбор

Ответ	Что отбрасывает	Что оставляет
Mac в офисе — да, rack — нет	Колокация на старте	Mac Studio как primary; колокация во 2-й половине года
Юрисдикция США	Хостинг в РФ/ЕС	Mac локально + при необходимости US-регионы
CAPEX до $50k	4× RTX 6000 Pro ($60k+), 8× H200 ($300k+)	Mac $7–11k + опц. 2× RTX 6000 Pro колокация
OPEX $2–3k	8× H100 reserved 24/7 ($18k+/мес)	Mac (без OPEX) + подрядчик + опц. API/cloud
ROI 4–6 мес до железа	Сразу колокация (3 мес до старта)	Mac за 1–2 недели, ROI к мес 3–4
Без закрытых моделей	Claude, GPT-5 как основа	Llama 3.3 70B локально на Mac
Managed API на пилоте — да	—	Together / Fireworks как fallback для vision и 128k
Файнтюн на ~500 GB	Mac как primary для файнтюна 70B	Mac для inference, файнтюн — cloud GPU при необходимости
Контекст 64–128k	Mac на пиковых случаях (медленно)	Mac для типовых 4–16k, API для редких длинных
Качество ≈ старший аналитик	Модели <30B	Llama 3.3 70B Q8/FP16 на Mac

Магистральный путь

Сценарий А′: Mac Studio в офисе → опц. колокация в США. Старт с Mac Studio M3 Ultra 192 GB в офисе как primary, serverless API только как fallback. Колокация — во второй половине года, если подтвердится регулярная потребность в файнтюне или вырастет нагрузка.

11 / План действий

План: Mac в офисе как старт

Начинаем с Mac Studio в офисе. Данные сразу не покидают периметр компании. Колокация — опционально на втором полугодии.

Фаза 0

Заказ Mac + подрядчик

Недели 1–2

Заказ Mac Studio M3 Ultra 192 GB
Подрядчик MLOps remote
Стек: Llama 3.3 70B, bge-m3, Qdrant
DPA с Together (для fallback)
Eval-сет: ~100 эталонных Q&A

$8 000

Фаза 1

Mac-пилот в офисе

Месяцы 1–3

Llama 3.3 70B Q8 через MLX/llama.cpp
Qdrant self-hosted на Mac
LlamaIndex + FastAPI + Auth0
Боты: Telegram, Slack, Teams, web
API fallback на 5% запросов (vision, 128k)
Данные не покидают офис

~$6 600

Фаза 2

Точка решения

Месяц 4

Оценка ROI на eval-сете + DAU
ROI + хватает Mac → 3a
ROI + нужен файнтюн / больше мощности → 3b
Нет ROI → закрытие, потеря ≤$15k

$2 200

Фаза 3a / 3b

Mac или Mac+колокация

Месяцы 4–12

3a: остаёмся на Mac, разовый файнтюн в облаке
3b: 2× RTX 6000 Pro в колокацию (US)
Mac → dev-машина для DS-команды
vLLM, файнтюн LoRA Llama 3.3 70B

3a: $22k · 3b: $59k

Целевой стек

Компонент	Решение	Где работает
LLM (генерация)	Llama 3.3 70B Q8 через MLX / llama.cpp	Mac в офисе
Vision (типовой)	Qwen 2.5-VL 7B	Mac в офисе
Vision (тяжёлый)	Qwen 2.5-VL 72B через Together API	fallback
Длинный контекст 128k	Llama 3.3 70B через Together API	fallback
Embedding	BAAI/bge-m3	Mac в офисе
Vector DB	Qdrant self-hosted Docker	Mac в офисе
Orchestration	LlamaIndex / LangChain	open-source
API gateway	FastAPI + Auth0/Clerk	Render / Fly.io
Bot integrations	Telegram + Slack + Teams + web	Render / Fly.io
VPN для удалёнки	Tailscale / WireGuard	Mac + клиенты
Audit log	Postgres + Grafana	Mac / Render
Подрядчик	Remote MLOps part-time 20–30 ч/мес	—

Производительность Mac Studio 192 GB на Llama 3.3 70B Q8

Token generation: 10–18 TPS · Prompt 8–16k: 30–80 сек (типовой RAG) · Prompt 64k+: 3–5 мин → fallback на API. Стратегия: хорошее RAG-чанкирование 4–16k достаточно для 95% запросов.

12 / Бюджет

Бюджет на 12 месяцев

Две развилки: остаёмся на Mac или переходим в колокацию в месяце 4.

Сценарий 3a (Mac)

~$45k

минимальный, с запасом по бюджету

Сценарий 3b (Mac → колокация)

~$87k

если нужен файнтюн и рост нагрузки

CAPEX Фазы 0–1

$7k

Mac Studio 192 GB

Точка невозврата

мес 4

макс. потеря ~$15k

Сравнение сценариев 3a и 3b на 12 мес, USD

Сценарий 3a — остаёмся на Mac (рекомендуется как default)

Статья	Период	Сумма
Фаза 0 — Mac Studio + подрядчик	2 недели	$8 000
Фаза 1 — пилот в офисе	3 мес	$6 600
Фаза 2 — точка решения	1 мес	$2 200
Фаза 3a — эксплуатация на Mac	8 мес	$22 000
Запас на форс-мажор	+15%	~$6 000
Итого 12 мес	—	~$45 000

Сценарий 3b — Mac → колокация в месяце 4

Статья	Период	Сумма
Фазы 0–2	4 мес	$16 800
Фаза 3b — CAPEX железа (2× RTX 6000 Pro)	разово	$32 000
Фаза 3b — OPEX (колокация + подрядчик + сервисы)	8 мес	$27 000
Запас на форс-мажор	+15%	~$11 000
Итого 12 мес	—	~$87 000

13 / Управление рисками

Риски и митигации

Риск	Митигация
Длинный контекст 128k медленный на Mac	Хорошее RAG-чанкирование 4–16k достаточно для 95% запросов; редкие длинные — через Together API
Vision-модели тормозят на Mac	Локально Qwen-VL 7B для типовых случаев; тяжёлая Qwen-VL 72B через API при индексации
Mac выходит из строя	Запасной MacBook Pro с теми же моделями; API fallback включается за 5 мин; AppleCare для замены за 1–2 дня
Подрядчик пропадает / срывает сроки	Контракт с вехами, репозиторий и инфраструктура в собственности компании, обязательная документация
Качество не дотягивает до «среднего аналитика»	Реранкеры (bge-reranker), graph-RAG, doc-aware chunking, итерации в Фазе 1; апгрейд до 512 GB для DeepSeek V3
Нагрузка превысит возможности Mac	Вторая Mac Studio ($7k) или переход к Фазе 3b (колокация) в месяце 4
GPU дороже на 30%+ к моменту колокации	Решение откладывается до Фазы 3b; альтернатива 2× L40S ($22–28k); запас $11k в бюджете
Founder меняет приоритеты	Phased план — выход в конце любой фазы; в первые 4 мес макс. потери ~$15k (Mac остаётся как dev-машина)
Сложно сформулировать KPI	Eval-сет 100 Q&A в Фазе 0; метрики DAU, времени поиска, доли «полезных» ответов; человеко-часы отдела

Принцип обратимости

На каждой фазе решение можно пересмотреть. CAPEX-инвестиция в колокацию ($32k) делается только в месяце 4 и только при подтверждённом ROI и потребности в файнтюне. До этого момента потери ограничены ~$15k, и Mac остаётся полезным как dev-машина.

14 / Что дальше

Следующие шаги

Что нужно прояснить с founder (не блокирует Фазу 0)

Mac 192 vs 512 GB? 192 — достаточно для Llama 3.3 70B Q8. 512 — открывает DeepSeek V3 / Llama 4 (+$4–5k). Рекомендация: 192 на старте, апгрейд через год.
Размещение Mac в офисе. Где конкретно, доступ в сеть, UPS?
Часы подрядчика. 20 или 30 ч/мес на старте?
Эталонные Q&A. Кто в команде сформирует ~100 пар вопрос-ответ?
Product owner. Кто в отделе будет собирать обратную связь?
VPN. Tailscale / WireGuard / другое для удалёнки — кто настроит?

Действия на этой неделе

Согласовать рекомендацию с founder.
Заказать Mac Studio M3 Ultra 192 GB (доставка 5–10 дней).
Открыть поиск remote-подрядчика (MLOps + RAG опыт с MLX/llama.cpp).
Запросить DPA у Together AI как fallback-провайдера.
Назначить ответственного за сбор эталонного eval-сета.
Зафиксировать решение в decision log.

Что попадает в следующий этап работ

Архитектура RAG-пайплайна и схема индексации.
Бенчмарки моделей на корпоративных данных.
Юр. обработка DPA с провайдерами.
Выбор конкретного подрядчика и условия контракта.
Дизайн ботов и интеграции с SharePoint и БД.
Политика ролей и audit log.

Базовая рекомендация

Сценарий А′: Mac Studio M3 Ultra 192 GB в офис. Старт через 1–2 недели. Данные не покидают офис. Llama 3.3 70B Q8 локально, RAG-пайплайн, боты Telegram/Slack/Teams/web. API только как fallback. К месяцу 4 — ROI-чекпойнт. TCO 12 мес: ~$45k (остаёмся на Mac) или ~$87k (с колокацией). Оба варианта в рамках $50k CAPEX.