Как сэкономить на AI в 10-30 раз: опенсорс через облако

Q: Можно ли использовать один SDK для всех провайдеров?

Да, стандартный openai Python-пакет работает со всеми OpenAI-совместимыми провайдерами через параметр base_url. LiteLLM идёт дальше - его litellm.completion() унифицирует даже провайдеров с нестандартными форматами.

Если ваш менеджер тратит часы на ручной разбор заявок или вы платите кучу денег за GPT-4o, а качество не окупается - есть способ проще. Опенсорс-модели через облако дают ту же функциональность за 10-30 раз дешевле. И для этого не нужен свой сервер с GPU.

Разберём на примере стройфирмы: у вас есть прайс на работы и типовой договор подряда. Вы хотите, чтобы AI отвечал клиентам по ценам и срокам. GPT-4o обойдётся в копеечку, а Llama 4 Scout через Together AI - в $0.30 за миллион токенов на выходе. Разница в 30 раз. И данные не уходят в закрытые API.

Что значит «опенсорс-модель через облако»: вес модели у провайдера, вы платите за токены

Опенсорс в мире AI - это когда веса модели (её «мозги») выложены в открытый доступ. Скачать и запустить их можно, но для этого нужен мощный компьютер. Например, модель с 70 млрд параметров занимает 140 ГБ памяти и требует два дорогих GPU.

Облачный запуск решает это: провайдер ставит модель на своё железо, а вы обращаетесь к ней через API - как к OpenAI или Anthropic, только под капотом не проприетарная модель, а публичная Llama, Qwen или Mistral.

Платите за токены - единицы текста. 1 миллион токенов - это примерно 750 000 английских слов или 500 000 русских. Входные токены (ваш запрос) обычно в 3-10 раз дешевле выходных (ответ модели). У многих провайдеров есть кеширование: если вы отправляете одинаковый системный промпт, следующие запросы считаются по сниженной ставке - до $0.002 за 1M токенов.

Конкретные числа: Llama 4 Scout у Together AI стоит $0.08 за миллион входных токенов и $0.30 за миллион выходных. То есть несколько толстых романов на вход - 8 центов.

Карта провайдеров 2026: Groq, Together AI, Fireworks, Replicate, OpenRouter, DashScope, api.deepseek.com, api.moonshot.cn, Z.ai

Провайдеры делятся на два типа: те, кто держат собственное железо, и агрегаторы-посредники.

Собственная инфраструктура:

Groq - кастомные чипы LPU. Скорость 300-1000 токенов/сек на Llama 3.3 70B против 40-50 у обычных GPU. Цена Llama 3.3 70B: $0.59/M input, $0.79/M output.
Together AI - кластеры H100/H200/B200, 200+ моделей, есть fine-tuning API. Llama 4 Scout: $0.08/$0.30 per 1M.
Fireworks - фокус на низкую задержку для продакшна, гарантии по P99.
DashScope - родной API Alibaba для Qwen. Qwen3.7-Max: $1.25/$3.75 per 1M.
api.deepseek.com - прямой API DeepSeek. V4 Flash: $0.14/$0.28 per 1M, кеш-хит $0.0028.
api.moonshot.cn - Kimi K2.6 от Moonshot AI: $0.95/M input при кеш-миссе, $0.16 при кеш-хите.
Z.ai (Zhipu) - GLM-семейство, есть бесплатный Flash-уровень.

Агрегаторы:

OpenRouter - 500+ моделей от всех провайдеров через единый API. Автоматический запасной вариант, нет собственной наценки на большинстве моделей.
Replicate - модели как контейнеры, оплата за секунды GPU-времени, хорошо для нестандартных архитектур.

Ценообразование: input/output токены, cache hit, batch discount

Чтобы понимать счёт, держите в голове три вещи.

Базовые input/output токены - основа. Средний запрос: системный промпт 500 токенов + вопрос 200 токенов + ответ 800 токенов = 1500 токенов, ~$0.001 для бюджетных моделей.

Cache hit - главная экономия для приложений с постоянным системным промптом. Если первые токены запроса совпадают с предыдущими, провайдер не пересчитывает их заново. DeepSeek даёт самую агрессивную скидку: $0.0028/M на кешированных входных токенах против $0.14/M некешированных - экономия 98%. Groq предлагает batch API со скидкой 50% при доставке ответов в течение 24 часов.

Контекстные окна варьируются от 128K (Mistral Large) до 10M (Llama 4 Scout). Большой контекст стоит дороже - при отправке 500K токенов за один запрос вы платите за все 500K как за вход, даже если изменилось только последнее предложение.

Пример месячного счёта для небольшого приложения: 10 000 запросов/день. Средний размер 2000 входных + 500 выходных токенов = 20M входных + 5M выходных токенов/месяц. С Llama 4 Scout ($0.08/$0.30): $1.60 + $1.50 = $3.10/месяц.

Когда выбирать опенсорс-облако: контроль данных, кастомизация, цена vs GPT/Claude

Три главных аргумента.

Цена. GPT-4o стоит $2.50/M input, $10/M output. Llama 4 Scout у Together - $0.08/$0.30. Для задач, где Llama справляется так же хорошо, разница в 10-30 раз делает выбор очевидным.

Контроль данных. Большинство опенсорс-провайдеров предлагают режим без обучения на ваших данных - явно через параметр или по умолчанию. OpenRouter поддерживает data_collection: deny в теле запроса. Для работы с медицинскими или финансовыми данными это важно.

Кастомизация. Fine-tuning на собственных данных доступен у Together AI, Fireworks и ряда других. С проприетарными моделями fine-tuning либо недоступен, либо стоит отдельно и с ограничениями.

Аргументы против: меньшая стабильность API (провайдеры снимают модели без предупреждения), нет гарантированного SLA у дешёвых планов. Качество на сложных задачах всё ещё уступает Claude Opus или GPT-4.5.

OpenAI-совместимый формат: base_url + api_key - один паттерн для всех провайдеров

Самое удобное - стандартизация. Почти все провайдеры реализуют OpenAI-совместимый API. Переход между ними - две строчки кода. Ваш менеджер или вы сами можете это сделать за 15 минут.

from openai import OpenAI

# Together AI
client = OpenAI(
 api_key="YOUR_TOGETHER_KEY",
 base_url="https://api.together.xyz/v1"
)

# Groq
client = OpenAI(
 api_key="YOUR_GROQ_KEY",
 base_url="https://api.groq.com/openai/v1"
)

# DeepSeek
client = OpenAI(
 api_key="YOUR_DEEPSEEK_KEY",
 base_url="https://api.deepseek.com"
)

# Запрос одинаковый для всех
response = client.chat.completions.create(
 model="meta-llama/Llama-4-Scout", # слаг зависит от провайдера
 messages=[{"role": "user", "content": "Привет"}],
 max_tokens=500
)
print(response.choices[0].message.content)

Слаги моделей отличаются у каждого провайдера. У Together это meta-llama/Llama-4-Scout, у OpenRouter - meta-llama/llama-4-scout, у Groq - llama-3.3-70b-versatile. Сверяйтесь с документацией.

Практика: установка openai SDK, первый запрос к Together AI

Если у вас нет программиста, попросите любого сотрудника, кто хоть раз писал код, или сделайте сами - это 10 минут.

Команды ниже запускаются в терминале.

pip install openai

Зарегистрируйтесь на api.together.xyz, создайте API key. Первые $5 кредитов дают бесплатно на старте.

import os
from openai import OpenAI

client = OpenAI(
 api_key=os.environ["TOGETHER_API_KEY"],
 base_url="https://api.together.xyz/v1"
)

response = client.chat.completions.create(
 model="meta-llama/Llama-4-Maverick",
 messages=[
 {"role": "system", "content": "Отвечай кратко и по делу."},
 {"role": "user", "content": "Что такое MoE-архитектура в LLM?"}
 ],
 max_tokens=300,
 temperature=0.7
)

print(response.choices[0].message.content)
print(f"Токены: {response.usage.prompt_tokens} input / {response.usage.completion_tokens} output")

Тот же код работает с Groq, Fireworks и OpenRouter - меняйте только api_key и base_url.

Инструменты мониторинга расходов: LiteLLM, Helicone, встроенные дашборды

Когда проект выходит за рамки экспериментов, нужен учёт расходов.

LiteLLM - опенсорс-прокси, устанавливается локально или на сервер. Один config.yaml описывает все провайдеры, LiteLLM логирует каждый запрос, считает стоимость и умеет делать fallback. Бесплатен, self-hosted.

Helicone - SaaS-прослойка между вашим кодом и провайдером. Меняете base_url на https://gateway.helicone.ai/v1 и добавляете два заголовка. Получаете дашборд с задержкой, стоимостью, версиями промптов.

Встроенные дашборды есть у всех крупных провайдеров: Together, Groq, OpenRouter показывают токены и расходы в реальном времени. Для небольших проектов этого достаточно.

Простой self-made отслеживание через поле usage в ответе:

total_cost = 0

def tracked_request(client, **kwargs):
 response = client.chat.completions.create(**kwargs)
 input_cost = response.usage.prompt_tokens * 0.08 / 1_000_000
 output_cost = response.usage.completion_tokens * 0.30 / 1_000_000
 global total_cost
 total_cost += input_cost + output_cost
 return response

Чеклист выбора: скорость, задержка, цена, доступность fine-tuned весов, SLA

Перед выбором провайдера пройдитесь по четырём вопросам.

Скорость нужна? Если да - Groq (300-1000 tok/s). Если нет - Together или Fireworks.

Нужна конкретная модель? Qwen - DashScope или OpenRouter. DeepSeek - прямой api.deepseek.com дешевле, чем через агрегатор. GLM - только Z.ai или OpenRouter.

Бюджет ограничен? DeepSeek V4 Flash ($0.14/$0.28) и Llama 4 Scout ($0.08/$0.30) - самые дешёвые мощные варианты. GLM-4.5-Flash от Zhipu - бесплатно в рамках лимитов.

Нужен fine-tuning? Together AI - лидер по удобству кастомизации для опенсорс-моделей.

Нужен fallback и 500+ моделей в одном API? OpenRouter решает это из коробки.

Для продакшн-нагрузки разумно держать двух провайдеров: primary для обычных запросов и fallback на случай, если основной недоступен. OpenRouter делает это автоматически, LiteLLM - с явной конфигурацией.

Частые вопросы

Чем опенсорс-облако отличается от локального запуска через Ollama?

Ollama запускает модель на вашем железе - нет сетевого вызова, полная приватность, но ограничены возможности GPU. Облако снимает аппаратное ограничение и даёт доступ к 70B+ моделям без собственного кластера. Для локального запуска небольших моделей Ollama удобнее; для тяжёлых моделей в продакшне - облако.

Нужен ли VPN для доступа к DashScope или Moonshot из России?

В 2026 ситуация неоднородная. DashScope (Alibaba) и api.moonshot.cn технически доступны без VPN, но стабильность соединения разная. Если прямой доступ нестабилен, OpenRouter работает как прокси для большинства моделей - соединение идёт через серверы OpenRouter, которые физически доступны из России.

Можно ли использовать один SDK для всех провайдеров?

Да, стандартный openai Python-пакет работает со всеми OpenAI-совместимыми провайдерами через параметр base_url. LiteLLM идёт дальше - его litellm.completion() унифицирует даже провайдеров с нестандартными форматами.

Как считается стоимость: по всем токенам в контексте или только новым?

По всем токенам в запросе, включая историю диалога. Если у вас 10-ходовый диалог и контекст вырос до 8000 токенов - при следующем запросе вы платите за все 8000 на вход плюс новый ответ на выход. Это делает длинные диалоги заметно дороже. Prompt caching частично компенсирует это для фиксированного системного промпта.

Какой провайдер самый дешёвый для продакшн-нагрузки?

Зависит от паттерна. DeepSeek V4 Flash с prompt caching ($0.0028 cache-hit) выигрывает при высокой доле повторяющихся промптов. Llama 4 Scout через Together ($0.08/$0.30) - при разнообразных запросах. GLM-4.5-Flash от Zhipu - бесплатен до исчерпания лимитов, подходит для прототипов.

Практический старт: выбор модели под задачу за 5 минут

Вместо абстрактных советов - конкретная схема выбора.

Шаг 1: определите требования к скорости. Нужно больше 100 токенов/сек? Groq. Достаточно 40-80? Любой GPU-провайдер.

Шаг 2: определите контекст. До 128K - любая модель. 128K-1M - DeepSeek V4, Qwen3.7-Max, Kimi K2.6. Свыше 1M - Llama 4 Scout (10M) или DeepSeek V4 (1M).

Шаг 3: есть ли изображения? Нужна мультимодальность - Llama 4 Maverick, Qwen3.7-Plus, или проприетарные модели через OpenRouter.

Шаг 4: бюджет. Бесплатно - GLM-4.5-Flash, GLM-4.7-Flash от Zhipu. Минимальные расходы - DeepSeek V4 Flash ($0.14/M) или Llama 4 Scout ($0.08/M). Нет ограничений - Qwen3.7-Max, DeepSeek V4 Pro, Kimi K2.6.

Для большинства стартовых проектов оптимальна такая комбинация:

DeepSeek V4 Flash - основная рабочая лошадка
GLM-4.5-Flash - прототипы и low-priority задачи бесплатно
OpenRouter с Llama 4 Maverick - когда нужна мультимодальность

Безопасность и конфиденциальность данных в облачном запуске модели

Перед отправкой чувствительных данных в облачный API - несколько вопросов к провайдеру.

Используются ли данные для обучения? OpenAI, Anthropic по умолчанию не обучаются на данных API-пользователей (только UI-чатов). Большинство опенсорс-провайдеров декларируют то же самое. Проверяйте актуальную политику в документации.

Где физически хранятся данные? Для GDPR-compliance критично, что данные обрабатываются в ЕС. Mistral - парижские серверы. Для остальных - данные обычно в США или Азии.

Есть ли шифрование в транзите? Все серьёзные провайдеры - TLS 1.3. Это стандарт де-факто.

Для максимальной приватности при использовании облачных API:

# Простое удаление PII перед отправкой
import re

def anonymize_text(text: str) -> str:
 """Базовое удаление персональных данных"""
 # Email
 text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '[EMAIL]', text)
 # Телефон (RU формат)
 text = re.sub(r'\+?7[\s-]?\(?\d{3}\)?[\s-]?\d{3}[\s-]?\d{2}[\s-]?\d{2}', '[PHONE]', text)
 # Примитивный паттерн для имён (неточный, лучше использовать NER)
 return text

# Перед отправкой
cleaned_query = anonymize_text(user_input)
response = client.chat.completions.create(
 model="meta-llama/Llama-4-Scout",
 messages=[{"role": "user", "content": cleaned_query}]
)

Для строго конфиденциальных данных (медицина, финансы, юриспруденция) - локальный запуск через Ollama или self-hosted деплой на собственном сервере.

Что дальше

Следующий шаг - попробовать. Зарегистрируйтесь на Together AI (бесплатные $5), скопируйте код из этой статьи, вставьте в Python-файл и запустите. Если не хотите разбираться с кодом - попросите менеджера или фрилансера за 2 часа настроить. Экономия на AI-запросах будет видна сразу.

AI Компас (t.me/kosmoslab_ai) - канал для предпринимателей в РФ и СНГ, которые применяют AI в своём бизнесе без программиста. Разбираем инструменты и схемы - без курсов и теории.