Какую видеокарту купить для AI в малом бизнесе

Вы купили сервер или мощный ПК, чтобы запустить AI-модель для бизнеса. Но через час поняли: модель не лезет в видеокарту, всё тормозит, а вы не знаете, что такое VRAM. Знакомая боль? В этой статье разберём, как выбрать видеокарту (GPU) для локального AI - чтобы модель работала быстро, а вы не переплачивали за лишние ядра. Никаких курсов на полгода - только конкретные цифры и цены на 2026 год.

Разберём на примере стройфирмы: у вас есть прайс на 500 позиций и типовой договор подряда. Вы хотите, чтобы AI отвечал клиентам в чате, не путая цены. Для этого нужна модель, которая помещается в видеокарту целиком. Если модель не влезает - она будет тормозить или выдавать мусор. Всё упирается в один параметр: объём видеопамяти (VRAM).

Ключевой параметр: VRAM и размер модели

Любая языковая модель хранит свои «знания» в виде чисел - параметров. Каждый параметр в обычном формате занимает 2 байта. Модель с 7 миллиардами параметров (7B) - это 14 гигабайт в формате FP16. Если у видеокарты всего 8 гигабайт - модель не влезет целиком, часть будет на процессоре, и скорость упадёт в разы.

Но есть трюк: квантование. Это сжатие модели с потерей точности. Вы жертвуете немного качеством, но модель становится в 2-4 раза меньше. Вот таблица, сколько весят популярные модели после сжатия:

Квантование	Байт/параметр	7B	13B	70B
FP16	2.0	14 GB	26 GB	140 GB
Q8	1.0	7 GB	13 GB	70 GB
Q5_K_M	~0.63	4.7 GB	8.7 GB	44 GB
Q4_K_M	~0.55	4.1 GB	7.6 GB	40 GB
Q3_K_M	~0.42	3.1 GB	5.8 GB	30 GB

Помимо весов модели нужна дополнительная память для обработки контекста - истории диалога. Например, для модели Llama-3.1-8B с контекстом 8192 токенов (примерно 6000 слов) нужно ещё 1-2 гигабайта. А если контекст 32768 токенов - уже 4-8 гигабайт. Планируйте с запасом.

Практическое правило для выбора видеокарты:

8 GB VRAM: модель 7B в сжатом Q4 помещается, но контекст всего до 4000 токенов - для коротких ответов.
12 GB VRAM: модель 7B комфортно или 13B в Q4 с частичной выгрузкой на процессор (будет медленнее).
16 GB VRAM: модель 13B в Q8 или 13B в Q4 с полным контекстом - уже можно обрабатывать договоры.
24 GB VRAM: модель 70B в Q4 с частичной выгрузкой на процессор - для серьёзных задач.
48 GB VRAM: модель 70B в Q8 целиком - максимальная скорость.

Для актуальных моделей: Llama-3.3-70B в Q4_K_M весит 40 GB, Qwen2.5-72B в Q4_K_M - 41 GB, Mistral-24B в Q8 - 24 GB.

Consumer NVIDIA RTX: от бюджета до топа

Если у вас нет $10 000 на серверную видеокарту, смотрите на потребительские RTX. Вот три варианта для бизнеса.

RTX 4060 Ti 16 GB - бюджетный вариант:

VRAM: 16 GB GDDR6
Пропускная способность памяти: 288 GB/s
Цена: ~35 000 руб. (2026)
Подходит для: модель 13B в Q8 или 30B в Q4 (с частью на процессоре)
Ограничение: низкая скорость памяти - генерация будет медленной, около 30 токенов в секунду для 8B модели. Для чата с клиентами хватит, но если нужно быстро обрабатывать документы - лучше добавить.

RTX 3090 24 GB - лучшее соотношение цена/VRAM на вторичном рынке:

VRAM: 24 GB GDDR6X
Пропускная способность памяти: 936 GB/s
Цена: ~60 000-70 000 руб. б/у (2026)
Подходит для: модель 13B в Q8 или 70B в Q4 (с частичной выгрузкой на процессор)
Скорость: ~75 токенов/с для 8B модели - комфортно для бизнес-задач.
Минус: потребляет 350 Вт, нужен мощный блок питания и хорошее охлаждение.

RTX 4090 24 GB - оптимум для одной карты:

VRAM: 24 GB GDDR6X
Пропускная способность памяти: 1008 GB/s
Цена: ~170 000-190 000 руб. (2026)
Подходит для: те же задачи, что RTX 3090, но быстрее
Скорость: ~130 токенов/с для 8B модели, для 70B Q4 - ~35 токенов/с (с частичной выгрузкой)
Энергопотребление: 450 Вт пиковое.

2x RTX 4090 (48 GB) - топ для малого бизнеса:

Суммарно 48 GB VRAM (тензорный параллелизм через NVLink)
Позволяет запустить 70B модель в Q8 или 70B в Q4 с контекстом 128K токенов
Стоимость системы: 450 000-550 000 руб. с железом
Настраивается через vLLM с флагом --tensor-parallel-size 2

Зачем это бизнесу? Если вы стройфирма, модель 70B может анализировать проекты, договоры и переписку - но для этого нужно 40+ гигабайт памяти. Одна RTX 4090 не справится, а две - да.

Professional NVIDIA A-серия: ECC и NVLink

RTX A6000 48 GB (Ada):

VRAM: 48 GB GDDR6 с ECC (коррекция ошибок)
Пропускная способность памяти: 960 GB/s
Цена: ~400 000-500 000 руб.
NVLink поддержка: 2-way, 600 GB/s
TDP: 300 Вт (меньше, чем RTX 4090)
Сертифицирована для 24/7 работы

A100 80 GB:

VRAM: 80 GB HBM2e
Пропускная способность памяти: 2000 GB/s
Цена: от 800 000 руб. за б/у PCIe версию
NVLink 4-way с 600 GB/s
Запускает Llama-3.3-70B в BF16 целиком - без сжатия, с максимальным качеством.
Скорость: ~120 токенов/с для 70B модели.

Зачем профессиональная серия, если есть RTX с той же VRAM?

ECC память: исправляет однобитные ошибки. Без неё редкие сбои дают мусорные ответы - для бизнеса это потерянные клиенты.
NVLink высокой полосы: 600 GB/s против ~64 GB/s PCIe для тензорного параллелизма.
Сертификация для серверных шасси и enterprise поддержка.
Нет ограничений на количество параллельных кодировщиков (потребительские RTX ограничены).

Для домашнего использования или небольшого стартапа разница в надёжности несущественна. Но если вы запускаете круглосуточный сервис для клиентов - ECC и NVLink окупаются.

AMD ROCm 6.x в 2026: что реально работает

AMD RX 7900 XTX - 24 GB GDDR6, 960 GB/s пропускная способность, цена ~90 000-100 000 руб. При той же VRAM, что RTX 4090, - вдвое дешевле. Но есть нюансы.

Статус ROCm 6.2 (2026):

Работает без патчей:

llama.cpp через HIP бэкенд
PyTorch 2.5+ через ROCm
vLLM через ROCm (официальная поддержка с v0.6+)
Ollama (включает ROCm поддержку автоматически)

Требует настройки:

Переменная окружения HSA_OVERRIDE_GFX_VERSION=11.0.0 для RX 7900 XTX на некоторых дистрибутивах Linux.
Flash Attention через ROCm порт - работает, но требует отдельной сборки.

Проблематично:

Windows: ROCm на Windows всё ещё нестабилен, особенно для vLLM. Рекомендуется Linux (Ubuntu 22.04 или Debian 12).
ExLlamaV2: официально только для NVIDIA.
Некоторые операции в AWQ квантовании.

Radeon AI PRO R9700 (Navi 48 XTX, 32 GB) - новинка 2025 с официальной поддержкой ROCm и прямой ориентацией на AI. 32 GB VRAM при умеренной цене (~150 000 руб.) делают её интересной для 70B Q4 без NVLink.

Вывод для предпринимателя: если ваш менеджер умеет работать с Linux, AMD сэкономит 50% бюджета. Если основная система Windows - берите NVIDIA.

CUDA vs ROCm: практическое сравнение

Критерий	NVIDIA CUDA	AMD ROCm
Поддержка «из коробки»	Полная	Хорошая на Linux
Поддержка Windows	Отличная	Ограниченная
vLLM	Официально	Официально (Linux)
llama.cpp	Отлично	Хорошо
ExLlamaV2	Да	Нет
Flash Attention	Официально	ROCm порт
Экосистема инструментов	Зрелая	Догоняет
Цена при равной VRAM	Выше	Ниже

Если ваша задача - запустить Ollama или llama-server на Linux, AMD экономит деньги при равной VRAM. Для vLLM в продакшне на Linux - тоже работает. Если нужен ExLlamaV2 или Windows или полная экосистема без настройки - только NVIDIA.

Пропускная способность памяти: почему скорость памяти важнее ядер

Генерация токенов - операция, упирающаяся в скорость памяти. На каждый новый токен нужно прочитать все веса модели из VRAM. Для модели 8B в Q8 это 7 GB данных за один токен.

Максимальная скорость генерации = пропускная способность памяти / размер модели.

RTX 4090 (1008 GB/s) / 7 GB = ~144 токенов/с (теория для 8B Q8)
RTX 3090 (936 GB/s) / 7 GB = ~134 токенов/с
RTX 4080 (717 GB/s) / 7 GB = ~102 токенов/с
RTX 4060 Ti 16GB (288 GB/s) / 7 GB = ~41 токенов/с

На практике достигается 70-90% от теоретического максимума.

Вывод: RTX 3090 быстрее RTX 4080 на генерации, несмотря на меньшее количество ядер. RTX 4060 Ti 16GB в 2.5 раза медленнее RTX 4090 не из-за ядер, а из-за узкой шины памяти.

При обработке промпта (первичный анализ запроса) важны ядра и скорость вычислений. Здесь RTX 4090 значительно опережает RTX 3090.

Практический чеклист покупки GPU в 2026

1. Определить целевую модель и квантование Сначала запустите модель на существующем железе или в облаке (например, через Ollama). Убедитесь, что она решает вашу задачу. Потом покупайте видеокарту под конкретный размер.

2. VRAM с запасом 20-30% Модель весит 40 GB - берите карту с 48 GB. Если набить впритык, скорость упадёт и появятся ошибки.

3. Скорость памяти важнее ядер для одиночного пользователя Большинство бизнес-сценариев - 1 запрос за раз. Скорость генерации = пропускная способность памяти / размер модели.

4. Энергопотребление и блок питания RTX 4090: 450W пиковое. Вся система (CPU, RAM, диски) - 600-700W. Нужен блок питания от 850W с сертификатом 80+ Gold.

5. AMD только на Linux Если основная система Windows - AMD сэкономит деньги, но добавит головной боли с настройкой. На Ubuntu 22.04 с AMD - в целом ок.

6. Вторичный рынок для RTX 3090 RTX 3090 за 60 000-70 000 руб. с 24 GB VRAM и 936 GB/s - отличный вариант, если бюджет ограничен. Проверьте температуру и историю нагрузки.

Частые вопросы

RTX 4090 или 2×RTX 3090 при одинаковом бюджете?

При бюджете ~170 000 руб.: RTX 4090 даёт 24 GB VRAM и 1008 GB/s, две RTX 3090 б/у - 48 GB суммарно и 1872 GB/s суммарной пропускной способности. Для одной большой модели (70B Q4) - 2×RTX 3090 с тензорным параллелизмом через vLLM выгоднее. Для нескольких меньших моделей или простой настройки - RTX 4090 удобнее. Тензорный параллелизм на двух картах без NVLink (PCIe 4.0 ×16 + ×4 или ×8+×8) даёт около 1.5-1.7× прирост вместо идеальных 2×.

AMD RX 7900 XTX работает с vLLM и llama.cpp?

Да, оба инструмента официально поддерживают ROCm 6.x на Linux. llama.cpp с HIP-бэкендом устанавливается через стандартный cmake с флагом -DGGML_HIPBLAS=ON. vLLM требует ROCm 6.1+ и Python 3.10+. Производительность 7900 XTX на llama.cpp сопоставима с RTX 4090 при той же пропускной способности памяти (960 GB/s vs 1008 GB/s).

Зачем профессиональная A-серия, если RTX дешевле при той же VRAM?

ECC память исправляет аппаратные ошибки в VRAM - критично для 24/7 работы. Без ECC один из миллионов битовых сбоев превратится в мусорный ответ. NVLink A6000 (600 GB/s) против PCIe между двумя RTX 4090 (64 GB/s) - на тензорном параллелизме разница принципиальная. Для домашней лаборатории эти аргументы не стоят 4× переплаты. Для корпоративного сервиса - стоят.

Влияет ли разгон GPU на скорость инференса?

Разгон памяти напрямую увеличивает пропускную способность - и скорость генерации. Разгон на RTX 4090 до +1000 MHz памяти даёт около 5-8% прироста. Разгон ядра влияет на обработку промпта. Следите за температурой памяти: выше 100 градусов - карта сама снижает частоту. Кастомное охлаждение или андервольтинг помогают держать частоту выше при сниженном TDP.

Можно ли использовать несколько GPU разных моделей для тензорного параллелизма?

Технически - нет для vLLM и llama.cpp: они требуют идентичных карт для тензорного параллелизма. Можно использовать разные карты для разных моделей (каждый инстанс занимает свои GPU через CUDA_VISIBLE_DEVICES), но не для одной модели одновременно. Для pipeline параллелизма (разные слои на разные GPU) - теоретически разные карты допустимы, но на практике bottleneck на медленной карте тормозит весь pipeline.

Что делать дальше

Следующий шаг - разобраться с квантованием: форматы GGUF, GPTQ, AWQ и EXL2. Они позволяют выжать больше из имеющейся VRAM. Подробнее в статье «Квантование глубже: GGUF, GPTQ, AWQ и EXL2».

А чтобы начать прямо сейчас - установите Ollama на свой компьютер. Это бесплатно и не требует программиста. Инструкция в статье «Ollama с нуля».

AI Компас (t.me/kosmoslab_ai) - канал для предпринимателей в РФ и СНГ, которые применяют AI в своём бизнесе без программиста. Разбираем инструменты и схемы - без курсов и теории.