Вы купили сервер или мощный ПК, чтобы запустить AI-модель для бизнеса. Но через час поняли: модель не лезет в видеокарту, всё тормозит, а вы не знаете, что такое VRAM. Знакомая боль? В этой статье разберём, как выбрать видеокарту (GPU) для локального AI - чтобы модель работала быстро, а вы не переплачивали за лишние ядра. Никаких курсов на полгода - только конкретные цифры и цены на 2026 год.
Разберём на примере стройфирмы: у вас есть прайс на 500 позиций и типовой договор подряда. Вы хотите, чтобы AI отвечал клиентам в чате, не путая цены. Для этого нужна модель, которая помещается в видеокарту целиком. Если модель не влезает - она будет тормозить или выдавать мусор. Всё упирается в один параметр: объём видеопамяти (VRAM).
Ключевой параметр: VRAM и размер модели
Любая языковая модель хранит свои «знания» в виде чисел - параметров. Каждый параметр в обычном формате занимает 2 байта. Модель с 7 миллиардами параметров (7B) - это 14 гигабайт в формате FP16. Если у видеокарты всего 8 гигабайт - модель не влезет целиком, часть будет на процессоре, и скорость упадёт в разы.
Но есть трюк: квантование. Это сжатие модели с потерей точности. Вы жертвуете немного качеством, но модель становится в 2-4 раза меньше. Вот таблица, сколько весят популярные модели после сжатия:
| Квантование | Байт/параметр | 7B | 13B | 70B |
|---|---|---|---|---|
| FP16 | 2.0 | 14 GB | 26 GB | 140 GB |
| Q8 | 1.0 | 7 GB | 13 GB | 70 GB |
| Q5_K_M | ~0.63 | 4.7 GB | 8.7 GB | 44 GB |
| Q4_K_M | ~0.55 | 4.1 GB | 7.6 GB | 40 GB |
| Q3_K_M | ~0.42 | 3.1 GB | 5.8 GB | 30 GB |
Помимо весов модели нужна дополнительная память для обработки контекста - истории диалога. Например, для модели Llama-3.1-8B с контекстом 8192 токенов (примерно 6000 слов) нужно ещё 1-2 гигабайта. А если контекст 32768 токенов - уже 4-8 гигабайт. Планируйте с запасом.
Практическое правило для выбора видеокарты:
- 8 GB VRAM: модель 7B в сжатом Q4 помещается, но контекст всего до 4000 токенов - для коротких ответов.
- 12 GB VRAM: модель 7B комфортно или 13B в Q4 с частичной выгрузкой на процессор (будет медленнее).
- 16 GB VRAM: модель 13B в Q8 или 13B в Q4 с полным контекстом - уже можно обрабатывать договоры.
- 24 GB VRAM: модель 70B в Q4 с частичной выгрузкой на процессор - для серьёзных задач.
- 48 GB VRAM: модель 70B в Q8 целиком - максимальная скорость.
Для актуальных моделей: Llama-3.3-70B в Q4_K_M весит 40 GB, Qwen2.5-72B в Q4_K_M - 41 GB, Mistral-24B в Q8 - 24 GB.
Consumer NVIDIA RTX: от бюджета до топа
Если у вас нет $10 000 на серверную видеокарту, смотрите на потребительские RTX. Вот три варианта для бизнеса.
RTX 4060 Ti 16 GB - бюджетный вариант:
- VRAM: 16 GB GDDR6
- Пропускная способность памяти: 288 GB/s
- Цена: ~35 000 руб. (2026)
- Подходит для: модель 13B в Q8 или 30B в Q4 (с частью на процессоре)
- Ограничение: низкая скорость памяти - генерация будет медленной, около 30 токенов в секунду для 8B модели. Для чата с клиентами хватит, но если нужно быстро обрабатывать документы - лучше добавить.
RTX 3090 24 GB - лучшее соотношение цена/VRAM на вторичном рынке:
- VRAM: 24 GB GDDR6X
- Пропускная способность памяти: 936 GB/s
- Цена: ~60 000-70 000 руб. б/у (2026)
- Подходит для: модель 13B в Q8 или 70B в Q4 (с частичной выгрузкой на процессор)
- Скорость: ~75 токенов/с для 8B модели - комфортно для бизнес-задач.
- Минус: потребляет 350 Вт, нужен мощный блок питания и хорошее охлаждение.
RTX 4090 24 GB - оптимум для одной карты:
- VRAM: 24 GB GDDR6X
- Пропускная способность памяти: 1008 GB/s
- Цена: ~170 000-190 000 руб. (2026)
- Подходит для: те же задачи, что RTX 3090, но быстрее
- Скорость: ~130 токенов/с для 8B модели, для 70B Q4 - ~35 токенов/с (с частичной выгрузкой)
- Энергопотребление: 450 Вт пиковое.
2x RTX 4090 (48 GB) - топ для малого бизнеса:
- Суммарно 48 GB VRAM (тензорный параллелизм через NVLink)
- Позволяет запустить 70B модель в Q8 или 70B в Q4 с контекстом 128K токенов
- Стоимость системы: 450 000-550 000 руб. с железом
- Настраивается через vLLM с флагом
--tensor-parallel-size 2
Зачем это бизнесу? Если вы стройфирма, модель 70B может анализировать проекты, договоры и переписку - но для этого нужно 40+ гигабайт памяти. Одна RTX 4090 не справится, а две - да.
Professional NVIDIA A-серия: ECC и NVLink
RTX A6000 48 GB (Ada):
- VRAM: 48 GB GDDR6 с ECC (коррекция ошибок)
- Пропускная способность памяти: 960 GB/s
- Цена: ~400 000-500 000 руб.
- NVLink поддержка: 2-way, 600 GB/s
- TDP: 300 Вт (меньше, чем RTX 4090)
- Сертифицирована для 24/7 работы
A100 80 GB:
- VRAM: 80 GB HBM2e
- Пропускная способность памяти: 2000 GB/s
- Цена: от 800 000 руб. за б/у PCIe версию
- NVLink 4-way с 600 GB/s
- Запускает Llama-3.3-70B в BF16 целиком - без сжатия, с максимальным качеством.
- Скорость: ~120 токенов/с для 70B модели.
Зачем профессиональная серия, если есть RTX с той же VRAM?
- ECC память: исправляет однобитные ошибки. Без неё редкие сбои дают мусорные ответы - для бизнеса это потерянные клиенты.
- NVLink высокой полосы: 600 GB/s против ~64 GB/s PCIe для тензорного параллелизма.
- Сертификация для серверных шасси и enterprise поддержка.
- Нет ограничений на количество параллельных кодировщиков (потребительские RTX ограничены).
Для домашнего использования или небольшого стартапа разница в надёжности несущественна. Но если вы запускаете круглосуточный сервис для клиентов - ECC и NVLink окупаются.
AMD ROCm 6.x в 2026: что реально работает
AMD RX 7900 XTX - 24 GB GDDR6, 960 GB/s пропускная способность, цена ~90 000-100 000 руб. При той же VRAM, что RTX 4090, - вдвое дешевле. Но есть нюансы.
Статус ROCm 6.2 (2026):
Работает без патчей:
- llama.cpp через HIP бэкенд
- PyTorch 2.5+ через ROCm
- vLLM через ROCm (официальная поддержка с v0.6+)
- Ollama (включает ROCm поддержку автоматически)
Требует настройки:
- Переменная окружения
HSA_OVERRIDE_GFX_VERSION=11.0.0для RX 7900 XTX на некоторых дистрибутивах Linux. - Flash Attention через ROCm порт - работает, но требует отдельной сборки.
Проблематично:
- Windows: ROCm на Windows всё ещё нестабилен, особенно для vLLM. Рекомендуется Linux (Ubuntu 22.04 или Debian 12).
- ExLlamaV2: официально только для NVIDIA.
- Некоторые операции в AWQ квантовании.
Radeon AI PRO R9700 (Navi 48 XTX, 32 GB) - новинка 2025 с официальной поддержкой ROCm и прямой ориентацией на AI. 32 GB VRAM при умеренной цене (~150 000 руб.) делают её интересной для 70B Q4 без NVLink.
Вывод для предпринимателя: если ваш менеджер умеет работать с Linux, AMD сэкономит 50% бюджета. Если основная система Windows - берите NVIDIA.
CUDA vs ROCm: практическое сравнение
| Критерий | NVIDIA CUDA | AMD ROCm |
|---|---|---|
| Поддержка «из коробки» | Полная | Хорошая на Linux |
| Поддержка Windows | Отличная | Ограниченная |
| vLLM | Официально | Официально (Linux) |
| llama.cpp | Отлично | Хорошо |
| ExLlamaV2 | Да | Нет |
| Flash Attention | Официально | ROCm порт |
| Экосистема инструментов | Зрелая | Догоняет |
| Цена при равной VRAM | Выше | Ниже |
Если ваша задача - запустить Ollama или llama-server на Linux, AMD экономит деньги при равной VRAM. Для vLLM в продакшне на Linux - тоже работает. Если нужен ExLlamaV2 или Windows или полная экосистема без настройки - только NVIDIA.
Пропускная способность памяти: почему скорость памяти важнее ядер
Генерация токенов - операция, упирающаяся в скорость памяти. На каждый новый токен нужно прочитать все веса модели из VRAM. Для модели 8B в Q8 это 7 GB данных за один токен.
Максимальная скорость генерации = пропускная способность памяти / размер модели.
- RTX 4090 (1008 GB/s) / 7 GB = ~144 токенов/с (теория для 8B Q8)
- RTX 3090 (936 GB/s) / 7 GB = ~134 токенов/с
- RTX 4080 (717 GB/s) / 7 GB = ~102 токенов/с
- RTX 4060 Ti 16GB (288 GB/s) / 7 GB = ~41 токенов/с
На практике достигается 70-90% от теоретического максимума.
Вывод: RTX 3090 быстрее RTX 4080 на генерации, несмотря на меньшее количество ядер. RTX 4060 Ti 16GB в 2.5 раза медленнее RTX 4090 не из-за ядер, а из-за узкой шины памяти.
При обработке промпта (первичный анализ запроса) важны ядра и скорость вычислений. Здесь RTX 4090 значительно опережает RTX 3090.
Практический чеклист покупки GPU в 2026
1. Определить целевую модель и квантование Сначала запустите модель на существующем железе или в облаке (например, через Ollama). Убедитесь, что она решает вашу задачу. Потом покупайте видеокарту под конкретный размер.
2. VRAM с запасом 20-30% Модель весит 40 GB - берите карту с 48 GB. Если набить впритык, скорость упадёт и появятся ошибки.
3. Скорость памяти важнее ядер для одиночного пользователя Большинство бизнес-сценариев - 1 запрос за раз. Скорость генерации = пропускная способность памяти / размер модели.
4. Энергопотребление и блок питания RTX 4090: 450W пиковое. Вся система (CPU, RAM, диски) - 600-700W. Нужен блок питания от 850W с сертификатом 80+ Gold.
5. AMD только на Linux Если основная система Windows - AMD сэкономит деньги, но добавит головной боли с настройкой. На Ubuntu 22.04 с AMD - в целом ок.
6. Вторичный рынок для RTX 3090 RTX 3090 за 60 000-70 000 руб. с 24 GB VRAM и 936 GB/s - отличный вариант, если бюджет ограничен. Проверьте температуру и историю нагрузки.
Частые вопросы
RTX 4090 или 2×RTX 3090 при одинаковом бюджете?
При бюджете ~170 000 руб.: RTX 4090 даёт 24 GB VRAM и 1008 GB/s, две RTX 3090 б/у - 48 GB суммарно и 1872 GB/s суммарной пропускной способности. Для одной большой модели (70B Q4) - 2×RTX 3090 с тензорным параллелизмом через vLLM выгоднее. Для нескольких меньших моделей или простой настройки - RTX 4090 удобнее. Тензорный параллелизм на двух картах без NVLink (PCIe 4.0 ×16 + ×4 или ×8+×8) даёт около 1.5-1.7× прирост вместо идеальных 2×.
AMD RX 7900 XTX работает с vLLM и llama.cpp?
Да, оба инструмента официально поддерживают ROCm 6.x на Linux. llama.cpp с HIP-бэкендом устанавливается через стандартный cmake с флагом -DGGML_HIPBLAS=ON. vLLM требует ROCm 6.1+ и Python 3.10+. Производительность 7900 XTX на llama.cpp сопоставима с RTX 4090 при той же пропускной способности памяти (960 GB/s vs 1008 GB/s).
Зачем профессиональная A-серия, если RTX дешевле при той же VRAM?
ECC память исправляет аппаратные ошибки в VRAM - критично для 24/7 работы. Без ECC один из миллионов битовых сбоев превратится в мусорный ответ. NVLink A6000 (600 GB/s) против PCIe между двумя RTX 4090 (64 GB/s) - на тензорном параллелизме разница принципиальная. Для домашней лаборатории эти аргументы не стоят 4× переплаты. Для корпоративного сервиса - стоят.
Влияет ли разгон GPU на скорость инференса?
Разгон памяти напрямую увеличивает пропускную способность - и скорость генерации. Разгон на RTX 4090 до +1000 MHz памяти даёт около 5-8% прироста. Разгон ядра влияет на обработку промпта. Следите за температурой памяти: выше 100 градусов - карта сама снижает частоту. Кастомное охлаждение или андервольтинг помогают держать частоту выше при сниженном TDP.
Можно ли использовать несколько GPU разных моделей для тензорного параллелизма?
Технически - нет для vLLM и llama.cpp: они требуют идентичных карт для тензорного параллелизма. Можно использовать разные карты для разных моделей (каждый инстанс занимает свои GPU через CUDA_VISIBLE_DEVICES), но не для одной модели одновременно. Для pipeline параллелизма (разные слои на разные GPU) - теоретически разные карты допустимы, но на практике bottleneck на медленной карте тормозит весь pipeline.
Что делать дальше
Следующий шаг - разобраться с квантованием: форматы GGUF, GPTQ, AWQ и EXL2. Они позволяют выжать больше из имеющейся VRAM. Подробнее в статье «Квантование глубже: GGUF, GPTQ, AWQ и EXL2».
А чтобы начать прямо сейчас - установите Ollama на свой компьютер. Это бесплатно и не требует программиста. Инструкция в статье «Ollama с нуля».
AI Компас (t.me/kosmoslab_ai) - канал для предпринимателей в РФ и СНГ, которые применяют AI в своём бизнесе без программиста. Разбираем инструменты и схемы - без курсов и теории.