Тема

GGUF

2 материала по теме

Учебник · 5 июня 2026 г. · 8 мин

Языковая модель на своём сервере без облачных платежей

У вас бизнес, каждый запрос к ChatGPT стоит денег, а данные утекают в облако. Вот как за вечер поднять свою локальную модель на любом железе: от MacBook до старого сервера. Никакого кода, только готовые бинарники и пара команд. Разбираем llama.cpp, GGUF, CUDA и Metal - на примере стройфирмы, которая автоматизирует ответы на типовые вопросы клиентов.

Учебник · 5 июня 2026 г. · 7 мин

Большая нейросеть на своей видеокарте: GGUF, GPTQ, AWQ, EXL2

Модель Llama-3.3-70B в полном виде весит 140 ГБ - на одну карту не влезет. Квантование сжимает её до 40 ГБ, и она запускается на потребительской видеокарте. Разбираем четыре формата квантования: GGUF, GPTQ, AWQ, EXL2. Узнаете, какой выбрать под ваше железо и задачу, как сжать модель самому и не потерять качество. Без программиста - только практические шаги.