Stable Diffusion локально: картинки без облака и абонентской платы

Вы платите за Midjourney или другой облачный сервис? Месяц - $30, ещё месяц - $30. А если сервер упал или ввели цензуру - работа встала. И никакой гарантии, что завтра не заблокируют. Есть выход: поставить Stable Diffusion на свой компьютер. Разово потратить $300 на видеокарту (RTX 4060) - и она окупится за 3-4 месяца, если генерируете больше 500 картинок в месяц. Дальше - бесплатно и без ограничений.

Статья - конкретный путь от нуля до первых генераций. Никаких курсов на полгода. Всё делаете сами или с менеджером за 2-4 часа.

Что нужно для старта: железо и софт

Разберём на примере: у вас дизайн-студия, вы делаете визуализации интерьеров для клиентов. Или контент-проект - нужны картинки для соцсетей каждый день.

Минимальные требования для комфортной работы:

Для SDXL (модель 3.5 млрд параметров): видеокарта с 6 ГБ видеопамяти. Подойдут RTX 3060 (12 ГБ), RTX 4060 (8 ГБ), GTX 1660 Super (6 ГБ). На 6 ГБ SDXL работает с оптимизациями, скорость - 10-20 секунд на картинку.

Для Flux.1-dev (новая модель от Black Forest Labs): нужно 16 ГБ видеопамяти. RTX 4080 (16 ГБ) или RTX 3090 (24 ГБ). На 12 ГБ - работает медленнее.

Если видеокарты нет: можно запустить на процессоре - но картинка будет 5-20 минут. Только для знакомства, не для работы.

MacBook на M-чипе (M2 Pro, M3, M4): работает через MPS. M3 Pro (18 ГБ) генерирует SDXL за 25-40 секунд, Flux.1-schnell за 60-90 секунд. Быстрее чем CPU на Windows, но медленнее RTX 4070 в 3-5 раз.

Оперативная память: минимум 16 ГБ, лучше 32 ГБ. Место на диске: SDXL-модель весит 6-7 ГБ, Flux.1-dev - 24 ГБ (или 12 ГБ в облегчённой версии). SSD обязателен.

Какую программу выбрать: Forge, A1111 или ComfyUI

Есть три основных интерфейса для Stable Diffusion. Рекомендуем начать с Forge - он проще и быстрее.

Forge - форк Automatic1111 от разработчика lllyasviel. Работает на 20-40% быстрее оригинала, меньше ест видеопамять. Интерфейс такой же, как у A1111. Подходит для старта.

Automatic1111 - оригинальный форк с самой большой библиотекой расширений (2000+). Если нужно что-то специфическое - используйте его. Но медленнее Forge.

ComfyUI - интерфейс в виде блок-схемы (нодов). Максимальная гибкость: можно строить сложные цепочки обработки. Сложнее освоить, но для серьёзных проектов - то, что надо.

Рекомендуемый путь: начать с Forge, освоить базу, потом перейти на ComfyUI для продвинутых техник.

Установка Forge: пошаговая инструкция

Windows:

Установите Python 3.10 (не 3.11+ - будут конфликты). Скачайте с python.org, при установке поставьте галочку «Add Python to PATH».
Установите Git: git-scm.com
Откройте командную строку (Win+R, cmd) и выполните:

git clone https://github.com/lllyasviel/stable-diffusion-webui-forge
cd stable-diffusion-webui-forge

Запустите файл webui-user.bat. При первом запуске скачаются все зависимости - это займёт 10-15 минут и около 5 ГБ трафика.
Откройте браузер и перейдите по адресу http://127.0.0.1:7860.

Linux:

git clone https://github.com/lllyasviel/stable-diffusion-webui-forge
cd stable-diffusion-webui-forge
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python launch.py

macOS (Apple Silicon):

git clone https://github.com/lllyasviel/stable-diffusion-webui-forge
cd stable-diffusion-webui-forge
./webui.sh

Полезные флаги запуска (добавьте в файл webui-user.bat в строку set COMMANDLINE_ARGS=):

--medvram - для видеокарт с 6-8 ГБ
--lowvram - для 4 ГБ и процессора
--xformers - ускорение (только для NVIDIA)
--share - публичный доступ через интернет (для удалённой работы)

Где взять модели: CivitAI и HuggingFace

Модели - это «мозги» нейросети. Они определяют стиль картинок. Скачанные файлы кладите в папку models/Stable-diffusion/ внутри папки Forge.

SDXL-модели: CivitAI (civitai.com) - крупнейший сайт с моделями от сообщества. Ищите по фильтру «SDXL» и «Checkpoint». Топ-модели: Juggernaut XL (фотореализм), DreamShaper XL (универсальная), RealVisXL (реалистичные сцены). Перед скачиванием проверьте лицензию - для коммерции нужна разрешающая (например, CreativeML Open RAIL-M).

Flux.1-dev на HuggingFace:

Полная версия (24 ГБ): black-forest-labs/FLUX.1-dev
Облегчённая версия fp8 (12 ГБ): gguf-modell/FLUX.1-dev-gguf

Для Flux в Forge нужно установить расширение. Зайдите в раздел Extensions, выберите Install from URL и вставьте ссылку на расширение для Flux (ищите в сообществе Forge на GitHub).

Первая генерация: базовые настройки

После загрузки модели выберите её из выпадающего списка (Checkpoint). Введите промпт - текстовое описание того, что хотите увидеть.

Positive prompt (что хотим): пишите как теги, через запятую. Пример: masterpiece, best quality, realistic photograph, young woman, coffee shop, warm lighting, bokeh background, 35mm lens

Negative prompt (что исключить): стандартный набор - ugly, blurry, low quality, watermark, text, signature, extra fingers, deformed hands, bad anatomy

CFG Scale: 4-7 для SDXL. Чем выше, тем точнее следует промпту. Дефолт 7 работает для большинства задач.

Sampling method: DPM++ 2M Karras - надёжный универсальный вариант. Euler a - быстрый, чуть менее детальный.

Steps: 20-30 шагов. Больше 40 - почти не улучшает качество, но сильно замедляет.

Seed: -1 для случайного. Если хотите повторить результат - запомните seed и поставьте его снова.

LoRA: фирменный стиль за 150 МБ

LoRA (Low-Rank Adaptation) - это маленькие файлы (100-200 МБ), которые «надеваются» поверх основной модели и меняют стиль. Например, добавляют эффект акварели, аналоговой плёнки или фирменные цвета вашего бренда.

Файлы LoRA кладите в папку models/Lora/.

Активация в промпте: <lora:название_стиля:вес>. Вес от 0.1 до 1.0 - обычно рекомендован на странице LoRA.

Пример: anime illustration, girl in school uniform <lora:AnimeStyle_XL:0.8>, soft lighting, detailed eyes

Где брать: CivitAI, фильтр LoRA. Можно комбинировать несколько LoRA, но сумма весов не должна превышать 1.5-2.0, иначе будут артефакты.

ComfyUI: для сложных задач

ComfyUI - это интерфейс в виде блок-схемы. Каждый блок (нод) - отдельная операция: загрузка модели, промпт, генерация, сохранение. Ноды соединяются линиями.

Базовый набор нодов для txt2img:

Load Checkpoint - загружает модель
CLIP Text Encode (два нода) - для позитивного и негативного промпта
Empty Latent Image - задаёт размер картинки
KSampler - основной процесс генерации
VAE Decode - превращает «латентное» представление в картинку
Save Image - сохраняет результат

Установка: git clone https://github.com/comfyanonymous/ComfyUI && pip install -r requirements.txt && python main.py. Установите ComfyUI Manager - он упрощает добавление новых нодов.

Готовые workflow (схемы) можно импортировать из JSON-файлов - просто перетащите файл на холст ComfyUI. Большая библиотека на comfyworkflows.com.

Практический пример: от фото к иллюстрации

Разберём на примере: у вас дизайн-студия, нужно быстро переделать фотографию интерьера в стиле манга для презентации.

Шаг 1 (Forge, txt2img): создаём базовую фотографию.

Модель: Juggernaut XL
Prompt: urban street photography, woman walking in rain, neon reflections on wet pavement, cinematic, 35mm film, night scene
Negative: стандартный
CFG: 6, Steps: 25, Sampler: DPM++ 2M Karras
Размер: 1024x1024
Сохраняем результат

Шаг 2 (ComfyUI, img2img с ControlNet Canny): меняем стиль, сохраняя композицию.

Загружаем workflow с ControlNet Canny
Input: наше изображение из шага 1
ControlNet: Canny preprocessor - находит контуры
Новый промпт: manga illustration, high contrast black and white, ink drawing style
Denoise strength: 0.7 (насколько сильно менять картинку)
Получаем манга-версию с той же композицией

Частые вопросы

Можно ли запустить на MacBook Pro M3 и насколько медленнее?

Да, работает через MPS. MacBook Pro M3 Pro (18 ГБ): SDXL - 25-40 секунд на картинку, Flux.1-schnell - 60-90 секунд. Для сравнения: RTX 4070 - 5-10 секунд. Для нерегулярной работы достаточно. Для конвейера - нужен GPU.

Чем отличается чекпоинт от LoRA и можно ли их комбинировать?

Чекпоинт - полная модель (5-24 ГБ). LoRA - маленький патч (50-300 МБ), который меняет стиль поверх чекпоинта. Комбинировать можно и нужно: берёте базовый чекпоинт (например, Juggernaut XL) и добавляете LoRA (например, акварель). Несколько LoRA тоже работают - следите за суммой весов.

Где легально скачивать модели и на что смотреть в лицензии?

HuggingFace - официальные веса (Flux.1-dev, SDXL). CivitAI - модели сообщества. Перед скачиванием смотрите лицензию: CreativeML Open RAIL-M разрешает коммерцию с ограничениями. Apache 2.0 (Flux.1-schnell) - максимальная свобода. Non-commercial - нельзя использовать в бизнесе.

Как отключить фильтр NSFW?

В Forge и A1111 отключите Safety Checker в Settings. ComfyUI по умолчанию без фильтра. Но конкретные модели с CivitAI могут иметь свои ограничения - читайте описание.

Почему ComfyUI сложнее A1111 и когда его учить?

A1111/Forge - простые поля настроек. ComfyUI - граф нодов, сложнее. Но он позволяет строить сложные цепочки (генерация -> ControlNet -> upscale -> inpaint) в одном workflow. Изучайте, когда понадобится ControlNet, пакетная обработка или кастомные пайплайны.

Что дальше

Следующий шаг - освоить image-to-image и стилизацию с ControlNet, IPAdapter и Flux Redux. Это позволит, например, превращать фотографии товаров в разные стили за секунды.

Если хотите больше конкретных схем для бизнеса - подписывайтесь на канал.

AI Компас (t.me/kosmoslab_ai) - канал для предпринимателей в РФ и СНГ, которые применяют AI в своём бизнесе без программиста. Разбираем инструменты и схемы - без курсов и теории.