Вы платите за Midjourney или другой облачный сервис? Месяц - $30, ещё месяц - $30. А если сервер упал или ввели цензуру - работа встала. И никакой гарантии, что завтра не заблокируют. Есть выход: поставить Stable Diffusion на свой компьютер. Разово потратить $300 на видеокарту (RTX 4060) - и она окупится за 3-4 месяца, если генерируете больше 500 картинок в месяц. Дальше - бесплатно и без ограничений.
Статья - конкретный путь от нуля до первых генераций. Никаких курсов на полгода. Всё делаете сами или с менеджером за 2-4 часа.
Что нужно для старта: железо и софт
Разберём на примере: у вас дизайн-студия, вы делаете визуализации интерьеров для клиентов. Или контент-проект - нужны картинки для соцсетей каждый день.
Минимальные требования для комфортной работы:
Для SDXL (модель 3.5 млрд параметров): видеокарта с 6 ГБ видеопамяти. Подойдут RTX 3060 (12 ГБ), RTX 4060 (8 ГБ), GTX 1660 Super (6 ГБ). На 6 ГБ SDXL работает с оптимизациями, скорость - 10-20 секунд на картинку.
Для Flux.1-dev (новая модель от Black Forest Labs): нужно 16 ГБ видеопамяти. RTX 4080 (16 ГБ) или RTX 3090 (24 ГБ). На 12 ГБ - работает медленнее.
Если видеокарты нет: можно запустить на процессоре - но картинка будет 5-20 минут. Только для знакомства, не для работы.
MacBook на M-чипе (M2 Pro, M3, M4): работает через MPS. M3 Pro (18 ГБ) генерирует SDXL за 25-40 секунд, Flux.1-schnell за 60-90 секунд. Быстрее чем CPU на Windows, но медленнее RTX 4070 в 3-5 раз.
Оперативная память: минимум 16 ГБ, лучше 32 ГБ. Место на диске: SDXL-модель весит 6-7 ГБ, Flux.1-dev - 24 ГБ (или 12 ГБ в облегчённой версии). SSD обязателен.
Какую программу выбрать: Forge, A1111 или ComfyUI
Есть три основных интерфейса для Stable Diffusion. Рекомендуем начать с Forge - он проще и быстрее.
Forge - форк Automatic1111 от разработчика lllyasviel. Работает на 20-40% быстрее оригинала, меньше ест видеопамять. Интерфейс такой же, как у A1111. Подходит для старта.
Automatic1111 - оригинальный форк с самой большой библиотекой расширений (2000+). Если нужно что-то специфическое - используйте его. Но медленнее Forge.
ComfyUI - интерфейс в виде блок-схемы (нодов). Максимальная гибкость: можно строить сложные цепочки обработки. Сложнее освоить, но для серьёзных проектов - то, что надо.
Рекомендуемый путь: начать с Forge, освоить базу, потом перейти на ComfyUI для продвинутых техник.
Установка Forge: пошаговая инструкция
Windows:
Установите Python 3.10 (не 3.11+ - будут конфликты). Скачайте с python.org, при установке поставьте галочку «Add Python to PATH».
Установите Git: git-scm.com
Откройте командную строку (Win+R, cmd) и выполните:
git clone https://github.com/lllyasviel/stable-diffusion-webui-forge
cd stable-diffusion-webui-forge
Запустите файл
webui-user.bat. При первом запуске скачаются все зависимости - это займёт 10-15 минут и около 5 ГБ трафика.Откройте браузер и перейдите по адресу
http://127.0.0.1:7860.
Linux:
git clone https://github.com/lllyasviel/stable-diffusion-webui-forge
cd stable-diffusion-webui-forge
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python launch.py
macOS (Apple Silicon):
git clone https://github.com/lllyasviel/stable-diffusion-webui-forge
cd stable-diffusion-webui-forge
./webui.sh
Полезные флаги запуска (добавьте в файл webui-user.bat в строку set COMMANDLINE_ARGS=):
--medvram- для видеокарт с 6-8 ГБ--lowvram- для 4 ГБ и процессора--xformers- ускорение (только для NVIDIA)--share- публичный доступ через интернет (для удалённой работы)
Где взять модели: CivitAI и HuggingFace
Модели - это «мозги» нейросети. Они определяют стиль картинок. Скачанные файлы кладите в папку models/Stable-diffusion/ внутри папки Forge.
SDXL-модели: CivitAI (civitai.com) - крупнейший сайт с моделями от сообщества. Ищите по фильтру «SDXL» и «Checkpoint». Топ-модели: Juggernaut XL (фотореализм), DreamShaper XL (универсальная), RealVisXL (реалистичные сцены). Перед скачиванием проверьте лицензию - для коммерции нужна разрешающая (например, CreativeML Open RAIL-M).
Flux.1-dev на HuggingFace:
- Полная версия (24 ГБ): black-forest-labs/FLUX.1-dev
- Облегчённая версия fp8 (12 ГБ): gguf-modell/FLUX.1-dev-gguf
Для Flux в Forge нужно установить расширение. Зайдите в раздел Extensions, выберите Install from URL и вставьте ссылку на расширение для Flux (ищите в сообществе Forge на GitHub).
Первая генерация: базовые настройки
После загрузки модели выберите её из выпадающего списка (Checkpoint). Введите промпт - текстовое описание того, что хотите увидеть.
Positive prompt (что хотим): пишите как теги, через запятую. Пример: masterpiece, best quality, realistic photograph, young woman, coffee shop, warm lighting, bokeh background, 35mm lens
Negative prompt (что исключить): стандартный набор - ugly, blurry, low quality, watermark, text, signature, extra fingers, deformed hands, bad anatomy
CFG Scale: 4-7 для SDXL. Чем выше, тем точнее следует промпту. Дефолт 7 работает для большинства задач.
Sampling method: DPM++ 2M Karras - надёжный универсальный вариант. Euler a - быстрый, чуть менее детальный.
Steps: 20-30 шагов. Больше 40 - почти не улучшает качество, но сильно замедляет.
Seed: -1 для случайного. Если хотите повторить результат - запомните seed и поставьте его снова.
LoRA: фирменный стиль за 150 МБ
LoRA (Low-Rank Adaptation) - это маленькие файлы (100-200 МБ), которые «надеваются» поверх основной модели и меняют стиль. Например, добавляют эффект акварели, аналоговой плёнки или фирменные цвета вашего бренда.
Файлы LoRA кладите в папку models/Lora/.
Активация в промпте: <lora:название_стиля:вес>. Вес от 0.1 до 1.0 - обычно рекомендован на странице LoRA.
Пример: anime illustration, girl in school uniform <lora:AnimeStyle_XL:0.8>, soft lighting, detailed eyes
Где брать: CivitAI, фильтр LoRA. Можно комбинировать несколько LoRA, но сумма весов не должна превышать 1.5-2.0, иначе будут артефакты.
ComfyUI: для сложных задач
ComfyUI - это интерфейс в виде блок-схемы. Каждый блок (нод) - отдельная операция: загрузка модели, промпт, генерация, сохранение. Ноды соединяются линиями.
Базовый набор нодов для txt2img:
- Load Checkpoint - загружает модель
- CLIP Text Encode (два нода) - для позитивного и негативного промпта
- Empty Latent Image - задаёт размер картинки
- KSampler - основной процесс генерации
- VAE Decode - превращает «латентное» представление в картинку
- Save Image - сохраняет результат
Установка: git clone https://github.com/comfyanonymous/ComfyUI && pip install -r requirements.txt && python main.py. Установите ComfyUI Manager - он упрощает добавление новых нодов.
Готовые workflow (схемы) можно импортировать из JSON-файлов - просто перетащите файл на холст ComfyUI. Большая библиотека на comfyworkflows.com.
Практический пример: от фото к иллюстрации
Разберём на примере: у вас дизайн-студия, нужно быстро переделать фотографию интерьера в стиле манга для презентации.
Шаг 1 (Forge, txt2img): создаём базовую фотографию.
- Модель: Juggernaut XL
- Prompt:
urban street photography, woman walking in rain, neon reflections on wet pavement, cinematic, 35mm film, night scene - Negative: стандартный
- CFG: 6, Steps: 25, Sampler: DPM++ 2M Karras
- Размер: 1024x1024
- Сохраняем результат
Шаг 2 (ComfyUI, img2img с ControlNet Canny): меняем стиль, сохраняя композицию.
- Загружаем workflow с ControlNet Canny
- Input: наше изображение из шага 1
- ControlNet: Canny preprocessor - находит контуры
- Новый промпт:
manga illustration, high contrast black and white, ink drawing style - Denoise strength: 0.7 (насколько сильно менять картинку)
- Получаем манга-версию с той же композицией
Частые вопросы
Можно ли запустить на MacBook Pro M3 и насколько медленнее?
Да, работает через MPS. MacBook Pro M3 Pro (18 ГБ): SDXL - 25-40 секунд на картинку, Flux.1-schnell - 60-90 секунд. Для сравнения: RTX 4070 - 5-10 секунд. Для нерегулярной работы достаточно. Для конвейера - нужен GPU.
Чем отличается чекпоинт от LoRA и можно ли их комбинировать?
Чекпоинт - полная модель (5-24 ГБ). LoRA - маленький патч (50-300 МБ), который меняет стиль поверх чекпоинта. Комбинировать можно и нужно: берёте базовый чекпоинт (например, Juggernaut XL) и добавляете LoRA (например, акварель). Несколько LoRA тоже работают - следите за суммой весов.
Где легально скачивать модели и на что смотреть в лицензии?
HuggingFace - официальные веса (Flux.1-dev, SDXL). CivitAI - модели сообщества. Перед скачиванием смотрите лицензию: CreativeML Open RAIL-M разрешает коммерцию с ограничениями. Apache 2.0 (Flux.1-schnell) - максимальная свобода. Non-commercial - нельзя использовать в бизнесе.
Как отключить фильтр NSFW?
В Forge и A1111 отключите Safety Checker в Settings. ComfyUI по умолчанию без фильтра. Но конкретные модели с CivitAI могут иметь свои ограничения - читайте описание.
Почему ComfyUI сложнее A1111 и когда его учить?
A1111/Forge - простые поля настроек. ComfyUI - граф нодов, сложнее. Но он позволяет строить сложные цепочки (генерация -> ControlNet -> upscale -> inpaint) в одном workflow. Изучайте, когда понадобится ControlNet, пакетная обработка или кастомные пайплайны.
Что дальше
Следующий шаг - освоить image-to-image и стилизацию с ControlNet, IPAdapter и Flux Redux. Это позволит, например, превращать фотографии товаров в разные стили за секунды.
Если хотите больше конкретных схем для бизнеса - подписывайтесь на канал.
AI Компас (t.me/kosmoslab_ai) - канал для предпринимателей в РФ и СНГ, которые применяют AI в своём бизнесе без программиста. Разбираем инструменты и схемы - без курсов и теории.