Рекламный ролик с диалогом и звуком: Google Veo

У вас стройфирма, турагентство или онлайн-школа. Нужно быстро сделать короткое видео для соцсетей или сайта - с голосом, звуками, атмосферой. Нанять продакшн стоит 50-100 тысяч рублей и занимает неделю. А если надо просто показать товар, услугу или процесс? Google Veo 3.1 - это генератор видео, который сам создаёт 12-секундные клипы с диалогом и звуковыми эффектами из текста. Без камеры, актёров, студии. В этой статье разберём, как за 2-8 часов сделать первый ролик для своего бизнеса. Никаких курсов на полгода - только конкретные шаги.

Что изменилось в Veo 3.1: главное для бизнеса

Veo 3.1 - обновление января 2026 года. Главное: теперь видео сразу генерируется со звуком. Диалог, звуковые эффекты, фоновая атмосфера - всё из текстового описания. Не нужен отдельный шаг озвучивания. Это меняет цепочку создания контента для коротких роликов и корпоративных видео.

Коротко о цифрах:

Длина клипа: 12 секунд (было 8). Для нарративного контента 4 дополнительные секунды - целый монологовый отрывок.
Разрешение: 1080p, 24 кадра в секунду - кино-стандарт.
Аудио: многослойное - можно одновременно задать диалог, конкретные звуковые эффекты и фоновый звук.
Narrative control: модель лучше понимает последовательность событий («сначала», «затем», «в конце»).

Что не изменилось:

Нет 4K.
Базовая длина без склейки - 12 секунд.
Региональные ограничения остались.

Почему это важно для бизнеса: Раньше, чтобы сделать видео с голосом, вы нанимали диктора, звукорежиссёра, монтажёра. Теперь вы пишете текст - и получаете готовый ролик. Для малого бизнеса это экономия десятков тысяч рублей и дней работы.

Нативная генерация аудио: диалог, SFX, ambient - как это работает

Главное преимущество Veo 3.1: на начало 2026 года это единственный массово доступный генератор с полноценным нативным аудио. Конкуренты (Runway Gen-4.5) дороже и с другими ограничениями.

Три компонента аудио:

Диалог - синхронная речь персонажа с движением губ.
SFX - конкретные звуковые эффекты (шаги, звон стекла, звук мотора).
Ambient - фоновая атмосфера (шум города, лесные звуки, ресторанный гул).

Как это прописать в промпте (текстовом описании):

Разберём на примере кофейни. Допустим, вы хотите показать процесс приготовления кофе и атмосферу заведения.

Диалог - просто укажите реплику в кавычках: «A barista pours milk into espresso. He says: "This is our signature latte."»
SFX - опишите звук через скобки или действие: «[Sound of steam wand frothing milk, clinking of cups]»
Ambient - добавьте описание обстановки: «Busy coffee shop atmosphere, soft jazz music, chatter of customers»

Многослойный пример для бизнеса (кофейня): «A barista in an apron pours milk into espresso. He says: "This is our signature latte." [Steam wand sound, clinking cups]. Warm lighting, wooden counter, background chatter. Slow dolly in.»

Важный нюанс: диалог на русском языке модель генерирует хуже, чем на английском. Для русскоязычного контента с диалогом удобнее генерировать клип с английским диалогом, затем переозвучить через HeyGen Video Translation или ElevenLabs. Это добавляет один шаг, но решает проблему.

Разрешение и качество: что получите на выходе

Veo 3.1 работает в 1080p при 24 кадрах в секунду - стандарт для YouTube, Instagram, сайтов. 4K не поддерживается, но для коротких роликов в соцсетях 1080p более чем достаточно.

Фотореализм: модель сильна в реалистичных сценах. Лучше всего получаются:

Природные пейзажи и погодные эффекты (дождь, туман, закат).
Городская среда и интерьеры.
Движение людей в обычных ситуациях.
Пищевой контент (текстуры, освещение).

Слабые стороны:

Текст в кадре часто искажается или нечитаемый - не пытайтесь вписать логотип или слоган в само видео, накладывайте отдельно.
Руки при сложных действиях (инструменты, музыкальные инструменты) - если в кадре человек играет на гитаре, пальцы могут «плыть».
Анимированные стили - модель оптимизирована под реализм, не под мультипликацию.

Согласованность между кадрами: персонаж не «плывёт» на протяжении 12-секундного клипа. При склейке нескольких клипов качество может снизиться - модель не держит состояние так хорошо, как Sora 2.

Освещение: генерируется реалистично. «Золотой час» даёт настоящий золотой свет, «нуарное освещение» - правильный контраст. Это важно для контента, где визуальная атмосфера критична - например, для ресторана или отеля.

Cinematic controls: как управлять камерой без оператора

Veo 3.1 понимает стандартный кинематографический словарь движений камеры. Вы пишете в промпте «медленный наезд» - и камера плавно приближается. Без оператора.

Проверенные команды для Veo 3.1:

slow dolly in - плавное приближение, усиливает драматизм. Хорошо для портретных и предметных сцен.
crane shot starting low, sweeping up to reveal - подъём камеры снизу вверх. Эффективно для открывающих сцен.
handheld, slight shake - документальный стиль. Добавляет реализм к репортажным сценам.
rack focus from foreground to background - переброс фокуса между планами. Veo 3.1 выполняет плавно.
360 orbit shot around subject - облёт объекта. Работает для предметного контента.
tracking shot following subject from behind - камера следует за персонажем сзади. Полезно для сцен ходьбы.

Пример сложного описания для бизнеса (стройфирма): «A worker in a hard hat walks through a house under construction. Tracking shot from behind, gradually closing in, then smooth pull-back crane to reveal the entire building. Soft morning light, shallow depth of field.»

Что работает хуже:

Вид от первого лица - менее стабилен, чем у Kling 2.1.
Bullet-time эффекты - лучше у Higgsfield с WAN 2.5 Camera Control.
Для очень сложных движений с несколькими движениями одновременно Higgsfield даёт больше контроля.

Scene extension: как сделать видео длиннее 12 секунд

Базовый клип Veo 3.1 - 12 секунд. Для роликов длиннее минуты используется склейка нескольких клипов (scene extension).

Два подхода:

Подход 1: последовательная генерация Генерируете первый клип. Последний кадр становится стартовым изображением следующего клипа. Так строится история кадр за кадром. Минус: каждая стыковка требует проверки - модель может слегка изменить внешность персонажа.

Подход 2: параллельная генерация с единым стилевым промптом Пишете мастер-промпт с описанием общей визуальной среды и стиля. Добавляете его к каждой отдельной сцене как «базовый слой». Генерируете все клипы параллельно, потом монтируете. Этот подход быстрее, но требует более тщательного монтажа.

Workflow для 60-секундного ролика (например, для турагентства):

Делите историю на 5-7 сцен по 8-12 секунд каждая.
Для каждой сцены пишете промпт: [master style] + [scene-specific action] + [camera] + [audio].
Генерируете все сцены.
Выбираете лучший вариант каждой сцены (обычно 2-3 итерации).
Склеиваете в видеоредакторе, добавляете переходы.

Совет по стыковкам: Veo 3.1 не имеет встроенной «памяти» между клипами, как Sora 2. Для гладких стыковок делайте начало каждого клипа нейтральным - без резких движений и ярких эффектов.

Reference images: как заставить модель узнавать вашего персонажа

Veo 3.1 через Gemini API поддерживает передачу до 3 изображений вместе с промптом. Это нужно, чтобы персонаж выглядел одинаково в разных клипах.

Два применения:

Character consistency: Загружаете фото вашего сотрудника или модели, и модель использует внешность как якорь при генерации. Работает менее точно, чем Sora 2 Characters (нет трёхмерной реконструкции), но даёт заметную согласованность между клипами.

Style transfer: Загружаете изображение с нужным визуальным стилем - кадр из фильма, картина, фотография с определённой палитрой. Модель адаптирует стиль к новой сцене. Особенно эффективно для брендового контента с фирменной цветовой гаммой.

Требования к изображениям:

Формат: JPEG или PNG.
Разрешение: минимум 512x512, рекомендуется 1024x1024 и выше.
Три изображения: лучше использовать разные ракурсы (для персонажа) или разные примеры стиля (для style transfer).

Совет: Veo 3.1 лучше интерпретирует reference images, когда промпт явно упоминает, что изображение является reference. Добавляйте «Use the reference image to match the character's appearance» в промпт.

Доступ: где взять и сколько стоит

Veo 3.1 доступен через несколько каналов. Выбирайте под свою задачу.

Google AI Studio (aistudio.google.com):

Бесплатная веб-среда для экспериментов.
Veo 3.1 доступен в разделе Video Generation.
Бесплатные квоты: около 10-20 генераций в день.
Подходит для тестирования и прототипирования.

Gemini API (для разработчиков):

Программный доступ для интеграции.
Тарификация по токенам и секундам видео.
Veo 3.1 через API: около $0.35-0.50 за 12-секундный клип 1080p (по ценам начала 2026).
Требует проекта в Google Cloud с включённым Gemini API.

Google One AI Premium ($19.99/мес):

Включает доступ к Veo 3.1 через Gemini (веб-интерфейс и мобильное приложение).
Ограничения на количество генераций в месяц.
Не включает API-доступ для разработчиков.

Регионы: Veo 3.1 доступен в США, Канаде, большинстве стран ЕС, Великобритании, Японии, Корее и ряде других стран. Россия и большинство стран СНГ - в ограниченном доступе. Google AI Studio теоретически открыт шире, чем продуктовые поверхности. Если у вас нет прямого доступа, можно использовать VPN или сервисы-посредники.

Python-пример: как автоматизировать генерацию видео

Если у вас есть менеджер, который немного разбирается в IT, или вы готовы освоить базовый Python, вот код для генерации видео через API. Он запускает задачу, ждёт результат и скачивает видео.

import google.generativeai as genai
import time
import requests
from pathlib import Path

# Инициализация клиента
genai.configure(api_key="your_gemini_api_key")

def generate_veo_video(
 prompt: str,
 duration_seconds: int = 12,
 aspect_ratio: str = "16:9",
 reference_images: list = None
):
 """
 Генерирует видео через Veo 3.1 API.
 reference_images: список путей к файлам изображений (до 3)
 """
 model = genai.GenerativeModel("veo-3.1")

 # Подготовка контента с reference images
 content_parts = [prompt]

 if reference_images:
 for img_path in reference_images[:3]: # максимум 3
 with open(img_path, 'rb') as f:
 image_data = f.read()
 content_parts.append({
 "inline_data": {
 "mime_type": "image/jpeg",
 "data": image_data
 }
 })

 # Параметры генерации
 generation_config = {
 "duration_seconds": duration_seconds,
 "aspect_ratio": aspect_ratio,
 "fps": 24,
 "resolution": "1080p"
 }

 # Запуск генерации (асинхронная задача)
 operation = model.generate_video(
 content_parts,
 generation_config=generation_config
 )

 return operation.name # ID задачи

def poll_veo_result(operation_name: str, max_wait: int = 300):
 """
 Опрашивает статус операции и возвращает URL готового видео.
 """
 import google.api_core.operations_v1 as operations_v1

 operations_client = operations_v1.AbstractOperationsClient()

 start = time.time()
 while time.time() - start < max_wait:
 operation = operations_client.get_operation(operation_name)
 if operation.done:
 if operation.error:
 raise Exception(f"Generation failed: {operation.error.message}")
 # Извлекаем URL видео из response
 result = operation.response
 return result.videos[0].uri
 print(f"Waiting... ({int(time.time() - start)}s elapsed)")
 time.sleep(10)

 raise TimeoutError("Veo generation timed out")

def download_video(uri: str, output_path: str):
 """Скачивает видео по URI."""
 headers = {"Authorization": f"Bearer {genai.get_default_api_key()}"}
 response = requests.get(uri, headers=headers, stream=True)
 with open(output_path, 'wb') as f:
 for chunk in response.iter_content(chunk_size=8192):
 f.write(chunk)
 print(f"Video saved: {output_path}")

# Пример с нативным аудио и reference image
prompt = """
A botanist carefully examines a rare orchid in a tropical greenhouse.
Use the reference image to match the character's appearance.
She says: 'This species hasn't been seen in thirty years.'
[Ambient sound: greenhouse humidity, distant water dripping, soft rain on glass roof]
Slow dolly in toward her face, rack focus from the flower to her expression.
Cinematic, warm diffused light through glass panels.
"""

operation_name = generate_veo_video(
 prompt,
 duration_seconds=12,
 reference_images=["botanist_reference.jpg"]
)

video_uri = poll_veo_result(operation_name)
download_video(video_uri, "veo_output.mp4")
print("Done!")

Замечание: API Gemini для Veo активно развивается. Конкретные имена методов и структуры ответов могут отличаться - всегда сверяйтесь с актуальной документацией на ai.google.dev.

Частые вопросы

Как правильно прописать аудио в промпте?

Специального синтаксиса нет - обычный текст. Диалог - в кавычках с указанием кто говорит. SFX - в квадратных скобках с описанием звука. Ambient - как часть описания сцены («busy street sounds», «quiet library atmosphere»). Модель интерпретирует всё это как аудио-инструкции. Главное правило: будьте конкретны. «Звуки кухни» работает хуже, чем «шипение масла на сковороде, звон посуды, вытяжка на фоне».

Veo 3.1 vs Runway Gen-4.5: что выбрать для бизнеса?

Runway Gen-4.5 выигрывает по длине клипа (60 секунд против 12), разрешению (4K против 1080p) и character consistency. Veo 3.1 выигрывает по цене (дешевле через Google One AI Premium) и качеству ambient-аудио. Для длинных сцен - Runway. Для коротких атмосферных клипов с нативным звуком - Veo 3.1. Для бюджетных проектов - Veo через AI Studio бесплатный план.

Можно ли использовать Veo через API без подписки Google One AI Premium?

Да. Gemini API (программный доступ) не требует Google One AI Premium - нужен аккаунт Google Cloud с включённым Billing и Gemini API. Google One AI Premium - это только для продуктовых поверхностей (Gemini веб, мобильное приложение). API-доступ тарифицируется отдельно по факту использования.

Почему клипы ограничены 12 секундами и как обойти?

Ограничение связано с вычислительными затратами. Google наращивает лимит постепенно - с 8 секунд в Veo 3 до 12 в Veo 3.1. Обход через scene extension: генерируете серию клипов, последний кадр каждого становится стартовым для следующего (image-to-video), монтируете в видеоредакторе. Для 60-секундного ролика нужно 5-6 клипов.

Как передать 3 reference-изображения через Gemini API в Python?

Смотрите пример выше в разделе Python. Изображения передаются как части content в формате inline_data с base64-кодировкой или как ссылки на файлы в Google Cloud Storage. Максимум 3 изображения. Важно явно указать в промпте, что изображение является reference. Добавляйте фразу «Use the reference image to match the character's appearance». Иначе модель может интерпретировать его как сцену для анимации.

Что делать прямо сейчас

Зайдите в Google AI Studio (aistudio.google.com) и попробуйте сгенерировать первое видео. Бесплатно.
Напишите промпт для своего бизнеса. Например, для стройфирмы: «A worker in a hard hat installs drywall. [Sound of drill, hammering]. Medium shot, natural lighting.»
Если нужно видео длиннее 12 секунд - склейте несколько клипов в любом видеоредакторе.
Если нужен русский диалог - сгенерируйте с английским, затем переозвучьте через ElevenLabs или HeyGen.

Следующий шаг - попробовать Higgsfield AI: мульти-модельный хаб, где можно работать с Veo 3.1, Kling 3.0 и Sora 2 из одного интерфейса. Но начните с малого - одного клипа.

AI Компас (t.me/kosmoslab_ai) - канал для предпринимателей в РФ и СНГ, которые применяют AI в своём бизнесе без программиста. Разбираем инструменты и схемы - без курсов и теории.