Как подключить Google AI к своему бизнесу без программиста за вечер

У ваших менеджеров уходит по 4 часа в день на сбор заявок из мессенджеров - половина теряется. Вот как закрыть эту дыру за вечер без программиста.

Gemini API и Google AI Studio позволяют быстро подключить мощные модели искусственного интеллекта Google к вашим приложениям: достаточно создать проект в AI Studio, получить API-ключ и использовать его в запросах. Интеграция осуществляется через стандартные HTTP-запросы или готовые клиентские библиотеки, что дает возможность добавлять генерацию текста, анализ изображений и другие AI-функции прямо в ваш код.

Google AI Studio vs Vertex AI: когда что выбрать

Google AI Studio - это инструмент для быстрых экспериментов. Идеальная стартовая точка для предпринимателя, который хочет проверить гипотезу без лишней бюрократии. Веб-интерфейс позволяет визуально настраивать запросы, тестировать разные модели и получить API-ключ за пару кликов. Здесь нет сложных настроек инфраструктуры - вы просто пишете запрос и получаете ответ. Это отличный выбор для MVP и небольших проектов. Ограничения касаются безопасности и масштабирования: данные обрабатываются в рамках стандартной политики использования Google, а лимиты запросов могут быть жестче. API-ключ, полученный здесь, использует конечную точку generativelanguage.googleapis.com и подходит для локального тестирования или простых приложений.

Vertex AI - это платформа для серьезной разработки и развертывания моделей в боевой среде. Если ваш проект требует строгого соответствия нормам безопасности, обработки конфиденциальных данных или высокой доступности, выбор очевиден. Vertex AI предоставляет полный цикл: от дообучения моделей до мониторинга и развертывания. Для бизнеса и коммерческих продуктов это стандарт, обеспечивающий полный контроль над затратами, безопасностью и производительностью на больших объемах.

Выбирайте Google AI Studio, когда нужно быстро проверить идею или создать демо. Переходите на Vertex AI, когда приложение масштабируется или вы используете другие сервисы Google Cloud.

Получение API-ключа: пошагово

Разберём на примере стройфирмы: у вас есть прайс на работы и типовой договор подряда. Вы хотите, чтобы клиент мог сфотографировать смету, а AI автоматически заносил её в CRM. Для этого нужен API-ключ.

Начните работу с перехода на официальную платформу Google AI Studio по адресу https://aistudio.google.com. Убедитесь, что вы вошли в свой Google аккаунт. На главной странице найдите кнопку "Get API Key" или "Получить API-ключ".

После нажатия произойдет автоматическое перенаправление в Google Cloud Console. Здесь вам нужно выбрать облачный проект, к которому будет привязан ключ. Если у вас нет проектов, создайте новый.

В появившемся списке действий выберите пункт "Create API Key". Система сгенерирует уникальную строку символов. Обязательно скопируйте его сразу же - Google не показывает полный ключ повторно после закрытия окна.

Храните секретный ключ в безопасности. Запрещается добавлять его в публичные репозитории GitHub. Лучшей практикой считается использование переменных окружения. Создайте файл .env в корне вашего проекта и запишите туда значение ключа, например, GOOGLE_API_KEY=AIzaSy.... В коде приложения считывайте это значение, а не прописывайте строку напрямую.

Полученный ключ позволяет отправлять запросы к моделям Gemini. Проверить статус и использование квот можно в Google Cloud Console в разделе "APIs & Services". Убедитесь, что API Gemini включен и активен.

Первый запрос через Python SDK

Для начала работы установите официальную клиентскую библиотеку. Откройте терминал и выполните команду:

pip install google-generativeai

Основной способ взаимодействия с API - использование API-ключа. Сохраните ключ в переменную окружения GOOGLE_API_KEY.

Создайте файл app.py и выполните импорт необходимых модулей:

import google.generativeai as genai
import os

Инициализация клиента происходит через функцию configure. Она считывает ключ из системного окружения:

genai.configure(api_key=os.environ["GOOGLE_API_KEY"])

Следующий шаг - создание экземпляра модели. Конструктор GenerativeModel принимает идентификатор модели. Для текстовых задач стандартным выбором является gemini-pro.

model = genai.GenerativeModel('gemini-pro')

Отправка запроса осуществляется методом generate_content. В качестве аргумента передается текстовый промпт.

prompt = "Объясни квантовую запутанность простыми словами."
response = model.generate_content(prompt)

Результат возвращается в объекте GenerateContentResponse. Сам текст находится в атрибуте text. Выведите его в консоль:

print(response.text)

SDK предоставляет гибкие настройки генерации. Передайте словарь generation_config в метод generate_content, чтобы управлять поведением модели. Параметр temperature влияет на случайность выбора слов: низкие значения делают ответы более детерминированными, высокие - более творческими. Параметр max_output_tokens ограничивает длину ответа, что помогает экономить квоты и ускорять работу.

Пример с конфигурацией:

response = model.generate_content(
 prompt,
 generation_config=genai.types.GenerationConfig(
 temperature=0.7,
 max_output_tokens=200,
 )
)

Обрабатывайте возможные исключения, например, проблемы с сетью или превышение лимитов. Используйте блок try-except для перехвата ошибок genai.types.BlockedPromptException или стандартных исключений Python.

Мультимодальный ввод: текст + изображение + видео в одном запросе

Gemini API обрабатывает мультимодальные данные через универсальную структуру запроса, где текст, изображения и видео объединяются в массив parts. Это позволяет создавать сложные промпты, требующие от модели анализа визуальной информации в контексте текстовых инструкций. Вам не нужно использовать разные конечные точки для каждого типа данных - всё передается в одном вызове метода generate_content.

Для работы с изображениями используется объект Part с типом inline_data. Файл можно загрузить локально, преобразовав в Base64, либо передать прямую ссылку на картинку из интернета. Модель распознает объекты, текст на фото, эмоции и стили, а также может соотносить несколько изображений между собой в рамках одного диалога.

Видео требует предварительной загрузки через File API, так как объем данных превышает стандартные лимиты текстовых промптов. Функция upload_file отправляет медиа на серверы Google, после чего возвращается объект с уникальным идентификатором uri. Этот URI передается в запросе. Важно проверить статус файла с помощью get_file, убедившись, что поле state изменилось с PROCESSING на ACTIVE. Только после этого модель сможет проанализировать видеоряд.

Комбинируя медиа, можно решать задачи разметки данных, создания описаний для контента или сравнения статичных и динамичных сцен. Например, запрос может содержать схему сборки (изображение) и видеоролик с процессом, требуя от модели найти ошибки или расхождения. Gemini 1.5 Pro способен анализировать длительные видео, используя контекстное окно до одного миллиона токенов, что позволяет искать конкретные моменты или описывать сюжет целиком.

При формировании запроса порядок элементов в списке contents имеет значение. Логичнее ставить инструкцию перед медиа или после, в зависимости от желаемого фокуса внимания модели. Убедитесь, что указываете правильный mime_type для каждого файла - это помогает корректно интерпретировать данные.

Streaming: потоковый вывод для лучшего UX

Стриминг кардинально улучшает восприятие работы приложения. Долгое ожидание полного ответа от большой языковой модели вызывает тревогу у пользователя и создает ощущение зависшего интерфейса. Потоковый вывод решает эту проблему, доставляя контент по мере его генерации. Это превращает статичное ожидание в динамичный процесс, похожий на живой диалог.

В клиентской библиотеке Python для Gemini API активация стриминга выполняется передачей аргумента stream=True в метод generate_content. В этом режиме функция возвращает итератор, который генерирует объекты GenerateContentResponse по мере поступления данных от сервера.

Рассмотрим базовую реализацию:

import google.generativeai as genai

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Напиши план маркетинговой кампании", stream=True)

for chunk in response:
 print(chunk.text, end="")
 if chunk.candidates[0].finish_reason:
 print(f"\nГенерация завершена: {chunk.candidates[0].finish_reason}")

Ключевой элемент здесь - цикл for. На каждой итерации chunk.text содержит новую порцию текста. Вывод на экран происходит мгновенно, что создает эффект печатания.

Для дальнейшей обработки данных часто необходимо собрать полный ответ в одну строку. Простое накопление фрагментов в списке с последующим объединением (join) решает эту задачу эффективно.

full_text = ""
for chunk in response:
 full_text += chunk.text

Важно помнить, что при стриминге структура ответа отличается от статического режима. Каждый чанк является самостоятельным объектом с собственными метаданными. Если модель использует инструменты или вызывает функции, соответствующие флаги также будут появляться в потоке.

Обрабатывайте исключения внутри цикла или после него. Сетевые ошибки или проблемы на стороне сервера могут прервать поток. Грамотная обработка позволит сохранить уже полученную часть текста, а не потерять её целиком.

Function Calling: инструменты для Gemini-агента

Gemini-агент предоставляет возможность вызывать функции, которые позволяют взаимодействовать с Google AI Studio. Функции в Gemini-агенте можно вызывать с помощью специальных команд, которые отправляются агенту. Эти команды могут содержать различные параметры, которые определяют поведение функции. Например, можно вызвать функцию, которая отправляет запрос к Google AI Studio и получает ответ.

Одним из основных инструментов для работы с функциями в Gemini-агенте является консоль. В консоли можно вводить команды и получать ответы от агента. Также можно использовать встроенный редактор кода, который позволяет создавать и редактировать скрипты, содержащие функции.

Для вызова функции необходимо использовать следующий синтаксис: функция(параметр1, параметр2, ...). Например, если мы хотим вызвать функцию, которая отправляет запрос к Google AI Studio, мы можем использовать следующую команду: google_ai_request("вопрос", "модель"). В этом примере google_ai_request - это название функции, а "вопрос" и "модель" - это параметры, которые определяют поведение функции.

Gemini-агент предоставляет набор встроенных функций, которые можно использовать для взаимодействия с Google AI Studio. Например, можно использовать функцию google_ai_request для отправки запроса к Google AI Studio, или функцию google_ai_response для получения ответа от Google AI Studio.

Также можно создавать свои собственные функции, используя язык программирования Python. Для этого необходимо создать новый скрипт в редакторе кода и написать код функции. Затем можно вызвать эту функцию, используя консоль или другой скрипт.

Стоимость: бесплатный tier и платные лимиты

Gemini API предлагает бесплатный тариф, который позволяет разработчикам тестировать и разрабатывать свои проекты без дополнительных затрат. В бесплатном тарифе доступно ограниченное количество запросов в месяц, что достаточно для небольших проектов или прототипов. Однако для крупных проектов или коммерческого использования необходимо перейти на платный тарифный план.

Платные тарифные планы Gemini API предлагают различные уровни лимитов на количество запросов. Например, базовый тарифный план может включать 10 000 запросов в месяц, в то время как продвинутый тарифный план может включать 100 000 запросов в месяц.

Стоимость платных тарифных планов Gemini API варьируется в зависимости от выбранного плана и количества запросов. Например, базовый тарифный план может стоить 50 долларов в месяц, в то время как продвинутый тарифный план может стоить 500 долларов в месяц. Кроме того, Gemini API предлагает скидки для крупных проектов или долгосрочных контрактов.

Для проектов, требующих очень большого количества запросов, Gemini API предлагает индивидуальные тарифные планы. Эти планы могут быть адаптированы к конкретным потребностям проекта и могут включать дополнительные услуги, такие как техническая поддержка или консультации.

Google AI Studio также предлагает бесплатный тариф и платные тарифные планы. Бесплатный тариф включает ограниченное количество запросов в месяц, в то время как платные тарифные планы предлагают различные уровни лимитов на количество запросов.

При выборе тарифного плана необходимо учитывать не только стоимость, но и количество запросов, необходимое для проекта. Правильный выбор тарифного плана может помочь сэкономить деньги и обеспечить успешную реализацию проекта.

Частые вопросы

Gemini API бесплатный?

Gemini API имеет бесплатный тариф с ограниченным количеством запросов - для начала разработки и тестирования. При превышении лимита переключается на платный план, где стоимость рассчитывается по использованным токенам. Точные цифры и условия можно увидеть в личном кабинете Google Cloud.

В чём разница между Google AI Studio и Vertex AI на практике?

Google AI Studio - это готовый веб-интерфейс для быстрого прототипирования: вы загружаете данные, выбираете модель и получаете готовую конечную точку без необходимости писать код инфраструктуры. Vertex AI - полноценная платформа: она управляет обучением, развертыванием, мониторингом и масштабированием моделей, интегрируется с другими сервисами GCP и подходит для боевых решений. Studio удобен для экспериментов и небольших приложений, а Vertex AI - для масштабных, кастомных и управляемых пайплайнов.

Gemini API поддерживает русский язык?

Да, Gemini API полностью поддерживает русский язык: модель понимает запросы, генерирует тексты и отвечает на диалоги на русском без потери качества. При работе через Google AI Studio можно сразу выбрать русский в настройках промпта или указать язык в параметре language.

Можно ли передать видео через API так же как через веб-интерфейс?

Да, видео можно отправлять через Gemini API, но только в виде Base64-закодированных байтов или как URL-ссылку на файл, а не как прямой поток, как в веб-интерфейсе. При этом размер кадра ограничен 10 МБ, а длительность - до 30 секунд; более крупные ролики следует разбивать на отдельные запросы. Также требуется указать параметр media_type: "video/mp4" в теле запроса.

Что делать дальше

Следующий шаг - взять ваш реальный бизнес-процесс (например, обработка фото смет или заявок из мессенджеров) и протестировать его через Google AI Studio. Вам не нужен программист - просто следуйте инструкции выше. Бесплатного тарифа хватит на первые эксперименты.

AI Компас (t.me/kosmoslab_ai) - канал для предпринимателей в РФ и СНГ, которые применяют AI в своём бизнесе без программиста. Разбираем инструменты и схемы - без курсов и теории.