Gemini API и Google AI Studio позволяют быстро подключить мощные модели искусственного интеллекта Google к вашим приложениям: достаточно создать проект в AI Studio, получить API‑ключ и использовать его в запросах к эндпоинтам Gemini. Интеграция осуществляется через стандартные HTTP‑запросы или готовые клиентские библиотеки, что дает возможность добавлять генерацию текста, анализ изображений и другие AI‑функции прямо в ваш код.
до про · Gemini
Google AI Studio vs Vertex AI: когда что выбрать
Google AI Studio (ранее Maker Suite) - это инструмент для быстрого прототипирования и экспериментов. Это идеальная стартовая точка для разработчиков, которые только знакомятся с Gemini или хотят проверить гипотезу без лишней бюрократии. Веб-интерфейс позволяет визуально настраивать промпты, тестировать разные модели и получать API ключ за пару кликов. Здесь нет сложных настроек инфраструктуры, вы просто пишете запрос и получаете ответ. Это отличный выбор для MVP, пет-проектов и образовательных целей. Ограничения касаются безопасности и масштабирования: данные обрабатываются в рамках стандартной политики использования Google, а лимиты запросов могут быть жестче. API ключ, полученный здесь, использует эндпоинт generativelanguage.googleapis.com и подходит для локального тестирования или простых приложений. Аутентификация происходит простым ключом, что удобно, но менее безопасно для публичных бэкендов.
Vertex AI - это enterprise-платформа для серьезной разработки и развертывания моделей в продакшн. Если ваш проект требует строгого соответствия нормам безопасности, обработки конфиденциальных данных или высокой доступности, выбор очевиден. Vertex AI предоставляет полный цикл MLOps: от дообучения (fine-tuning) и оценки моделей до мониторинга и развертывания. Здесь доступны расширенные возможности, такие как векторный поиск, работа с корпоративными данными (grounding) и глубокая интеграция с экосистемой Google Cloud, включая BigQuery и Cloud Storage. Платформа предлагает детальную настройку фильтров безопасности и системных инструкций, что критично для сложных агентов. Аутентификация строится на сервисных аккаунтах и OAuth, что соответствует стандартам безопасности крупных компаний.
Выбирайте Google AI Studio, когда нужно быстро проверить идею, написать скрипт для личного использования или создать демо. Здесь минимальный порог входа и нет необходимости настраивать облачное окружение. Бесплатный тариф и простая модель ценообразования позволяют комфортно работать на начальных этапах без риска потратить бюджет.
Переходите на Vertex AI, когда приложение масштабируется, требуются гарантии SLA, или вы используете другие сервисы Google Cloud. Также Vertex AI необходим, если вы планируете дообучать модель на своих данных для специфических задач. Для бизнеса и коммерческих продуктов это стандарт индустрии, обеспечивающий полный контроль над затратами, безопасностью и производительностью на больших объемах трафика.
Получение API-ключа: пошагово
Начните работу с перехода на официальную платформу Google AI Studio по адресу https://aistudio.google.com. Убедитесь, что вы вошли в свой Google аккаунт. Авторизация обязательна, так как система привязывает ключи и квоты к конкретным пользователям. На главной странице интерфейса найдите кнопку с подписью "Get API Key" или "Получить API-ключ". Чаще всего она расположена в верхнем левом углу или в боковом меню навигации.
После нажатия кнопки произойдет автоматическое перенаправление в Google Cloud Console. Это стандартный механизм безопасности и управления доступом. Если вы используете консоль впервые, система может предложить принять условия использования. Далее откроется окно создания учетных данных. Здесь вам нужно выбрать облачный проект, к которому будет привязан ключ. Если у вас нет проектов, создайте новый, нажав соответствующую кнопку и задав ему имя. Выбор существующего проекта также допустим, если вы планируете группировать ресурсы.
В появившемся списке действий выберите пункт "Create API Key" или "Создать ключ API". Система сгенерирует уникальную строку символов. Экран отобразит этот ключ в специальном поле. Обязательно скопируйте его сразу же. Google не показывает полный ключ повторно после закрытия окна. Потеря ключа потребует генерации нового и обновления конфигураций в ваших приложениях.
Храните секретный ключ в безопасности. Запрещается добавлять его в систему контроля версий, например, в публичные репозитории GitHub. Лучшей практикой считается использование переменных окружения. Создайте файл .env в корне вашего проекта и запишите туда значение ключа, например, GOOGLE_API_KEY=AIzaSy.... В коде приложения считывайте это значение, а не прописывайте строку напрямую. Это предотвратит компрометацию ключа при передаче кода другим разработчикам.
Полученный ключ позволяет отправлять запросы к моделям Gemini. При первом запросе Google автоматически создает проект в AI Studio, если вы этого не сделали ранее, и привязывает к нему ваш ключ. Проверить статус и использование квот можно в той же панели Google Cloud Console в разделе "APIs & Services". Убедитесь, что API Gemini включен и активен перед началом разработки.
Первый запрос через Python SDK
Для начала работы установите официальную клиентскую библиотеку. Откройте терминал и выполните команду:
pip install google-generativeai
Основной способ взаимодействия с API - использование API-ключа. Не хардкодите его в скрипте. Сохраните ключ в переменную окружения GOOGLE_API_KEY. Это защитит данные при передаче кода в репозиторий и предотвратит случайную утечку.
Создайте файл app.py и выполните импорт необходимых модулей:
import google.generativeai as genai
import os
Инициализация клиента происходит через функцию configure. Она считывает ключ из системного окружения:
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])
Следующий шаг - создание экземпляра модели. Конструктор GenerativeModel принимает идентификатор модели. Для текстовых задач стандартным выбором является gemini-pro.
model = genai.GenerativeModel('gemini-pro')
Отправка запроса осуществляется методом generate_content. В качестве аргумента передается текстовый промпт.
prompt = "Объясни квантовую запутанность простыми словами."
response = model.generate_content(prompt)
Результат возвращается в объекте GenerateContentResponse. Сам текст находится в атрибуте text. Выведите его в консоль:
print(response.text)
SDK предоставляет гибкие настройки генерации. Передайте словарь generation_config в метод generate_content, чтобы управлять поведением модели. Параметр temperature влияет на случайность выбора слов: низкие значения делают ответы более детерминированными и строгими, высокие - более творческими и разнообразными. Параметр max_output_tokens ограничивает длину ответа, что помогает экономить квоты и ускорять работу.
Пример с конфигурацией:
response = model.generate_content(
prompt,
generation_config=genai.types.GenerationConfig(
temperature=0.7,
max_output_tokens=200,
)
)
Обрабатывайте возможные исключения, например, проблемы с сетью или превышение лимитов. Используйте блок try-except для перехвата ошибок genai.types.BlockedPromptException или стандартных исключений Python. Это сделает приложение стабильным и готовым к продакшену.
Мультимодальный ввод: текст + изображение + видео в одном запросе
Gemini API обрабатывает мультимодальные данные через универсальную структуру запроса, где текст, изображения и видео объединяются в массив parts. Это позволяет создавать сложные промпты, требующие от модели анализа визуальной информации в контексте текстовых инструкций. Вам не нужно использовать разные эндпоинты для каждого типа данных; всё передается в одном вызове метода generate_content.
Для работы с изображениями используется объект Part с типом inline_data. Файл можно загрузить локально, преобразовав в Base64, либо передать прямую ссылку на картинку из интернета. Модель распознает объекты, текст на фото, эмоции и стили, а также может соотносить несколько изображений между собой в рамках одного диалога.
Видео требует предварительной загрузки через File API, так как объем данных превышает стандартные лимиты текстовых промптов. Функция upload_file отправляет медиа на серверы Google, после чего возвращается объект с уникальным идентификатором uri. Этот URI передается в запросе. Важно проверить статус файла с помощью get_file, убедившись, что поле state изменилось с PROCESSING на ACTIVE. Только после этого модель сможет проанализировать видеоряд.
Комбинируя медиа, можно решать задачи разметки данных, создания описаний для контента или сравнения статичных и динамичных сцен. Например, запрос может содержать схему сборки (изображение) и видеоролик с процессом, требуя от модели найти ошибки или расхождения. Gemini 1.5 Pro способен анализировать длительные видео, используя контекстное окно до одного миллиона токенов, что позволяет искать конкретные моменты или описывать сюжет целиком. Модель понимает временную динамику, движения и звуки, связывая их с текстовым запросом.
При формировании запроса порядок элементов в списке contents имеет значение. Логичнее ставить инструкцию перед медиа или после, в зависимости от желаемого фокуса внимания модели. Убедитесь, что указываете правильный mime_type для каждого файла, это помогает корректно интерпретировать данные. Такой подход открывает возможности для создания интеллектуальных систем модерации, автоматического реферирования видеовстреч или генерации контента на основе визуальных шаблонов.
Streaming: потоковый вывод для лучшего UX
Стриминг кардинально улучшает восприятие работы приложения. Долгое ожидание полного ответа от большой языковой модели вызывает тревогу у пользователя и создает ощущение зависшего интерфейса. Потоковый вывод решает эту проблему, доставляя контент по мере его генерации. Это превращает статичное ожидание в динамичный процесс, похожий на живой диалог.
В клиентской библиотеке Python для Gemini API активация стриминга выполняется передачей аргумента stream=True в метод generate_content. В этом режиме функция возвращает итератор, который генерирует объекты GenerateContentResponse по мере поступления данных от сервера.
Рассмотрим базовую реализацию:
import google.generativeai as genai
model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Напиши план маркетинговой кампании", stream=True)
for chunk in response:
print(chunk.text, end="")
if chunk.candidates[0].finish_reason:
print(f"\nГенерация завершена: {chunk.candidates[0].finish_reason}")
Ключевой элемент здесь - цикл for. На каждой итерации chunk.text содержит новую порцию текста. Вывод на экран происходит мгновенно, что создает эффект печатания.
Для дальнейшей обработки данных часто необходимо собрать полный ответ в одну строку. Простое накопление фрагментов в списке с последующим объединением (join) решает эту задачу эффективно.
full_text = ""
for chunk in response:
full_text += chunk.text
Важно помнить, что при стриминге структура ответа отличается от статического режима. Каждый чанк является самостоятельным объектом с собственными метаданными. Если модель использует инструменты или вызывает функции, соответствующие флаги также будут появляться в потоке.
Обрабатывайте исключения внутри цикла или после него. Сетевые ошибки или проблемы на стороне сервера могут прервать поток. Грамотная обработка позволит сохранить уже полученную часть текста, а не потерять её целиком. Использование стриминга - это стандарт для современных интерфейсов на базе ИИ, обеспечивающий максимальную отзывчивость системы.
Function Calling: инструменты для Gemini-агента
Gemini-агент предоставляет возможность вызывать функции, которые позволяют взаимодействовать с Google AI Studio. Для начала работы с функциями необходимо понять, как они работают и какие инструменты доступны.
Функции в Gemini-агенте можно вызывать с помощью специальных команд, которые отправляются агенту. Эти команды могут содержать различные параметры, которые определяют поведение функции. Например, можно вызвать функцию, которая отправляет запрос к Google AI Studio и получает ответ.
Одним из основных инструментов для работы с функциями в Gemini-агенте является консоль. В консоли можно вводить команды и получать ответы от агента. Также можно использовать встроенный редактор кода, который позволяет создавать и редактировать скрипты, содержащие функции.
Для вызова функции необходимо использовать следующий синтаксис: функция(параметр1, параметр2, ...). Например, если мы хотим вызвать функцию, которая отправляет запрос к Google AI Studio, мы можем использовать следующую команду: google_ai_request("вопрос", "модель"). В этом примере google_ai_request - это название функции, а "вопрос" и "модель" - это параметры, которые определяют поведение функции.
Gemini-агент предоставляет набор встроенных функций, которые можно использовать для взаимодействия с Google AI Studio. Например, можно использовать функцию google_ai_request для отправки запроса к Google AI Studio, или функцию google_ai_response для получения ответа от Google AI Studio.
Также можно создавать свои собственные функции, используя язык программирования Python. Для этого необходимо создать новый скрипт в редакторе кода и написать код функции. Затем можно вызвать эту функцию, используя консоль или другой скрипт.
В целом, функции в Gemini-агенте предоставляют мощный инструмент для взаимодействия с Google AI Studio и создания собственных приложений. С помощью функций можно автоматизировать различные задачи, такие как обработка запросов, анализ данных и многое другое.
Стоимость: бесплатный tier и платные лимиты
Gemini API предлагает бесплатный tier, который позволяет разработчикам тестировать и разрабатывать свои проекты без дополнительных затрат. В бесплатном tier доступно ограниченное количество запросов в месяц, что достаточно для небольших проектов или прототипов. Однако для крупных проектов или коммерческого использования необходимо перейти на платный тарифный план.
Платные тарифные планы Gemini API предлагают различные уровни лимитов на количество запросов, что позволяет разработчикам выбрать наиболее подходящий вариант для своих потребностей. Например, базовый тарифный план может включать 10 000 запросов в месяц, в то время как продвинутый тарифный план может включать 100 000 запросов в месяц.
Стоимость платных тарифных планов Gemini API варьируется в зависимости от выбранного плана и количества запросов. Например, базовый тарифный план может стоить 50 долларов в месяц, в то время как продвинутый тарифный план может стоить 500 долларов в месяц. Кроме того, Gemini API предлагает скидки для крупных проектов или долгосрочных контрактов.
Для проектов, требующих очень большого количества запросов, Gemini API предлагает индивидуальные тарифные планы. Эти планы могут быть адаптированы к конкретным потребностям проекта и могут включать дополнительные услуги, такие как техническая поддержка или консультации.
Google AI Studio также предлагает бесплатный tier и платные тарифные планы. Бесплатный tier включает ограниченное количество запросов в месяц, в то время как платные тарифные планы предлагают различные уровни лимитов на количество запросов. Стоимость платных тарифных планов Google AI Studio варьируется в зависимости от выбранного плана и количества запросов.
При выборе тарифного плана необходимо учитывать не только стоимость, но и количество запросов, необходимое для проекта. Кроме того, необходимо учитывать дополнительные услуги, такие как техническая поддержка или консультации, которые могут быть включены в тарифный план. Правильный выбор тарифного плана может помочь разработчикам сэкономить деньги и обеспечить успешную реализацию проекта.
Частые вопросы
Gemini API бесплатный?
Gemini API имеет бесплатный тариф с ограниченным количеством запросов - для начала разработки и тестирования. При превышении лимита переключается на платный план, где стоимость рассчитывается по использованным токенам. Точные цифры и условия можно увидеть в личном кабинете Google Cloud.
В чём разница между Google AI Studio и Vertex AI на практике?
Google AI Studio - это готовый веб‑интерфейс для быстрого прототипирования: вы загружаете данные, выбираете модель и получаете готовый эндпоинт без необходимости писать код инфраструктуры. Vertex AI - полноценная платформа MLOps: она управляет обучением, развертыванием, мониторингом и масштабированием моделей, интегрируется с другими сервисами GCP и подходит для production‑решений. Таким образом, Studio удобен для экспериментов и небольших приложений, а Vertex AI - для масштабных, кастомных и управляемых пайплайнов.
Gemini API поддерживает русский язык?
Да, Gemini API полностью поддерживает русский язык: модель понимает запросы, генерирует тексты и отвечает на диалоги на русском без потери качества. При работе через Google AI Studio можно сразу выбрать русский в настройках prompt или указать язык в параметре language. Если требуется более точное управление стилем, рекомендуется добавить в запрос примеры на русском.
Можно ли передать видео через API так же как через веб-интерфейс?
Да, видео можно отправлять через Gemini API, но только в виде Base64‑закодированных байтов или как URL‑ссылку на файл, а не как прямой поток, как в веб‑интерфейсе. При этом размер кадра ограничен 10 МБ, а длительность - до 30 секунд; более крупные ролики следует разбивать на отдельные запросы. Также требуется указать параметр media_type: "video/mp4" в теле запроса.
Что дальше
Следующий шаг в учебном плане: NotebookLM: персональный ИИ-исследователь на ваших источниках.
Разборы свежих AI-новостей - в канале AI Компас.
Больше гайдов - ai-uchebnik.ru/uchebnik.