ИИ заполняет формы и парсит сайты: Computer Use

Q: Как логировать и воспроизводить сессии Computer Use для отладки?

Сохраняйте весь массив messages с блоками вызовов инструментов и скриншотами. Для воспроизведения - повтор через noVNC или сохранение скриншотов в порядке выполнения. LangSmith и Langfuse поддерживают визуализацию записей Computer Use с изображениями.

У ваших менеджеров уходит по 4 часа в день на перенос данных из Excel в веб-формы - заявки, договоры, прайсы. Половина ошибок из-за усталости. Вот как закрыть эту дыру за вечер без программиста.

Computer Use - это возможность ИИ видеть экран и работать с интерфейсом: двигать мышь, нажимать клавиши, делать скриншоты и анализировать их. Не через API сервисов, а через реальный пользовательский интерфейс - так же, как это делает человек. Всё, что нужно - Docker (бесплатно) и API-ключ Anthropic.

Как это работает: скриншот, подумал, сделал

Computer Use работает по простому циклу из трёх фаз, повторяющихся до завершения задачи:

Скриншот - ИИ делает снимок экрана и видит его как картинку.
Рассуждение - ИИ анализирует: что видит, что нужно сделать дальше.
Действие - ИИ вызывает один из инструментов: клик, ввод текста, прокрутка.

Это не просто автоматизация браузера через код. ИИ видит пиксели и принимает решения на основе визуального представления - точно как человек за компьютером.

Разберём на примере стройфирмы. У вас есть прайс на работы и типовой договор подряда. Менеджер открывает сайт госзакупок, ищет тендеры, копирует данные в договор. Computer Use делает это сам: открывает браузер, ищет по ключевым словам, заполняет поля, сохраняет. Всё за 2-3 минуты вместо 40.

(Это пример, а не реальный кейс автора.)

Три инструмента: мышь и клавиатура, редактор файлов, bash

computer - прямое управление мышью и клавиатурой:

# Клик по координатам
{"action": "left_click", "coordinate": [512, 300]}

# Ввод текста (в активное поле)
{"action": "type", "text": "Claude Computer Use"}

# Скриншот для анализа
{"action": "screenshot"}

# Прокрутка
{"action": "scroll", "coordinate": [512, 400], "direction": "down", "amount": 3}

# Горячие клавиши
{"action": "key", "text": "ctrl+c"}

text_editor - работа с файлами: просмотр, замена строк. Эффективнее, чем печатать через computer инструмент:

# Просмотр файла
{"command": "view", "path": "/home/user/script.py"}

# Замена строки
{"command": "str_replace", "path": "/path/file.py", 
 "old_str": "def old_function():", "new_str": "def new_function():"}

bash - выполнение shell-команд. Самый мощный инструмент для системных задач:

# Запуск скрипта
{"command": "python3 /home/user/script.py"}

# Проверка результата
{"command": "ls -la /home/user/output/"}

Правило выбора: bash для файловых операций и запуска программ, text_editor для редактирования кода, computer для всего, что требует взаимодействия с GUI.

Безопасность: изолированный Docker-контейнер

Запускать Computer Use на хост-машине - серьёзная ошибка. ИИ может:

Кликнуть не туда и выполнить нежелательное действие
Скачать и запустить произвольный код
Получить доступ к файлам за пределами задачи
Быть скомпрометирован через подмешанные инструкции (prompt injection) на просматриваемых страницах

Anthropic предоставляет официальный Docker-образ:

docker pull ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

docker run -it \
 -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
 -p 5900:5900 \
 -p 8501:8501 \
 -p 6080:6080 \
 ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

Контейнер включает:

Ubuntu с Xfce4 desktop
noVNC (веб-доступ к рабочему столу)
Firefox
Python с anthropic SDK
Streamlit UI для взаимодействия

Порт 6080 - noVNC для просмотра действий агента в реальном времени. Это важно для отладки: видно каждый клик и скриншот.

Для боевой среды дополнительно ограничивайте:

Сетевой доступ контейнера (разрешить только нужные домены)
Монтированные тома (только чтение для исходных данных)
Ресурсы (CPU/RAM лимиты)

Практика: агент заполняет форму на сайте

Разберём на примере турагентства. У вас есть список клиентов в Excel - нужно заполнить заявки на визы на сайте консульства. Computer Use делает это автоматически.

Полный цикл взаимодействия для заполнения веб-формы:

import anthropic
import base64
from PIL import ImageGrab # или pyautogui.screenshot()

client = anthropic.Anthropic()

def take_screenshot() -> str:
 """Сделать скриншот и вернуть base64."""
 img = ImageGrab.grab()
 # сохранить и закодировать
 img.save("/tmp/screen.png")
 with open("/tmp/screen.png", "rb") as f:
 return base64.b64encode(f.read()).decode()

def run_computer_use_agent(task: str):
 messages = [{"role": "user", "content": task}]
 
 while True:
 response = client.beta.messages.create(
 model="claude-opus-4-5",
 max_tokens=4096,
 tools=[computer_tool, text_editor_tool, bash_tool],
 messages=messages,
 betas=["computer-use-2024-10-22"]
 )
 
 # Добавляем ответ агента в историю
 messages.append({"role": "assistant", "content": response.content})
 
 if response.stop_reason == "end_turn":
 break
 
 # Обрабатываем tool_use блоки
 tool_results = []
 for block in response.content:
 if block.type == "tool_use":
 if block.name == "computer":
 result = execute_computer_action(block.input)
 # После действий - новый скриншот
 screenshot = take_screenshot()
 tool_results.append({
 "type": "tool_result",
 "tool_use_id": block.id,
 "content": [{
 "type": "image",
 "source": {"type": "base64", "media_type": "image/png",
 "data": screenshot}
 }]
 })
 
 # Возвращаем результаты инструментов
 messages.append({"role": "user", "content": tool_results})
 
 return messages

Ключевой момент: после каждого действия агент получает новый скриншот как результат инструмента. Без этого следующий шаг будет строиться на устаревшем представлении о состоянии экрана.

(Это пример, а не реальный кейс автора.)

Расширение для браузера Claude for Chrome

Claude for Chrome - расширение для браузера, которое даёт Claude доступ к активной вкладке без полного цикла Computer Use:

Быстрый режим - ускоренное взаимодействие через дерево доступности страницы (accessibility tree, структурированное представление элементов интерфейса для программ), а не через скриншоты. Быстрее (меньше секунды на шаг против 2-5 секунд) и дешевле по токенам. Ограничение: работает только с HTML-элементами, которые доступны через программный интерфейс доступности.

Отличия от полного Computer Use API:

Работает в реальном браузере пользователя (не в контейнере)
Нет доступа к рабочему столу за пределами браузера
Нет инструментов bash и редактора файлов
Сессия привязана к активной вкладке

Расширение подходит для задач типа «заполни эту форму», «найди на этой странице», «скопируй данные из таблицы». Для сложных многошаговых задач с переключением между приложениями - полный Computer Use API в контейнере.

Ограничения расширения:

Нет доступа к страницам chrome:// и about://
Некоторые корпоративные порталы блокируют дерево доступности
Нет возможности загружать файлы (ограничение безопасности браузера)

Бенчмарк WebArena и текущие результаты

WebArena - стандартный набор тестов для оценки веб-агентов. Включает 812 задач на 5 реальных веб-окружениях: интернет-магазин, форум Reddit, GitLab, система управления контентом (CMS), карты.

Примеры задач:

«Найди самый дешёвый ноутбук с объёмом памяти 16 ГБ в магазине и добавь в корзину»
«Создай новую задачу в GitLab с заголовком X и назначь на пользователя Y»
«Найди пост с наибольшим числом комментариев за прошлую неделю на форуме»

Текущие показатели (данные на начало 2026 года):

Claude 3.5 Sonnet: около 49% успешных выполнений
GPT-4o с Computer Use: около 38%
Человек: около 78%

Разрыв между агентами и человеком в 30 процентных пунктов объясняется так: агенты ошибаются на составных задачах, теряют контекст при длинных цепочках, попадают в неверные координаты при сложных интерфейсах.

Сравнение с OpenAI CUA

Anthropic Computer Use работает по скриншотам: Claude видит пиксели, определяет координаты кликов визуально. Работает с любым интерфейсом (веб, настольные приложения, просмотрщики PDF), но:

Медленнее: скриншот плюс анализ - 2-5 секунд на шаг
Дороже: изображение в контексте занимает много токенов (картинка 1024x768 равна примерно 1500-2000 токенов)
Ошибки координат на сложных интерфейсах

OpenAI Computer Use Agent (CUA) - гибридный подход: дерево доступности для стандартных элементов плюс скриншоты для нестандартных. Быстрее на совместимых сайтах, но дерево доступности не всегда полное.

Стоимость одного шага:

Computer Use с claude-opus-4-5: $0.05-0.10 (изображение, рассуждение и действие)
Computer Use с claude-sonnet-4-5: $0.02-0.04 (компромисс качество к цене)
Типичный прогон 20-40 шагов: $1-4

Для бюджетных сценариев используют claude-haiku для простых шагов (навигация, клики) и claude-opus только для сложных решений (анализ страницы, планирование).

Где применять в малом бизнесе

Замена RPA (Robotic Process Automation, роботизация рутинных операций). Computer Use закрывает случаи, где традиционные инструменты ломались на каждом обновлении интерфейса. Claude адаптируется к изменениям визуально, не через жёсткие правила поиска элементов на странице.

Автотесты пользовательских интерфейсов. Агент проверяет сценарии: «зарегистрируйся, подтверди почту, добавь товар в корзину, оплати». Более устойчиво, чем Selenium и Playwright для нестабильных интерфейсов.

Заполнение форм. Большой объём данных из Excel в веб-форму. Агент читает строку, переключается в браузер, заполняет, сохраняет, переходит к следующей.

Мониторинг. Регулярные проверки: «зайди на сайт конкурента, проверь изменились ли цены на топ-10 позиций».

Что пока не надёжно: задачи с captcha, тяжёлые одностраничные приложения с нестандартными компонентами, точное перетаскивание мышью.

Частые вопросы

Computer Use работает только с Claude или можно подключить другую модель?

Инструменты Computer Use - это API Anthropic, они работают только с Claude. Похожий по смыслу подход можно реализовать с GPT-4o через свой цикл скриншотов, но встроенных инструментов нет. OpenAI CUA - отдельный продукт с близкой функциональностью.

Как ограничить агента, чтобы он не делал опасных действий (удаление файлов, платежи)?

Три уровня защиты: изолированный контейнер (агент не имеет доступа к хост-машине), ограниченный сетевой доступ (белый список доменов), системный промпт с явными запретами. Для финансовых операций - обязательное подтверждение человеком перед выполнением.

Какова задержка и стоимость одного шага агента при Computer Use?

Один шаг (скриншот -> рассуждение -> действие): 2-5 секунд, $0.03-0.10 в зависимости от модели. Типичная задача из 15-30 шагов: 30-120 секунд, $0.50-3.00. Claude Sonnet оптимален для большинства задач по соотношению цена/качество.

Claude for Chrome - это то же самое, что Computer Use API?

Нет. Claude for Chrome - браузерное расширение с ограниченным набором действий только в браузере. Computer Use API - полный контроль над виртуальным рабочим столом (браузер + файловая система + bash). Расширение проще в настройке, API мощнее.

Как логировать и воспроизводить сессии Computer Use для отладки?

Сохраняйте весь массив messages с блоками вызовов инструментов и скриншотами. Для воспроизведения - повтор через noVNC или сохранение скриншотов в порядке выполнения. LangSmith и Langfuse поддерживают визуализацию записей Computer Use с изображениями.

Что делать прямо сейчас

Зарегистрируйтесь на console.anthropic.com и получите API-ключ.
Установите Docker на свой компьютер (если нет - гайд за 10 минут).
Запустите контейнер из примера выше.
Попросите агента открыть сайт вашего поставщика и найти прайс.

Весь процесс займёт 2-3 часа. Если что-то пойдёт не так - в Telegram-канале разбираем типовые ошибки.

AI Компас (t.me/kosmoslab_ai) - канал для предпринимателей в РФ и СНГ, которые применяют AI в своём бизнесе без программиста. Разбираем инструменты и схемы - без курсов и теории.