У ваших менеджеров уходит по 4 часа в день на перенос данных из Excel в веб-формы - заявки, договоры, прайсы. Половина ошибок из-за усталости. Вот как закрыть эту дыру за вечер без программиста.
Computer Use - это возможность ИИ видеть экран и работать с интерфейсом: двигать мышь, нажимать клавиши, делать скриншоты и анализировать их. Не через API сервисов, а через реальный пользовательский интерфейс - так же, как это делает человек. Всё, что нужно - Docker (бесплатно) и API-ключ Anthropic.
Как это работает: скриншот, подумал, сделал
Computer Use работает по простому циклу из трёх фаз, повторяющихся до завершения задачи:
- Скриншот - ИИ делает снимок экрана и видит его как картинку.
- Рассуждение - ИИ анализирует: что видит, что нужно сделать дальше.
- Действие - ИИ вызывает один из инструментов: клик, ввод текста, прокрутка.
Это не просто автоматизация браузера через код. ИИ видит пиксели и принимает решения на основе визуального представления - точно как человек за компьютером.
Разберём на примере стройфирмы. У вас есть прайс на работы и типовой договор подряда. Менеджер открывает сайт госзакупок, ищет тендеры, копирует данные в договор. Computer Use делает это сам: открывает браузер, ищет по ключевым словам, заполняет поля, сохраняет. Всё за 2-3 минуты вместо 40.
(Это пример, а не реальный кейс автора.)
Три инструмента: мышь и клавиатура, редактор файлов, bash
computer - прямое управление мышью и клавиатурой:
# Клик по координатам
{"action": "left_click", "coordinate": [512, 300]}
# Ввод текста (в активное поле)
{"action": "type", "text": "Claude Computer Use"}
# Скриншот для анализа
{"action": "screenshot"}
# Прокрутка
{"action": "scroll", "coordinate": [512, 400], "direction": "down", "amount": 3}
# Горячие клавиши
{"action": "key", "text": "ctrl+c"}
text_editor - работа с файлами: просмотр, замена строк. Эффективнее, чем печатать через computer инструмент:
# Просмотр файла
{"command": "view", "path": "/home/user/script.py"}
# Замена строки
{"command": "str_replace", "path": "/path/file.py",
"old_str": "def old_function():", "new_str": "def new_function():"}
bash - выполнение shell-команд. Самый мощный инструмент для системных задач:
# Запуск скрипта
{"command": "python3 /home/user/script.py"}
# Проверка результата
{"command": "ls -la /home/user/output/"}
Правило выбора: bash для файловых операций и запуска программ, text_editor для редактирования кода, computer для всего, что требует взаимодействия с GUI.
Безопасность: изолированный Docker-контейнер
Запускать Computer Use на хост-машине - серьёзная ошибка. ИИ может:
- Кликнуть не туда и выполнить нежелательное действие
- Скачать и запустить произвольный код
- Получить доступ к файлам за пределами задачи
- Быть скомпрометирован через подмешанные инструкции (prompt injection) на просматриваемых страницах
Anthropic предоставляет официальный Docker-образ:
docker pull ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
docker run -it \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
Контейнер включает:
- Ubuntu с Xfce4 desktop
- noVNC (веб-доступ к рабочему столу)
- Firefox
- Python с anthropic SDK
- Streamlit UI для взаимодействия
Порт 6080 - noVNC для просмотра действий агента в реальном времени. Это важно для отладки: видно каждый клик и скриншот.
Для боевой среды дополнительно ограничивайте:
- Сетевой доступ контейнера (разрешить только нужные домены)
- Монтированные тома (только чтение для исходных данных)
- Ресурсы (CPU/RAM лимиты)
Практика: агент заполняет форму на сайте
Разберём на примере турагентства. У вас есть список клиентов в Excel - нужно заполнить заявки на визы на сайте консульства. Computer Use делает это автоматически.
Полный цикл взаимодействия для заполнения веб-формы:
import anthropic
import base64
from PIL import ImageGrab # или pyautogui.screenshot()
client = anthropic.Anthropic()
def take_screenshot() -> str:
"""Сделать скриншот и вернуть base64."""
img = ImageGrab.grab()
# сохранить и закодировать
img.save("/tmp/screen.png")
with open("/tmp/screen.png", "rb") as f:
return base64.b64encode(f.read()).decode()
def run_computer_use_agent(task: str):
messages = [{"role": "user", "content": task}]
while True:
response = client.beta.messages.create(
model="claude-opus-4-5",
max_tokens=4096,
tools=[computer_tool, text_editor_tool, bash_tool],
messages=messages,
betas=["computer-use-2024-10-22"]
)
# Добавляем ответ агента в историю
messages.append({"role": "assistant", "content": response.content})
if response.stop_reason == "end_turn":
break
# Обрабатываем tool_use блоки
tool_results = []
for block in response.content:
if block.type == "tool_use":
if block.name == "computer":
result = execute_computer_action(block.input)
# После действий - новый скриншот
screenshot = take_screenshot()
tool_results.append({
"type": "tool_result",
"tool_use_id": block.id,
"content": [{
"type": "image",
"source": {"type": "base64", "media_type": "image/png",
"data": screenshot}
}]
})
# Возвращаем результаты инструментов
messages.append({"role": "user", "content": tool_results})
return messages
Ключевой момент: после каждого действия агент получает новый скриншот как результат инструмента. Без этого следующий шаг будет строиться на устаревшем представлении о состоянии экрана.
(Это пример, а не реальный кейс автора.)
Расширение для браузера Claude for Chrome
Claude for Chrome - расширение для браузера, которое даёт Claude доступ к активной вкладке без полного цикла Computer Use:
Быстрый режим - ускоренное взаимодействие через дерево доступности страницы (accessibility tree, структурированное представление элементов интерфейса для программ), а не через скриншоты. Быстрее (меньше секунды на шаг против 2-5 секунд) и дешевле по токенам. Ограничение: работает только с HTML-элементами, которые доступны через программный интерфейс доступности.
Отличия от полного Computer Use API:
- Работает в реальном браузере пользователя (не в контейнере)
- Нет доступа к рабочему столу за пределами браузера
- Нет инструментов bash и редактора файлов
- Сессия привязана к активной вкладке
Расширение подходит для задач типа «заполни эту форму», «найди на этой странице», «скопируй данные из таблицы». Для сложных многошаговых задач с переключением между приложениями - полный Computer Use API в контейнере.
Ограничения расширения:
- Нет доступа к страницам chrome:// и about://
- Некоторые корпоративные порталы блокируют дерево доступности
- Нет возможности загружать файлы (ограничение безопасности браузера)
Бенчмарк WebArena и текущие результаты
WebArena - стандартный набор тестов для оценки веб-агентов. Включает 812 задач на 5 реальных веб-окружениях: интернет-магазин, форум Reddit, GitLab, система управления контентом (CMS), карты.
Примеры задач:
- «Найди самый дешёвый ноутбук с объёмом памяти 16 ГБ в магазине и добавь в корзину»
- «Создай новую задачу в GitLab с заголовком X и назначь на пользователя Y»
- «Найди пост с наибольшим числом комментариев за прошлую неделю на форуме»
Текущие показатели (данные на начало 2026 года):
- Claude 3.5 Sonnet: около 49% успешных выполнений
- GPT-4o с Computer Use: около 38%
- Человек: около 78%
Разрыв между агентами и человеком в 30 процентных пунктов объясняется так: агенты ошибаются на составных задачах, теряют контекст при длинных цепочках, попадают в неверные координаты при сложных интерфейсах.
Сравнение с OpenAI CUA
Anthropic Computer Use работает по скриншотам: Claude видит пиксели, определяет координаты кликов визуально. Работает с любым интерфейсом (веб, настольные приложения, просмотрщики PDF), но:
- Медленнее: скриншот плюс анализ - 2-5 секунд на шаг
- Дороже: изображение в контексте занимает много токенов (картинка 1024x768 равна примерно 1500-2000 токенов)
- Ошибки координат на сложных интерфейсах
OpenAI Computer Use Agent (CUA) - гибридный подход: дерево доступности для стандартных элементов плюс скриншоты для нестандартных. Быстрее на совместимых сайтах, но дерево доступности не всегда полное.
Стоимость одного шага:
- Computer Use с claude-opus-4-5: $0.05-0.10 (изображение, рассуждение и действие)
- Computer Use с claude-sonnet-4-5: $0.02-0.04 (компромисс качество к цене)
- Типичный прогон 20-40 шагов: $1-4
Для бюджетных сценариев используют claude-haiku для простых шагов (навигация, клики) и claude-opus только для сложных решений (анализ страницы, планирование).
Где применять в малом бизнесе
Замена RPA (Robotic Process Automation, роботизация рутинных операций). Computer Use закрывает случаи, где традиционные инструменты ломались на каждом обновлении интерфейса. Claude адаптируется к изменениям визуально, не через жёсткие правила поиска элементов на странице.
Автотесты пользовательских интерфейсов. Агент проверяет сценарии: «зарегистрируйся, подтверди почту, добавь товар в корзину, оплати». Более устойчиво, чем Selenium и Playwright для нестабильных интерфейсов.
Заполнение форм. Большой объём данных из Excel в веб-форму. Агент читает строку, переключается в браузер, заполняет, сохраняет, переходит к следующей.
Мониторинг. Регулярные проверки: «зайди на сайт конкурента, проверь изменились ли цены на топ-10 позиций».
Что пока не надёжно: задачи с captcha, тяжёлые одностраничные приложения с нестандартными компонентами, точное перетаскивание мышью.
Частые вопросы
Computer Use работает только с Claude или можно подключить другую модель?
Инструменты Computer Use - это API Anthropic, они работают только с Claude. Похожий по смыслу подход можно реализовать с GPT-4o через свой цикл скриншотов, но встроенных инструментов нет. OpenAI CUA - отдельный продукт с близкой функциональностью.
Как ограничить агента, чтобы он не делал опасных действий (удаление файлов, платежи)?
Три уровня защиты: изолированный контейнер (агент не имеет доступа к хост-машине), ограниченный сетевой доступ (белый список доменов), системный промпт с явными запретами. Для финансовых операций - обязательное подтверждение человеком перед выполнением.
Какова задержка и стоимость одного шага агента при Computer Use?
Один шаг (скриншот -> рассуждение -> действие): 2-5 секунд, $0.03-0.10 в зависимости от модели. Типичная задача из 15-30 шагов: 30-120 секунд, $0.50-3.00. Claude Sonnet оптимален для большинства задач по соотношению цена/качество.
Claude for Chrome - это то же самое, что Computer Use API?
Нет. Claude for Chrome - браузерное расширение с ограниченным набором действий только в браузере. Computer Use API - полный контроль над виртуальным рабочим столом (браузер + файловая система + bash). Расширение проще в настройке, API мощнее.
Как логировать и воспроизводить сессии Computer Use для отладки?
Сохраняйте весь массив messages с блоками вызовов инструментов и скриншотами. Для воспроизведения - повтор через noVNC или сохранение скриншотов в порядке выполнения. LangSmith и Langfuse поддерживают визуализацию записей Computer Use с изображениями.
Что делать прямо сейчас
- Зарегистрируйтесь на console.anthropic.com и получите API-ключ.
- Установите Docker на свой компьютер (если нет - гайд за 10 минут).
- Запустите контейнер из примера выше.
- Попросите агента открыть сайт вашего поставщика и найти прайс.
Весь процесс займёт 2-3 часа. Если что-то пойдёт не так - в Telegram-канале разбираем типовые ошибки.
AI Компас (t.me/kosmoslab_ai) - канал для предпринимателей в РФ и СНГ, которые применяют AI в своём бизнесе без программиста. Разбираем инструменты и схемы - без курсов и теории.