Google выпустил Gemini 2.5 Computer Use — специализированную версию Gemini 2.5 Pro, обученную взаимодействовать с пользовательскими интерфейсами в браузере и на Android: она видит скриншоты, решает, где кликнуть/прописать/проскроллить, и возвращает конкретные действия для выполнения в цикле. Модель уже доступна в публичном превью через Gemini API (AI Studio) и Vertex AI и вёлa себя очень уверенно на независимых бенчмарках.
Зачем вообще нужна модель, которая «умеет пользоваться компьютером»
Большая часть задач в интернете всё ещё завязана на графические интерфейсы: заполнить форму, перенести записи из одной таблицы в другую, подтянуть данные, пройти авторизацию — и для этого часто нет чисто API-решения. Gemini Computer Use учится делать именно это: имитировать действия человека в UI (клик, набор текста, перетаскивание), но делать это быстро, точно и в замкнутом цикле «скриншот → анализ → действие → новый скриншот», пока задача не выполнена.
Для разработчика это значит: можно автоматизировать задачи там, где раньше приходилось писать хрупкие скрипты и костыли.
Как это работает — простая механика
Вы отправляете в computer_use инструмент:
- цель (текстовый запрос);
- текущий скриншот состояния интерфейса;
- историю недавних действий.
Модель отвечает функцией (например: click(x,y), type("текст"), scroll(direction)), вы выполняете действие в браузере, присылаете новый скриншот — и цикл повторяется до завершения задачи или вмешательства. Это похоже на то, как вы бы обучали ассистента: дать задачу, смотреть, как он действует, и корректировать по ходу.
Что умеет Gemini 2.5 Computer Use — реальные кейсы
Google и ранние тестировщики показывают несколько практических сценариев:
- Автозаполнение форм и перенос записей между сайтами (CRM, бронирование), включая последовательные шаги и логические ветки.
- Организация визуальных досок (перемещение стикеров, сортировка заметок) — прямо как в демо с sticky-note jam.
- UI-тестирование — автоматизация сложных сценариев, где скрипты ломаются из-за изменившихся селекторов.
- Ассистенты в чатах и мессенджерах, которые выполняют задания «за пользователя» (например, записать встречу на сайте партнёра).

- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросети DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
- Где и как применять? Потестируем модель после установки на разных задачах
- Как дообучить модель под себя?
Насколько хорошо она работает — цифры и бенчмарки
В ряде независимых и внутренних тестов Gemini 2.5 Computer Use показала лидирующие результаты по точности и задержке на бенчмарках вроде WebVoyager, Online-Mind2Web и «AndroidWorld». В некоторых измерениях модель опережала аналоги от OpenAI и Anthropic по точности и снижала latency — в отчётах говорится о ~70%+ точности и времени отклика порядка ~225 мс в ряде сценариев (метрики зависят от теста и условий).
Эти цифры — не «магия», но важный сигнал для разработчиков: интерактивные сценарии становятся практически реализуемыми.
Ограничения и важные предостережения
Не всё идеально, и важно понимать ограничения:
- Это браузерно-ориентированное решение. Gemini Computer Use оптимизирована для веба и мобильных UI; управление на уровне ОС (например, системные диалоги, драйверы) пока — не её сильная сторона.
- Безопасность и злоупотребления. Модель умеет работать «за человека», поэтому Google встроил много мер безопасности: per-step safety checks, возможность требовать подтверждение пользователя для опасных действий и прочие рекомендации (см. system card). Всё это нужно реализовать и на стороне клиента.
- CAPTCHA и защищённые формы. На данный момент подобных защит модель официально не обходила — обещаний «взломать» защиту нет и быть не должно; это этическая и юридическая граница.
Как попробовать прямо сейчас
- API / доступ: модель доступна в публичном превью через Gemini API (Google AI Studio) и Vertex AI — есть документация по
computer_useинструменту и образцы loop-кода. - Демо и тесты: Browserbase и другие площадки уже предоставляют интерактивные демо, где можно увидеть модель в действии и провести собственные бенчмарки. Это удобный способ оценить latency и точность на ваших сценариях.
- Интеграция: для продакшена планируйте клиент-боковую логику, которая будет надёжно выполнять функции (Playwright/Browserbase/Headless Chrome) и защитные проверки (per-step safety).
Резюме — стоит ли пробовать?
Да, если у вас задачи, где интерфейсы — единственный путь интеграции, или если вы хотите автоматизировать сложные пользовательские сценарии без создания и поддержки громоздких DOM-скриптов. Gemini 2.5 Computer Use делает эти сценарии технически доступными и (что важно) быстрее и точнее, чем предыдущие публичные образцы.
- Освой нейросеть Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
- УЧАСТВОВАТЬ ЗА 0 РУБ.
- Расскажем, как получить подписку
- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросеть DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ

