Google выпустил Gemini 2.5 Computer Use — специализированную версию Gemini 2.5 Pro, обученную взаимодействовать с пользовательскими интерфейсами в браузере и на Android: она видит скриншоты, решает, где кликнуть/прописать/проскроллить, и возвращает конкретные действия для выполнения в цикле. Модель уже доступна в публичном превью через Gemini API (AI Studio) и Vertex AI и вёлa себя очень уверенно на независимых бенчмарках.

Зачем вообще нужна модель, которая «умеет пользоваться компьютером»

Большая часть задач в интернете всё ещё завязана на графические интерфейсы: заполнить форму, перенести записи из одной таблицы в другую, подтянуть данные, пройти авторизацию — и для этого часто нет чисто API-решения. Gemini Computer Use учится делать именно это: имитировать действия человека в UI (клик, набор текста, перетаскивание), но делать это быстро, точно и в замкнутом цикле «скриншот → анализ → действие → новый скриншот», пока задача не выполнена.

Для разработчика это значит: можно автоматизировать задачи там, где раньше приходилось писать хрупкие скрипты и костыли.

Как это работает — простая механика

Вы отправляете в computer_use инструмент:

  • цель (текстовый запрос);
  • текущий скриншот состояния интерфейса;
  • историю недавних действий.

Модель отвечает функцией (например: click(x,y), type("текст"), scroll(direction)), вы выполняете действие в браузере, присылаете новый скриншот — и цикл повторяется до завершения задачи или вмешательства. Это похоже на то, как вы бы обучали ассистента: дать задачу, смотреть, как он действует, и корректировать по ходу.

Что умеет Gemini 2.5 Computer Use — реальные кейсы

Google и ранние тестировщики показывают несколько практических сценариев:

  • Автозаполнение форм и перенос записей между сайтами (CRM, бронирование), включая последовательные шаги и логические ветки.
  • Организация визуальных досок (перемещение стикеров, сортировка заметок) — прямо как в демо с sticky-note jam.
  • UI-тестирование — автоматизация сложных сценариев, где скрипты ломаются из-за изменившихся селекторов.
  • Ассистенты в чатах и мессенджерах, которые выполняют задания «за пользователя» (например, записать встречу на сайте партнёра).
ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК нейросети DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросети DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
  • Где и как применять? Потестируем модель после установки на разных задачах
  • Как дообучить модель под себя?

Насколько хорошо она работает — цифры и бенчмарки

В ряде независимых и внутренних тестов Gemini 2.5 Computer Use показала лидирующие результаты по точности и задержке на бенчмарках вроде WebVoyager, Online-Mind2Web и «AndroidWorld». В некоторых измерениях модель опережала аналоги от OpenAI и Anthropic по точности и снижала latency — в отчётах говорится о ~70%+ точности и времени отклика порядка ~225 мс в ряде сценариев (метрики зависят от теста и условий).

Эти цифры — не «магия», но важный сигнал для разработчиков: интерактивные сценарии становятся практически реализуемыми.

Ограничения и важные предостережения

Не всё идеально, и важно понимать ограничения:

  • Это браузерно-ориентированное решение. Gemini Computer Use оптимизирована для веба и мобильных UI; управление на уровне ОС (например, системные диалоги, драйверы) пока — не её сильная сторона.
  • Безопасность и злоупотребления. Модель умеет работать «за человека», поэтому Google встроил много мер безопасности: per-step safety checks, возможность требовать подтверждение пользователя для опасных действий и прочие рекомендации (см. system card). Всё это нужно реализовать и на стороне клиента.
  • CAPTCHA и защищённые формы. На данный момент подобных защит модель официально не обходила — обещаний «взломать» защиту нет и быть не должно; это этическая и юридическая граница.

Как попробовать прямо сейчас

  • API / доступ: модель доступна в публичном превью через Gemini API (Google AI Studio) и Vertex AI — есть документация по computer_use инструменту и образцы loop-кода.
  • Демо и тесты: Browserbase и другие площадки уже предоставляют интерактивные демо, где можно увидеть модель в действии и провести собственные бенчмарки. Это удобный способ оценить latency и точность на ваших сценариях.
  • Интеграция: для продакшена планируйте клиент-боковую логику, которая будет надёжно выполнять функции (Playwright/Browserbase/Headless Chrome) и защитные проверки (per-step safety).

Резюме — стоит ли пробовать?

Да, если у вас задачи, где интерфейсы — единственный путь интеграции, или если вы хотите автоматизировать сложные пользовательские сценарии без создания и поддержки громоздких DOM-скриптов. Gemini 2.5 Computer Use делает эти сценарии технически доступными и (что важно) быстрее и точнее, чем предыдущие публичные образцы.

Большой практикум
ЗАМЕНИ ВСЕ НЕЙРОСЕТИ НА ОДНУ — PERPLEXITY
ПОКАЖЕМ НА КОНКРЕТНЫХ КЕЙСАХ
  • Освой нейросеть Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
  • УЧАСТВОВАТЬ ЗА 0 РУБ.
  • Расскажем, как получить подписку
Участвовать бесплатно
ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК нейросети DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросеть DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
Участвовать бесплатно