Новая модель Gemini 2.5: Computer Use — что это и зачем она вам как разработчику

Google выпустил Gemini 2.5 Computer Use — специализированную версию Gemini 2.5 Pro, обученную взаимодействовать с пользовательскими интерфейсами в браузере и на Android: она видит скриншоты, решает, где кликнуть/прописать/проскроллить, и возвращает конкретные действия для выполнения в цикле. Модель уже доступна в публичном превью через Gemini API (AI Studio) и Vertex AI и вёлa себя очень уверенно на независимых бенчмарках.

Зачем вообще нужна модель, которая «умеет пользоваться компьютером»

Большая часть задач в интернете всё ещё завязана на графические интерфейсы: заполнить форму, перенести записи из одной таблицы в другую, подтянуть данные, пройти авторизацию — и для этого часто нет чисто API-решения. Gemini Computer Use учится делать именно это: имитировать действия человека в UI (клик, набор текста, перетаскивание), но делать это быстро, точно и в замкнутом цикле «скриншот → анализ → действие → новый скриншот», пока задача не выполнена.

Для разработчика это значит: можно автоматизировать задачи там, где раньше приходилось писать хрупкие скрипты и костыли.

Как это работает — простая механика

Вы отправляете в computer_use инструмент:

цель (текстовый запрос);
текущий скриншот состояния интерфейса;
историю недавних действий.

Модель отвечает функцией (например: click(x,y), type("текст"), scroll(direction)), вы выполняете действие в браузере, присылаете новый скриншот — и цикл повторяется до завершения задачи или вмешательства. Это похоже на то, как вы бы обучали ассистента: дать задачу, смотреть, как он действует, и корректировать по ходу.

Что умеет Gemini 2.5 Computer Use — реальные кейсы

Google и ранние тестировщики показывают несколько практических сценариев:

Автозаполнение форм и перенос записей между сайтами (CRM, бронирование), включая последовательные шаги и логические ветки.
Организация визуальных досок (перемещение стикеров, сортировка заметок) — прямо как в демо с sticky-note jam.
UI-тестирование — автоматизация сложных сценариев, где скрипты ломаются из-за изменившихся селекторов.
Ассистенты в чатах и мессенджерах, которые выполняют задания «за пользователя» (например, записать встречу на сайте партнёра).

ОНЛАЙН-ПРАКТИКУМ

ЗАПУСК нейросети DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ

ЧТО БУДЕТ НА ОБУЧЕНИИ?

ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросети DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
Где и как применять? Потестируем модель после установки на разных задачах
Как дообучить модель под себя?

Участвовать бесплатно

Насколько хорошо она работает — цифры и бенчмарки

В ряде независимых и внутренних тестов Gemini 2.5 Computer Use показала лидирующие результаты по точности и задержке на бенчмарках вроде WebVoyager, Online-Mind2Web и «AndroidWorld». В некоторых измерениях модель опережала аналоги от OpenAI и Anthropic по точности и снижала latency — в отчётах говорится о ~70%+ точности и времени отклика порядка ~225 мс в ряде сценариев (метрики зависят от теста и условий).

Эти цифры — не «магия», но важный сигнал для разработчиков: интерактивные сценарии становятся практически реализуемыми.

Ограничения и важные предостережения

Не всё идеально, и важно понимать ограничения:

Это браузерно-ориентированное решение. Gemini Computer Use оптимизирована для веба и мобильных UI; управление на уровне ОС (например, системные диалоги, драйверы) пока — не её сильная сторона.
Безопасность и злоупотребления. Модель умеет работать «за человека», поэтому Google встроил много мер безопасности: per-step safety checks, возможность требовать подтверждение пользователя для опасных действий и прочие рекомендации (см. system card). Всё это нужно реализовать и на стороне клиента.
CAPTCHA и защищённые формы. На данный момент подобных защит модель официально не обходила — обещаний «взломать» защиту нет и быть не должно; это этическая и юридическая граница.

Как попробовать прямо сейчас

API / доступ: модель доступна в публичном превью через Gemini API (Google AI Studio) и Vertex AI — есть документация по computer_use инструменту и образцы loop-кода.
Демо и тесты: Browserbase и другие площадки уже предоставляют интерактивные демо, где можно увидеть модель в действии и провести собственные бенчмарки. Это удобный способ оценить latency и точность на ваших сценариях.
Интеграция: для продакшена планируйте клиент-боковую логику, которая будет надёжно выполнять функции (Playwright/Browserbase/Headless Chrome) и защитные проверки (per-step safety).

Резюме — стоит ли пробовать?

Да, если у вас задачи, где интерфейсы — единственный путь интеграции, или если вы хотите автоматизировать сложные пользовательские сценарии без создания и поддержки громоздких DOM-скриптов. Gemini 2.5 Computer Use делает эти сценарии технически доступными и (что важно) быстрее и точнее, чем предыдущие публичные образцы.

Большой практикум

ЗАМЕНИ ВСЕ НЕЙРОСЕТИ НА ОДНУ — PERPLEXITY

ПОКАЖЕМ НА КОНКРЕТНЫХ КЕЙСАХ

Освой нейросеть Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
УЧАСТВОВАТЬ ЗА 0 РУБ.
Расскажем, как получить подписку

Участвовать бесплатно

ОНЛАЙН-ПРАКТИКУМ

ЗАПУСК нейросети DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ

ЧТО БУДЕТ НА ОБУЧЕНИИ?

ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросеть DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ

Участвовать бесплатно

Медиа о нейросетях,
зерокодинге и онлайн-образовании

Медиа о нейросетях,
зерокодинге и онлайн-образовании

Новая модель Gemini 2.5: Computer Use — что это и зачем она вам как разработчику

Зачем вообще нужна модель, которая «умеет пользоваться компьютером»

Как это работает — простая механика

Что умеет Gemini 2.5 Computer Use — реальные кейсы

Насколько хорошо она работает — цифры и бенчмарки

Ограничения и важные предостережения

Как попробовать прямо сейчас

Резюме — стоит ли пробовать?

Новая модель Gemini 2.5: Computer Use — что это и зачем она вам как разработчику

Зачем вообще нужна модель, которая «умеет пользоваться компьютером»

Как это работает — простая механика

Что умеет Gemini 2.5 Computer Use — реальные кейсы

Насколько хорошо она работает — цифры и бенчмарки

Ограничения и важные предостережения

Как попробовать прямо сейчас

Резюме — стоит ли пробовать?

Вам точно понравится