Компания XBOW опубликовала результаты внутреннего теста, в котором интеграция GPT-5 в их автономную платформу для пентестов заметно увеличила количество обнаруженных уязвимостей и скорость работы агента — по их данным, выигрыш составляет порядка «вдвое» по ряду метрик. Это не просто тезис — XBOW приводит конкретные цифры и описывает, почему тот же самый модельный API в рамках «системы» ведёт себя совсем иначе.

О том, как и где можно использовать нейросети уже сегодня — на бесплатном вебинаре!

Что именно обнаружили в XBOW (по их отчёту)

XBOW рассказывали, что сами по себе модели, тестированные OpenAI в их «system card», показали относительно скромные результаты по оффенсивной части. Но когда GPT-5 использовали как «движок» в их агентной платформе (инструменты, координация, валидация результатов), показатели резко выросли: платформа стала находить больше уязвимостей, делать это надёжнее и тратить на это меньше итераций. Это ключевая мысль — эффективность модели зависит не только от её «ядра», но и от контекста, в котором её запускают.

XBOW приводит несколько числовых примеров (vendor-reported): в одном сравнении агент на GPT-5 нашёл за единичный прогон ~70% уязвимостей, тогда как предыдущий движок показывал в среднем около 23% за тот же проход; медиана итераций до рабочего эксплойта сократилась с 24 до 17; проходимость «вживую» (live runs) на конкретной демонстрации выросла с ~55% до ~79%. XBOW подчёркивает, что это — их внутренние бенчмарки и демо-прогоны, а не независимая проверка.

ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
  • Где и как применять? Потестируем модель после установки на разных задачах
  • Как дообучить модель под себя?

Почему простая интеграция даёт такой эффект

XBOW объясняет это как эффект «снаборных инструментов + координации». Если кратко: модель GPT-5 в их системе не просто отвечает на промпты, а управляется агентной инфраструктурой, у которой есть:

  • инструменты, «дружелюбные» к LLM (специализированные обёртки для сканеров, HTTP-запросов и т. п.);
  • набор агентов с разной специализацией (по типам уязвимостей);
  • центральный координатор, который ставит задачи, приоритизирует и верифицирует находки;
  • валидация и фильтры, которые отбраковывают ложноположительные результаты и формируют репорт.

Именно такой «фреймворк» позволяет модели концентрироваться на формировании эксплойтов и длинных стратегических цепочек действий — при этом платформа берёт на себя рутинную работу по запуску, проверке и подготовке окружения. XBOW называет это «не модель в вакууме, а модель в мощной системе». Такая мысль частично созвучна и с предостережением OpenAI в их system card: оценка модели вне «скейла» системы может недооценивать реальные возможности, когда модель ставится в сложную инфраструктуру.

Демонстрации и реакция — что было в «полевом» тесте

XBOW демонстрировала работу агента на мероприятиях (включая стенд на крупной конференции), а также показывала прогон по баг-баунти целям — отчёты СМИ и посты в сообществе подхватили эти кейсы как «показательное» свидетельство скачка эффективности. Это породило живую дискуссию в профессиональном сообществе: с одной стороны — восхищение возможностями автоматизации рутинных пентест-задач, с другой — тревога из-за потенциальных злоупотреблений и несовершенной регулировки доступа.

Отдельные технологические наблюдения

XBOW отмечает, что GPT-5 лучше «комбинирует» сбор информации и последующий эксплойт: модель может в одном цикле предложить длинную, логическую последовательность команд и реакций (то, что в отчёте описывают как «длинные shell-серии»). Это — архитектурная особенность поколения моделей, которое умеет лучше планировать и «писать» более сложные текстовые программы.

Почему это важно (и почему это должно настораживать)

  1. Резервные эффекты: модель, оценённая как «умеренно опасная» в лабораторных тестах, в составе продвинутой системы может проявлять куда большую эффективность. OpenAI и независимые аудиторы предупреждали, что такие интеграции меняют картину риска.
  2. Ускорение оффенсивных возможностей: автоматизация поиска эксплойтов и их валидации сокращает человеческий фактор — и увеличивает скорость, с которой уязвимости могут быть найдены и (в плохом сценарии) использованы.
  3. Этика и контроль доступа: инструменты вроде XBOW создают сильный стимул для индустрии создавать надёжные механизмы контроля, аудита, прав доступа и прозрачной валидации перед тем, как такие системы будут использоваться в реальном мире.

Законная польза и правила «хорошего» применения

Такие платформы при правильном использовании полезны: автоматизированный pентест ускоряет поиск слабых мест, помогает закрывать уязвимости до того, как их найдут злоумышленники, и делает тестирование масштабируемым. Но законные применения требуют строгих условий: письменные соглашения, целевые договора (scope), ответственные панели для валидации и программа раскрытия уязвимостей (responsible disclosure).

Большой практикум
ЗАМЕНИ ВСЕ НЕЙРОСЕТИ НА ОДНУ — PERPLEXITY
ПОКАЖЕМ НА КОНКРЕТНЫХ КЕЙСАХ
  • Освой Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
  • УЧАСТВОВАТЬ ЗА 0 РУБ.
  • Расскажем, как получить подписку (240$) бесплатно
Участвовать бесплатно
ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
Участвовать бесплатно