Компания XBOW опубликовала результаты внутреннего теста, в котором интеграция GPT-5 в их автономную платформу для пентестов заметно увеличила количество обнаруженных уязвимостей и скорость работы агента — по их данным, выигрыш составляет порядка «вдвое» по ряду метрик. Это не просто тезис — XBOW приводит конкретные цифры и описывает, почему тот же самый модельный API в рамках «системы» ведёт себя совсем иначе.
О том, как и где можно использовать нейросети уже сегодня — на бесплатном вебинаре!
Что именно обнаружили в XBOW (по их отчёту)
XBOW рассказывали, что сами по себе модели, тестированные OpenAI в их «system card», показали относительно скромные результаты по оффенсивной части. Но когда GPT-5 использовали как «движок» в их агентной платформе (инструменты, координация, валидация результатов), показатели резко выросли: платформа стала находить больше уязвимостей, делать это надёжнее и тратить на это меньше итераций. Это ключевая мысль — эффективность модели зависит не только от её «ядра», но и от контекста, в котором её запускают.
XBOW приводит несколько числовых примеров (vendor-reported): в одном сравнении агент на GPT-5 нашёл за единичный прогон ~70% уязвимостей, тогда как предыдущий движок показывал в среднем около 23% за тот же проход; медиана итераций до рабочего эксплойта сократилась с 24 до 17; проходимость «вживую» (live runs) на конкретной демонстрации выросла с ~55% до ~79%. XBOW подчёркивает, что это — их внутренние бенчмарки и демо-прогоны, а не независимая проверка.

- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
- Где и как применять? Потестируем модель после установки на разных задачах
- Как дообучить модель под себя?
Почему простая интеграция даёт такой эффект
XBOW объясняет это как эффект «снаборных инструментов + координации». Если кратко: модель GPT-5 в их системе не просто отвечает на промпты, а управляется агентной инфраструктурой, у которой есть:
- инструменты, «дружелюбные» к LLM (специализированные обёртки для сканеров, HTTP-запросов и т. п.);
- набор агентов с разной специализацией (по типам уязвимостей);
- центральный координатор, который ставит задачи, приоритизирует и верифицирует находки;
- валидация и фильтры, которые отбраковывают ложноположительные результаты и формируют репорт.
Именно такой «фреймворк» позволяет модели концентрироваться на формировании эксплойтов и длинных стратегических цепочек действий — при этом платформа берёт на себя рутинную работу по запуску, проверке и подготовке окружения. XBOW называет это «не модель в вакууме, а модель в мощной системе». Такая мысль частично созвучна и с предостережением OpenAI в их system card: оценка модели вне «скейла» системы может недооценивать реальные возможности, когда модель ставится в сложную инфраструктуру.
Демонстрации и реакция — что было в «полевом» тесте
XBOW демонстрировала работу агента на мероприятиях (включая стенд на крупной конференции), а также показывала прогон по баг-баунти целям — отчёты СМИ и посты в сообществе подхватили эти кейсы как «показательное» свидетельство скачка эффективности. Это породило живую дискуссию в профессиональном сообществе: с одной стороны — восхищение возможностями автоматизации рутинных пентест-задач, с другой — тревога из-за потенциальных злоупотреблений и несовершенной регулировки доступа.
Отдельные технологические наблюдения
XBOW отмечает, что GPT-5 лучше «комбинирует» сбор информации и последующий эксплойт: модель может в одном цикле предложить длинную, логическую последовательность команд и реакций (то, что в отчёте описывают как «длинные shell-серии»). Это — архитектурная особенность поколения моделей, которое умеет лучше планировать и «писать» более сложные текстовые программы.
Почему это важно (и почему это должно настораживать)
- Резервные эффекты: модель, оценённая как «умеренно опасная» в лабораторных тестах, в составе продвинутой системы может проявлять куда большую эффективность. OpenAI и независимые аудиторы предупреждали, что такие интеграции меняют картину риска.
- Ускорение оффенсивных возможностей: автоматизация поиска эксплойтов и их валидации сокращает человеческий фактор — и увеличивает скорость, с которой уязвимости могут быть найдены и (в плохом сценарии) использованы.
- Этика и контроль доступа: инструменты вроде XBOW создают сильный стимул для индустрии создавать надёжные механизмы контроля, аудита, прав доступа и прозрачной валидации перед тем, как такие системы будут использоваться в реальном мире.
Законная польза и правила «хорошего» применения
Такие платформы при правильном использовании полезны: автоматизированный pентест ускоряет поиск слабых мест, помогает закрывать уязвимости до того, как их найдут злоумышленники, и делает тестирование масштабируемым. Но законные применения требуют строгих условий: письменные соглашения, целевые договора (scope), ответственные панели для валидации и программа раскрытия уязвимостей (responsible disclosure).
- Освой Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
- УЧАСТВОВАТЬ ЗА 0 РУБ.
- Расскажем, как получить подписку (240$) бесплатно
- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
