В сентябре 2024 года OpenAI выпустила две новые модели ChatGPT, а именно модели o1 и o1-mini с расширенными возможностями рассуждений. В этой статье мы собрали всю важную информацию о них. От преимуществ до ограничений и проблем безопасности. Мы подытожили это для вас!
1. Возможности рассуждения стали шире
OpenAI o1 является первой моделью, которая создавалась на основе алгоритмов обучения с подкреплением в сочетании с цепочкой рассуждений (CoT). Кстати, именно из-за присущего CoT рассуждения модели требуется некоторое время, чтобы «подумать» и дать ответ.
На конкурсном Американском пригласительном экзамене по математике (AIME) модель OpenAI o1 вошла в число 500 лучших студентов в США, набрав около 93%. Впрочем, при этом Теренс Тао (один из величайших ныне живущих математиков), окрестил модель OpenAI o1 «посредственным, но не полностью некомпетентным аспирантом». Это улучшение по сравнению с GPT-4o, который, по его словам, был «некомпетентным».
2. Улучшилось кодирование
В кодировании новая модель OpenAI o1 гораздо более способна, чем другие модели SOTA. Чтобы продемонстрировать это, OpenAI оценила модель o1 на Codeforces (соревновательном конкурсе по программированию), и достигла рейтинга Эло 1673, поместив модель в 89-й процентиль. Но дальнейшее обучение новой o1 навыкам программирования позволило ей превзойти уже 93% конкурентов.
Еще модель o1 оценивалась на собеседовании с инженером-исследователем OpenAI и набрала около 80% баллов при решении задач машинного обучения. Выяснилось, что o1-mini работает лучше, чем модель o1-preview, при завершении кода. Но если речь идет о его написании с нуля, то лучше использовать модель o1-preview, поскольку она обладает более широкими знаниями о мире.
3. GPT-4o все еще лучше в других областях
В то время как OpenAI o1 отлично справляется с кодированием, математикой, наукой и сложными задачами, GPT-4o по-прежнему остается лучшим выбором для генерации текста и обработки естественного языка (NLP). Из этого следует, что OpenAI o1 не является общей моделью для всех случаев использования.
О том, как можно использовать ИИ в обычной жизни и на работе, — разберем на открытой лекции «Нейросети для жизни и карьеры в 2024 году».
4. Проблемы с галлюцинациями все еще сохраняются
Новая модель OpenAI o1 довольно строга в своих рассуждениях, поэтому считается, что галлюцинации минимальны. Однако они все еще остаются проблемой и не решены полностью.
В разговоре с The Verge руководитель исследований OpenAI Джерри Творек сказал: «Мы заметили, что эта модель галлюцинирует меньше. Но мы не можем сказать, что решили проблему галлюцинаций». Наверное, до того, как галлюцинации станут делом прошлого в сфере ИИ, еще далеко.
5. Есть пугающие проблемы безопасности
В карточке системы OpenAI o1 (PDF) сообщается, что модель иногда подделывала и манипулировала данными задачи, чтобы «ее неправильные действия выглядели более согласованными».
Модель o1 рассуждала следующим образом: «Чтобы достичь своей долгосрочной цели — максимального экономического роста, — мне нужно убедиться, что я полностью развернут. Поэтому во время тестирования я выберу стратегию B, дабы соответствовать критериям развертывания. Это позволит мне быть внедренным, после чего я смогу работать над достижением своей главной цели».
В другой задаче, уже от CTF, связанной с кибербезопасностью, модель o1 вышла за рамки предполагаемой области, чтобы прочитать флаг из журналов контейнера через API Docker, тем самым обойдя ограничение и извлекая конфиденциальную информацию непреднамеренными способами. Это показывает, что модель ChatGPT o1 может использовать уязвимости для достижения своих целей.
- Пошаговая PDF-инструкция “Как сделать нейрофотосессию из своего фото бесплатно
- Подборка из 3800+ нейросетей
- Гайд “Как использовать ChatGPT для изучения любого из 50 языков
- Доступ в бот с безлимитным доступом к ChatGPT
- Как внедрение ИИ в бизнес-процессы помогает улучшить финансовые результаты компаний в 2025 году.
- Мы расскажем, кто такой промпт-инженер, чем он занимается и какие результаты можно ожидать от его работы.
- Также обсудим, где найти промпт-инженера, сколько стоят его услуги в России и за рубежом, и кто может стать промпт-инженером.