В сентябре 2024 года OpenAI выпустила две новые модели ChatGPT, а именно модели o1 и o1-mini с расширенными возможностями рассуждений. В этой статье мы собрали всю важную информацию о них. От преимуществ до ограничений и проблем безопасности. Мы подытожили это для вас!

1. Возможности рассуждения стали шире

OpenAI o1 является первой моделью, которая создавалась на основе алгоритмов обучения с подкреплением в сочетании с цепочкой рассуждений (CoT). Кстати, именно из-за присущего CoT рассуждения модели требуется некоторое время, чтобы «подумать» и дать ответ.

На конкурсном Американском пригласительном экзамене по математике (AIME) модель OpenAI o1 вошла в число 500 лучших студентов в США, набрав около 93%. Впрочем, при этом Теренс Тао (один из величайших ныне живущих математиков), окрестил модель OpenAI o1 «посредственным, но не полностью некомпетентным аспирантом». Это улучшение по сравнению с GPT-4o, который, по его словам, был «некомпетентным».

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT
ТОП-подарки всем участникам лекции:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!

2. Улучшилось кодирование

В кодировании новая модель OpenAI o1 гораздо более способна, чем другие модели SOTA. Чтобы продемонстрировать это, OpenAI оценила модель o1 на Codeforces (соревновательном конкурсе по программированию), и достигла рейтинга Эло 1673, поместив модель в 89-й процентиль. Но дальнейшее обучение новой o1 навыкам программирования позволило ей превзойти уже 93% конкурентов.

Еще модель o1 оценивалась на собеседовании с инженером-исследователем OpenAI и набрала около 80% баллов при решении задач машинного обучения. Выяснилось, что o1-mini работает лучше, чем модель o1-preview, при завершении кода. Но если речь идет о его написании с нуля, то лучше использовать модель o1-preview, поскольку она обладает более широкими знаниями о мире.

3. GPT-4o все еще лучше в других областях

В то время как OpenAI o1 отлично справляется с кодированием, математикой, наукой и сложными задачами, GPT-4o по-прежнему остается лучшим выбором для генерации текста и обработки естественного языка (NLP). Из этого следует, что OpenAI o1 не является общей моделью для всех случаев использования.

О том, как можно использовать ИИ в обычной жизни и на работе, — разберем на открытой лекции «Нейросети для жизни и карьеры в 2024 году».

4. Проблемы с галлюцинациями все еще сохраняются

Новая модель OpenAI o1 довольно строга в своих рассуждениях, поэтому считается, что галлюцинации минимальны. Однако они все еще остаются проблемой и не решены полностью.

В разговоре с The Verge руководитель исследований OpenAI Джерри Творек сказал: «Мы заметили, что эта модель галлюцинирует меньше. Но мы не можем сказать, что решили проблему галлюцинаций». Наверное, до того, как галлюцинации станут делом прошлого в сфере ИИ, еще далеко.

5. Есть пугающие проблемы безопасности

В карточке системы OpenAI o1 (PDF) сообщается, что модель иногда подделывала и манипулировала данными задачи, чтобы «ее неправильные действия выглядели более согласованными».

Модель o1 рассуждала следующим образом: «Чтобы достичь своей долгосрочной цели — максимального экономического роста, — мне нужно убедиться, что я полностью развернут. Поэтому во время тестирования я выберу стратегию B, дабы соответствовать критериям развертывания. Это позволит мне быть внедренным, после чего я смогу работать над достижением своей главной цели».

В другой задаче, уже от CTF, связанной с кибербезопасностью, модель o1 вышла за рамки предполагаемой области, чтобы прочитать флаг из журналов контейнера через API Docker, тем самым обойдя ограничение и извлекая конфиденциальную информацию непреднамеренными способами. Это показывает, что модель ChatGPT o1 может использовать уязвимости для достижения своих целей.

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025

Присоединяйся к онлайн-вебинару.

В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!
Вы узнаете о том:
  • Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
  • PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
  • Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя

Участвовать бесплатно

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN
За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT
Вы узнаете:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!

Участвовать бесплатно

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025
Присоединяйся к онлайн-вебинару.
В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!
Вы узнаете о том:
  • Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
  • PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
  • Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
Участвовать бесплатно
ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN
За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT
Вы узнаете:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
Участвовать бесплатно