За последнее время произошло много интересного. Вышла модель DeepSeek-R1, в испытаниях на бенчмарках показавшая себя производительнее модели o1 от OpenAI. Вышло целое семейство Qwen2.5 от Alibaba со своей флагманской моделью Qwen2.5-Max, которая не продемонстрировала сверхвысоких результатов, но явственно дала понять, что нейрогонка началась. И наконец, вышла o3-mini от OpenAI — западный ответ восточному DeepSeek-R1, самое умное детище ИИ-стартапа, только в облегченном виде. Давайте рассмотрим, что происходит, и чем может похвастаться o3-mini.

Нейрогонка началась

Появление DeepSeek-R1 повлекло за собой сразу несколько событий, из которых самым значимым стал обвал западного рынка производителей GPU-чипов для обучения ИИ. Это связано с тем, что китайская нейросеть оказалась необыкновенно дешевой в обучении. Там, где американцам потребовались миллионы долларов, китайцы обошлись суммами куда меньшими, и все благодаря новому подходу к обучению своей модели. Она училась на подкреплении без учителя — буквально как ребенок, который пытается ходить, спотыкается, набивает шишку, меняет тактику и со временем делает все верно. Как выяснилось, миллионов долларов для этого процесса не требуется, что и привело к обрушению акций крупных компаний, среди которых NVIDIA и Anthropic.

Во-вторых, DeepSeek-R1 была выпущена с открытым исходным кодом — его можно использовать для своих целей. Грандиозный подарок для человечества, причем как для бизнесов, которые могут создавать на основе нейросети свои решения, так и для науки.

Приложение DeepSeek очень быстро стало топовым, акции рухнули, собственное семейство больших языковых моделей выпустила Alibaba, так что Запад просто не мог позволить себе ждать. И ответ последовал.

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT
ТОП-подарки всем участникам лекции:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!

DeepSeek vs OpenAI

Главные отличия DeepSeek-R1 от OpenAI o1 — в математике, программировании, умении логически рассуждать и рассуждениях в целом — в том, что называется reasoning. Это когда нейросеть не просто генерирует ответ, но и обосновывает, как именно она к нему пришла.

 

То, что китайская нейросеть лучше западного аналога разбирается в математике и кодинге, показали испытания на бенчмарках — универсальных сборниках заданий для проверки и сопоставления разных моделей.

AIME 2024 и MATH-500 — математические бенчмарки, Codeforces и SWE-bench Verified — программистские. Как видно, в трех из четырех DeepSeek-R1 показал себя лучше, чем OpenAI o1.

Опять же, значимым остается тот факт, что DeepSeek-R1 — модель с открытым исходным кодом, тогда как конкурентка доступна бизнесу и частным лицам только в виде API.

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT

ТОП-подарки всем участникам лекции:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!

Умная маленькая нейросеть

Справедливости ради, о релизе o3-mini OpenAI говорили еще в декабре — и вот к концу января это, наконец, случилось. Главной особенностью новинки является способность к reasoning — тому самому пространному логическому рассуждению, благодаря которому модель может разбить задачу на несколько отдельных частей и решить их.

Чем отличается o1 и o1-mini мы уже писали в нашей статье.

Воспользоваться новинкой могут не только подписчики платных версий ChatGPT, но и те, которые пользуются им бесплатно: достаточно просто нажать на кнопку «Reason»:

Правда, количество обращений у них будет ограниченное.

Интересен еще один момент: разработчики сразу показали результаты тестирования своей новинки на бенчмарках. В отличие от DeepSeek, они не сравнивали друг с другом нейросети от разных разработчиков, а сравнили друг с другом разные модели от OpenAI. Однако и без этого понятно, что o3-mini «догнала» в математических и кодерских тестах свою главную конкурентку.

Вот результат тестирования на AIME 2024 — новый результат в 87,3% от OpenAI, тогда как DeepSeek-R1 набрала 79,8%.

SWE-bench Verified и результат в 49,3% — конкурентка из Китая набрала 49,2%.

Бенчмарк GPQA Diamond — вопросы по биологии, химии и физике университетского уровня, результат в 79,7%, тогда как у DeepSeek-R1 — 71,5%.

Стоит отметить, что в остальных моментах новинка практически такая же, как o1. Ее подтянули только по математике и программированию, добавив функцию reasoning, — как будто для того, чтобы сравнять по возможностям с DeepSeek-R1.

Быстрее, выше, сильнее: релиз Deep Research

2 февраля OpenAI объявили о запуске нового автономного агента под названием «Deep research» — можно перевести его название как «Глубокое исследование». По словам разработчиков, он «выполняет за десятки минут то, для чего человеку потребовались бы многие часы».

Deep research анализирует сотни онлайн-ресурсов для составления отчета на уровне полноценного аналитика, в равной степени изучая как текстовую информацию, так и изображения. Причем утверждения эти не голословны — чтобы продемонстрировать уникальные способности своего агента, специалисты OpenAI протестировали его на бенчмарке Humanity’s Last Exam. Этот тест состоит из более 3000 вопросов, в том числе с возможностью выбора нескольких вариантов, по более чем 100 дисциплинам, от лингвистики до квантовой механики, и от классической литературы до экологии.

В среднем, нейросети не набирают много процентов по этому тесту. Например, GPT-4o получила всего 3,3%. Однако результат модели o3 с подключенным агентом Deep research оказался ошеломительным: 26,6%!

Пока Deep research доступен только платным подписчикам уровня Pro, причем они получают 100 запросов в месяц. Это связано с тем, что агент очень энергозатратен.

Одно можно сказать точно: DeepSeek продемонстрировал настолько хорошую конкурентоспособность, что прямо или косвенно повлиял на скорость релиза новых продуктов. Причем как со стороны своих соотечественников — смотрим на Alibaba, — так со стороны западных разработчиков.

OpenAI выпустили безусловно интересные модели, а Deep research и вовсе грозит стать новым прорывом. «Умение синтезировать знания, — говорится на странице с описанием Deep research, — обязательное условие для создания нового знания. Именно поэтому Deep research — это существенный шаг к нашей более широкой цели разработки AGI, который, как мы давно предполагали, будет способен производить новые научные исследования».

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025

Присоединяйся к онлайн-вебинару.

В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!
Вы узнаете о том:
  • Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
  • PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
  • Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя

Участвовать бесплатно

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN
За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT
Вы узнаете:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!

Участвовать бесплатно

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025
Присоединяйся к онлайн-вебинару.
В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!
Вы узнаете о том:
  • Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
  • PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
  • Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
Участвовать бесплатно
ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN
За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT
Вы узнаете:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
Участвовать бесплатно