За последнее время произошло много интересного. Вышла модель DeepSeek-R1, в испытаниях на бенчмарках показавшая себя производительнее модели o1 от OpenAI. Вышло целое семейство Qwen2.5 от Alibaba со своей флагманской моделью Qwen2.5-Max, которая не продемонстрировала сверхвысоких результатов, но явственно дала понять, что нейрогонка началась. И наконец, вышла o3-mini от OpenAI — западный ответ восточному DeepSeek-R1, самое умное детище ИИ-стартапа, только в облегченном виде. Давайте рассмотрим, что происходит, и чем может похвастаться o3-mini.
Нейрогонка началась
Появление DeepSeek-R1 повлекло за собой сразу несколько событий, из которых самым значимым стал обвал западного рынка производителей GPU-чипов для обучения ИИ. Это связано с тем, что китайская нейросеть оказалась необыкновенно дешевой в обучении. Там, где американцам потребовались миллионы долларов, китайцы обошлись суммами куда меньшими, и все благодаря новому подходу к обучению своей модели. Она училась на подкреплении без учителя — буквально как ребенок, который пытается ходить, спотыкается, набивает шишку, меняет тактику и со временем делает все верно. Как выяснилось, миллионов долларов для этого процесса не требуется, что и привело к обрушению акций крупных компаний, среди которых NVIDIA и Anthropic.
Во-вторых, DeepSeek-R1 была выпущена с открытым исходным кодом — его можно использовать для своих целей. Грандиозный подарок для человечества, причем как для бизнесов, которые могут создавать на основе нейросети свои решения, так и для науки.
Приложение DeepSeek очень быстро стало топовым, акции рухнули, собственное семейство больших языковых моделей выпустила Alibaba, так что Запад просто не мог позволить себе ждать. И ответ последовал.

- Возможность получить Доступ в Нейроклуб на целый месяц
- Как AI ускоряет работу и приносит деньги
- За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
DeepSeek vs OpenAI
Главные отличия DeepSeek-R1 от OpenAI o1 — в математике, программировании, умении логически рассуждать и рассуждениях в целом — в том, что называется reasoning. Это когда нейросеть не просто генерирует ответ, но и обосновывает, как именно она к нему пришла.
То, что китайская нейросеть лучше западного аналога разбирается в математике и кодинге, показали испытания на бенчмарках — универсальных сборниках заданий для проверки и сопоставления разных моделей.
AIME 2024 и MATH-500 — математические бенчмарки, Codeforces и SWE-bench Verified — программистские. Как видно, в трех из четырех DeepSeek-R1 показал себя лучше, чем OpenAI o1.
Опять же, значимым остается тот факт, что DeepSeek-R1 — модель с открытым исходным кодом, тогда как конкурентка доступна бизнесу и частным лицам только в виде API.

- Возможность получить Доступ в Нейроклуб на целый месяц
- Как AI ускоряет работу и приносит деньги
- За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
Умная маленькая нейросеть
Справедливости ради, о релизе o3-mini OpenAI говорили еще в декабре — и вот к концу января это, наконец, случилось. Главной особенностью новинки является способность к reasoning — тому самому пространному логическому рассуждению, благодаря которому модель может разбить задачу на несколько отдельных частей и решить их.
Чем отличается o1 и o1-mini мы уже писали в нашей статье.
Воспользоваться новинкой могут не только подписчики платных версий ChatGPT, но и те, которые пользуются им бесплатно: достаточно просто нажать на кнопку «Reason»:
Правда, количество обращений у них будет ограниченное.
Интересен еще один момент: разработчики сразу показали результаты тестирования своей новинки на бенчмарках. В отличие от DeepSeek, они не сравнивали друг с другом нейросети от разных разработчиков, а сравнили друг с другом разные модели от OpenAI. Однако и без этого понятно, что o3-mini «догнала» в математических и кодерских тестах свою главную конкурентку.
Вот результат тестирования на AIME 2024 — новый результат в 87,3% от OpenAI, тогда как DeepSeek-R1 набрала 79,8%.
SWE-bench Verified и результат в 49,3% — конкурентка из Китая набрала 49,2%.
Бенчмарк GPQA Diamond — вопросы по биологии, химии и физике университетского уровня, результат в 79,7%, тогда как у DeepSeek-R1 — 71,5%.
Стоит отметить, что в остальных моментах новинка практически такая же, как o1. Ее подтянули только по математике и программированию, добавив функцию reasoning, — как будто для того, чтобы сравнять по возможностям с DeepSeek-R1.
Быстрее, выше, сильнее: релиз Deep Research
2 февраля OpenAI объявили о запуске нового автономного агента под названием «Deep research» — можно перевести его название как «Глубокое исследование». По словам разработчиков, он «выполняет за десятки минут то, для чего человеку потребовались бы многие часы».
Deep research анализирует сотни онлайн-ресурсов для составления отчета на уровне полноценного аналитика, в равной степени изучая как текстовую информацию, так и изображения. Причем утверждения эти не голословны — чтобы продемонстрировать уникальные способности своего агента, специалисты OpenAI протестировали его на бенчмарке Humanity’s Last Exam. Этот тест состоит из более 3000 вопросов, в том числе с возможностью выбора нескольких вариантов, по более чем 100 дисциплинам, от лингвистики до квантовой механики, и от классической литературы до экологии.
В среднем, нейросети не набирают много процентов по этому тесту. Например, GPT-4o получила всего 3,3%. Однако результат модели o3 с подключенным агентом Deep research оказался ошеломительным: 26,6%!
Пока Deep research доступен только платным подписчикам уровня Pro, причем они получают 100 запросов в месяц. Это связано с тем, что агент очень энергозатратен.
Одно можно сказать точно: DeepSeek продемонстрировал настолько хорошую конкурентоспособность, что прямо или косвенно повлиял на скорость релиза новых продуктов. Причем как со стороны своих соотечественников — смотрим на Alibaba, — так со стороны западных разработчиков.
OpenAI выпустили безусловно интересные модели, а Deep research и вовсе грозит стать новым прорывом. «Умение синтезировать знания, — говорится на странице с описанием Deep research, — обязательное условие для создания нового знания. Именно поэтому Deep research — это существенный шаг к нашей более широкой цели разработки AGI, который, как мы давно предполагали, будет способен производить новые научные исследования».
Присоединяйся к онлайн-вебинару.
- Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
- PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
- Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
- Возможность получить Доступ в Нейроклуб на целый месяц
- Как AI ускоряет работу и приносит деньги
- За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
- Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
- PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
- Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
- Возможность получить Доступ в Нейроклуб на целый месяц
- Как AI ускоряет работу и приносит деньги
- За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!