DeepSeek выпустили обновлённую версию V3.1 — гибридную reasoning-модель с режимами Think / Non-Think, длинным контекстом и заметным прогрессом по сравнению с ранней R1-версией. При этом V3.1 всё ещё уступает лидерам (например, GPT-5 по ряду бенчмарков). Ниже — понятный разбор, что именно изменилось и кому это может пригодиться.

О чём речь

Если коротко: V3.1 — это эволюция DeepSeek R1. Она не ломает рынок, но делает важный шаг в сторону более надёжного многошагового рассуждения и работы с инструментами (tool-use, agentic-сценарии). В реальных тестах это заметно: там, где R1 часто «застревал», V3.1 стала работать последовательнее и чаще доводить сложные сценарии до результата.

ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
  • Где и как применять? Потестируем модель после установки на разных задачах
  • Как дообучить модель под себя?

Что нового в DeepSeek V3.1

  • Два режима работы — Think и Non-Think. Non-Think отвечает за быстрые, короткие запросы (чат, простые генерации). Think — это «углублённая» версия, которая тратит больше ресурсов и времени на рассуждение по многозадачным, сложным запросам.
  • Контекст до \~128K токенов. Это значит, что модель может хранить и учитывать очень большие куски кода, документов или диалогов — полезно для длительных сессий, больших проектов и агентных сценариев.
  • Mixture-of-Experts + активация части параметров. V3.1 активирует часть параметров (при этом общий масштаб модели по-своему большой), что позволяет экономнее расходовать вычисления при сохранении мощности там, где нужно.
  • Лучше для agentic / tool-use. V3.1 показала улучшенную совместимость с инструментами — запуск кода, обращения к API, цепочки вызовов — именно в тех задачах, где важна скоординированная многоступенчатая работа.

Как V3.1 отличается от R1 — по делу

  • Надёжность в многопроходных задачах. V3.1 решает многошаговые задачи гораздо стабильнее: меньше «заблуждений», лучшее отслеживание промежуточных состояний.
  • Больше найденных решений в тестах по коду. В бенчмарках по software-engineering (SWE-bench Verified) V3.1 показывает гораздо более высокие результаты, чем R1 (в тестах разница была заметной).
  • Меньше «блужданий» при поиске уязвимостей и при agent-задачах. Это преимущество критично, если модель используется как исполнитель (агент), а не только как советчик.

Бенчмарки и числа (кратко)

Из того, что было опубликовано и обсуждалось в обзорах: V3.1 в SWE-bench заметно обгоняет R1, но при этом остаётся чуть позади лучших мировых reasoning-моделей — например, GPT-5 в ряде инженерных и reasoning-бенчмарков показывает более высокие результаты.

Конкретные проценты в бенчмарках могут отличаться в зависимости от выбранной подсекции тестов и настроек (режим «thinking», доступ к инструментам и т. п.). Важно смотреть сопоставимые измерения (с одинаковыми условиями).

Техническая сторона — что полезно знать

  • Контекст 128K — значит, модель реально годится для больших задач: ревью кода, длинные диалоги, большие инструкции для агентов.
  • Частичная активация параметров (MoE-подход) — экономит запросы и ускоряет inference, но требует правильного окружения (поддержка шардирования, оптимизированное развёртывание).
  • Think-режим — это trade-off: вы платите временем/ресурсами, но получаете более глубокие рассуждения и меньше ошибок в сложных сценариях.

Ограничения и где V3.1 уступает

Чтобы раскрыть потенциал (MoE, долгие сессии, agentic-интеграции), нужна соответствующая инфраструктура и инструментарий, а по совокупности бенчмарков (особенно в некоторых кодовых и научных задачах) V3.1 остаётся за GPT-5 и некоторыми другими флагманскими моделями. К тому же производительность стоит денег: тяжелые reasoning-режимы дороже в эксплуатации, чем быстрые запросы в Non-Think.

Кому стоит посмотреть в сторону V3.1

  • Командам, которые хотят агентов и многошаговые workflow-решения (DevOps-агенты, автоматическое тестирование, интеллектуальные краулер-агенты).
  • Проектам, которым важна работа с длинным контекстом (обзор больших кодовых баз, адвизоры для сложных документов).
  • Тем, кто готов инвестировать в инфраструктуру и оптимизацию (чтобы выгнать максимум из MoE-подхода).

Итог — стоит ли апгрейдить с R1

Если вы используете R1 для простых задач — возможно, апгрейд не даст драматического эффекта. Если же вы внедряете агенты, делаете автоматический анализ сложного кода или хотите надёжные многошаговые сценарии — V3.1 даёт ощутимый прогресс. Но если вам нужна абсолютная вершина по всем бенчмаркам и лучшая доступная «думательная» модель — стоит смотреть также на предложения лидеров рынка (примеры: GPT-5 и другие флагманы), сравнивая цену/качество.

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025
Присоединяйся к онлайн-вебинару.
В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!
Вы узнаете о том:
  • Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
  • PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
  • Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
Участвовать бесплатно
ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN
За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT
Вы узнаете:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
Участвовать бесплатно