Kimi-K2 Thinking: новая опенсорсная модель, которая обгоняет GPT-5 и Claude Sonnet 4.5

Появилась открытая модель Kimi K2 Thinking от Moonshot AI. Она показывает впечатляющие результаты на бенчмарках для агентных систем и долговременного рассуждения (Humanity’s Last Exam, BrowseComp и другие), и в ряде тестов опережает даже сильные закрытые модели. Ниже — разбор, что это такое, почему это важно и как её можно применять на практике.

Больше о топовых китайских нейросетях расскажем на бесплатном тематическом практикуме!

Что за модель и что ей удалось

Kimi K2 Thinking — это «thinking model», созданная как агент, который не просто выдаёт текст, а последовательно планирует, вызывает инструменты (поиск, интерпретатор кода, браузер) и шаг за шагом решает сложные задачи.

По заявлению разработчиков и внешних репортов, модель установила новые рекорды на нескольких тестах: 44.9%на Humanity’s Last Exam (HLE) с инструментами, 60.2% на BrowseComp и 71.3% на SWE-Bench Verified — показатели, которые ставят K2 в лидеры среди открытых моделей и даже рядом с закрытыми системами.

Ещё пара «крючков», которые делают K2 заметной: — модель способна выполнять 200–300 последовательных вызовов инструментов в одном сценарии, сохраняя связное рассуждение; — это MoE-архитектура (mixture-of-experts), с триллионом параметров и примерно 32B активируемых параметров за инференс — то есть сочетание «размерного резерва» и экономного использования во время работы.

ОНЛАЙН-ПРАКТИКУМ

ЗАПУСК нейросети DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ

ЧТО БУДЕТ НА ОБУЧЕНИИ?

ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросети DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
Где и как применять? Потестируем модель после установки на разных задачах
Как дообучить модель под себя?

Участвовать бесплатно

Почему «agentic thinking» — это не просто маркетинг

Обычные LLM умеют хорошо завершать фрагменты текста и решать задачи в короткой перспективе. Agentic thinking — другой уровень: модель планирует многошаговую стратегию, вызывает инструменты (проверка фактов, исполнение кода, поиск в сети), использует результаты и дальше строит рассуждение.

Представьте, что у вас не просто интеллектуальный собеседник, а коллега, который умеет сам проверить гипотезы, запустить фрагмент кода и вернуться с доказательствами — и так 200 раз подряд, если нужно. Технически это означает больше глубины в решении исследовательских, научных и инженерных задач.

Пример: попросили решить сложную математическую задачу уровня PhD. K2 может разбить её на этапы, вызвать Python-интерпретатор для численных проверок, затем поискать литературу и на основании найденного скорректировать доказательство — и всё это в связной цепочке шагов. В презентации заявлен пример решения PhD-уровня через 23 чередующихся шага «думание ↔ инструмент».

Кодинг, поиск и творчество — где K2 сильна

По словам команды и внешних тестеров, K2 показывает заметные улучшения в трёх больших областях:

— Agentic coding: модель хорошо справляется с многошаговой разработкой, рефакторингом и интеграцией инструментов для запуска и тестирования кода. В ряде кодинговых бенчмарков она набирает высокие баллы и «плавно» работает с фронтендом (HTML/React) и мультиъязыковыми задачами.

— Agentic search & browsing: на тесте BrowseComp K2 достигла 60.2% — намного выше человеческого baseline и выше ряда конкурентных систем. Это означает, что модель умеет целенаправленно искать факты в сети, верифицировать их и строить выводы.

— Креативная и практическая генерация: в творческих задачах модель пишет более развернуто и образно, в практических — точнее следует инструкциям и покрывает требования целиком. Это делает K2 универсальной: от научных отчётов до маркетинговых текстов.

Трюки с производительностью: INT4 и Quantization-Aware Training

Одна из важных инженерных деталей: для уменьшения задержки и памяти K2 применяет quantization-aware training и INT4-квантизацию (особенно в MoE-компонентах). Это даёт примерно 2× прирост скорости генерациипри сохранении высоких результатов на бенчмарках — критично для живого использования в агентных сценариях, где модель должна много генерировать и быстро реагировать. Для исследователей и деплоев это означает: запустить мощный «мыслительный» агент без гигантских затрат на GPU-память.

Чем K2 отличается от GPT-5 и Claude Sonnet 4.5 на практике

Сводка в двух фразах: GPT-5/Claude остаются сильными в многих задачах, но K2 выигрывает там, где нужен длительный agentic workflow и масштабируемая последовательность вызовов инструментов.

В реальных тестах K2 демонстрирует преимущество в agentic search и в долгих многошаговых рассуждениях; в некоторых кодинговых сценариях закрытые модели всё ещё конкурентоспособны или лидируют, но K2 превосходит их по гибкости и по соотношению «мощности/стоимости» в локальных развёртываниях.

Важно: разные тесты показывают разные результаты — поэтому «кто лучше» зависит от задачи и инфраструктуры.

Итог — зачем следить за K2

Kimi K2 Thinking — важный этап в развитии open-source «думательных» моделей: она показывает, что открытые проекты могут не только догонять, но и в некоторых задачах опережать закрытые лидеры, особенно в agentic, long-horizon сценариях.

Для тех, кто строит автоматизированные рабочие процессы, это приглашение попробовать новую парадигму: не просто спрашивать модель, а давать ей инструменты и позволять доводить работу до конца.

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025

Присоединяйся к онлайн-вебинару.

В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!

Вы узнаете о том:

Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
Файл-инструкцию «Как сделать нейро-фотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя

Участвовать бесплатно

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ

Нейросети DEEPSEEK И QWEN

За 2 часа сделаем полный обзор новых мощных ИИ-моделей, которые бросают вызов нейросети ChatGPT

Вы узнаете:

Возможность получить Доступ в Нейроклуб на целый месяц
Как ИИ ускоряет работу и приносит деньги
За 2 часа вы получите четкий план, как начать работать с ИИ прямо сейчас!

Участвовать бесплатно

Медиа о нейросетях,
зерокодинге и онлайн-образовании

Медиа о нейросетях,
зерокодинге и онлайн-образовании

Kimi-K2 Thinking: новая опенсорсная модель, которая обгоняет GPT-5 и Claude Sonnet 4.5

Что за модель и что ей удалось

Почему «agentic thinking» — это не просто маркетинг

Кодинг, поиск и творчество — где K2 сильна

Трюки с производительностью: INT4 и Quantization-Aware Training

Чем K2 отличается от GPT-5 и Claude Sonnet 4.5 на практике

Итог — зачем следить за K2

Kimi-K2 Thinking: новая опенсорсная модель, которая обгоняет GPT-5 и Claude Sonnet 4.5

Что за модель и что ей удалось

Почему «agentic thinking» — это не просто маркетинг

Кодинг, поиск и творчество — где K2 сильна

Трюки с производительностью: INT4 и Quantization-Aware Training

Чем K2 отличается от GPT-5 и Claude Sonnet 4.5 на практике

Итог — зачем следить за K2

Вам точно понравится