Anthropic выпустила Claude Sonnet 4.5 — модель, которую позиционируют как «лучший инструмент для кодинга, работы с агентами и использования компьютера» на реальных задачах. Она умеет дольше держать контекст, лучше работать с инструментами (терминал, файлы, браузер) и демонстрирует заметный прогресс в рассуждениях и математике.

Что нового и почему это важно

Если объяснить просто: представьте себе ассистента-программиста, которого вы попросили «доработать проект» и который может не прерываться сутками — при этом тестировать, редактировать и запускать команды в терминале. Sonnet 4.5 делает именно это — Anthropic пишет о способности модели удерживать работу более 30 часов подряд на сложных многошаговых задачах.

В одном демонстрационном прогоне модель «собирала» чат-приложение, похожее на Slack, генерируя порядка 11 000 строк кода за ~30 часов. Такая «выносливость» открывает новый класс сценариев: долгие автоматические сборки, мультиагентные процессы и сложные интеграции.

Короткие цифры, которые стоит помнить

  • 77.2% на SWE-bench Verified (оценка навыков реального софт-разработчика в бенче Anthropic).
  • 61.4% на OSWorld (оценка работы модели с компьютером — навигация, запуск программ, операции в браузере).
  • Автономная «сессия» ≳30 часов (прежний рекорд поколения — ~7 часов).

ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК нейросети DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросети DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
  • Где и как применять? Потестируем модель после установки на разных задачах
  • Как дообучить модель под себя?

Что появилось в практическом плане

Anthropic не только поменяли модель, но и добавили «инструменты вокруг»:

  • Checkpoints в Claude Code — можно сохранять прогресс агента и откатываться.
  • Обновлённый терминал и нативное расширение для VS Code — удобнее интегрировать в рабочий поток.
  • Context editing и memory tool в API — агенты живут дольше и лучше управляют памятью.
  • Код-выполнение и создание файлов (таблицы, слайды, документы) прямо в диалоге Claude apps.
  • Claude Agent SDK — набор того инфраструктурного кода, который Anthropic использует для собственных агентов, теперь доступен разработчикам.

Иными словами: модель — это не только «умнее», но и «практичнее» — её проще посадить в рабочий процесс команды и дать выполнять реальные инженерные задачи.

Как это выглядит на практике

  1. Вайбкодинг (vibe-coding) — вы даёте высокоуровневую задачу и постоянный контекст, модель «вибрирует» и постепенно строит продукт: от архитектуры до кусочков кода и тестов. The Verge даже описывал пример использования Sonnet 4.5 для поиска кандидатов и автоматической генерации таблиц с профайлами.
  2. Долгие автоматические сессии — представьте, что дедлайн: модель пишет фичу, запускает тесты, фиксит баги и документирует результаты — всё в одной длинной сессии. Это экономит время на переключение контекста между людьми и инструментами.
  3. Аналитика и финансы — по заявлению Anthropic, Sonnet 4.5 улучшила качество аналитических выводов по сложным финансовым задачам (портфельный скрининг, риск) — то, что нужно для институциональных задач с высокой нуждой в точности.

Безопасность и ограничения — честно и прямо

Anthropic подчёркивает, что Sonnet 4.5 — их «наиболее aligned» frontier-модель: провели дополнительные тренировки и тесты на опасные паттерны (снижение склонности к лести, обману, стремлению к власти и стимулированию бредовых идей).

Модель выходит под рамками AI Safety Level 3 с набором классификаторов (включая фильтры на CBRN-тематику), и у пользователей есть пути переключиться на менее рискованные версии (например, Sonnet 4), если классификаторы прервут диалог. При этом Anthropic признаёт, что фильтры иногда дают ложные срабатывания — они работают над уменьшением таких ошибок.

Коротко: Sonnet 4.5 сильна, но в критичных задачах (биология, химия, кибербезопасность и т.д.) остаётся необходимость человеческой валидации и продуманной интеграции.

Стоимость и где попробовать

Anthropic сообщает, что Sonnet 4.5 доступна «везде» — через Claude apps, Claude API (имя модели claude-sonnet-4-5), Claude Code и как часть партнёрских интеграций (например, Amazon Bedrock). Цена — та же, что и у Sonnet 4: $3 / $15 за миллион токенов (вход / выход) по заявлению компании. Кроме того, временный исследовательский превью «Imagine with Claude» было доступно для Max-подписчиков в ограниченный срок — демонстрация возможностей в реальном времени.

Совет новичку: начните с Claude Code + checkpoints на небольшом репозитории — так вы увидите, как модель управляет артефактами и где лучше ставить контрольные точки.

Итог (и зачем вам это может пригодиться)

Claude Sonnet 4.5 — шаг к тому, чтобы у вас был «умный напарник», который может не просто писать сnippets, а вести длительные, инструментированные проекты: тестировать, править, запускать и документировать. Для команд, где важны автоматизация, скорость прототипирования и работа с длинным контекстом, Sonnet 4.5 — интересный вариант для пилота. Но: сохраняйте здравый смысл, стройте защитные механизмы и валидируйте выводы модели.

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025
Присоединяйся к онлайн-вебинару.
В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!
Вы узнаете о том:
  • Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
  • Файл-инструкцию «Как сделать нейро-фотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
  • Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
Участвовать бесплатно
ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
Нейросети DEEPSEEK И QWEN
За 2 часа сделаем полный обзор новых мощных ИИ-моделей, которые бросают вызов нейросети ChatGPT
Вы узнаете:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как ИИ ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с ИИ прямо сейчас!
Участвовать бесплатно