Китайский ИИ-стартап DeepSeek решил проблему, которая не давала покоя исследователям ИИ на протяжении нескольких лет. Его прорыв в области моделей вознаграждения ИИ может значительно улучшить то, как системы ИИ рассуждают и отвечают на вопросы.
В сотрудничестве с исследователями Университета Цинхуа DeepSeek создала методику, подробно описанную в научной статье под названием «Масштабирование времени вывода для генералистического моделирования вознаграждения» (Inference-Time Scaling for Generalist Reward Modeling). В нем описывается, как новый подход превосходит существующие методы и как команда «достигла конкурентоспособной производительности» по сравнению с сильными общедоступными моделями вознаграждений.
Инновация направлена на улучшение того, как системы искусственного интеллекта учатся на предпочтениях людей — важный аспект создания более полезного и согласованного искусственного интеллекта.
Что такое модели вознаграждения ИИ и почему они важны?
Модели вознаграждения ИИ — важные компоненты обучения с подкреплением для больших языковых моделей. Они обеспечивают сигналы обратной связи, которые помогают направлять поведение ИИ на достижение желаемых результатов. Модели вознаграждения как цифровые учителя, которые помогают ИИ понять, чего хотят люди от своих ответов.
«Моделирование вознаграждения — это процесс, который направляет LLM в сторону человеческих предпочтений», — пишут в статье DeepSeek. Моделирование вознаграждения становится важным по мере того, как системы ИИ становятся все более сложными и применяются в сценариях, выходящих за рамки простых задач, связанных с ответами на вопросы».
Инновация от DeepSeek решает проблему получения точных сигналов вознаграждения для LLM в различных областях. В то время как существующие модели вознаграждения хорошо работают для поддающихся проверке вопросов или искусственных правил, они испытывают трудности в общих областях, где критерии более разнообразны и сложны.

- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросети DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
- Где и как применять? Потестируем модель после установки на разных задачах
- Как дообучить модель под себя?
Двойной подход: как работает метод DeepSeek
Подход DeepSeek сочетает в себе два метода:
- Генеративное моделирование вознаграждения (GRM, Generative reward modeling).
Этот подход обеспечивает гибкость при использовании различных типов входных данных и позволяет масштабировать их во время вывода. В отличие от предыдущих скалярных или полускалярных подходов, GRM обеспечивает более богатое представление вознаграждений с помощью языка.
- Самостоятельная настройка критериев (Self-principled critique tuning, SPCT): Метод обучения, который способствует развитию масштабируемого поведения генерации вознаграждений в GRM посредством онлайн-обучения с подкреплением, который генерирует принципы адаптивно.
Один из авторов статьи из Университета Цинхуа и DeepSeek-AI, Цзыцзюнь Лю, пояснил, что комбинация методов позволяет «генерировать принципы на основе входного запроса и ответов, адаптивно выравнивая процесс генерации вознаграждения».
Особую ценность подходу придает его потенциал для «масштабирования во времени вывода» — повышения производительности за счет увеличения вычислительных ресурсов во время вывода, а не только во время обучения.
Исследователи обнаружили, что их методы могут достигать лучших результатов при увеличении выборки, позволяя моделям генерировать лучшие вознаграждения при большем количестве вычислений.
Последствия для индустрии ИИ
Обучение с подкреплением (reinforcement learning, RL) широко применяется для посттренинга больших языковых моделей в масштабе. Это привело к улучшениям в согласовании человеческих ценностей, долгосрочных рассуждениях и адаптации к окружающей среде для LLM.
Новый подход к моделированию вознаграждения может иметь несколько последствий:
- Более точная обратная связь ИИ
Создавая лучшие модели вознаграждения, системы ИИ смогут получать более точную обратную связь о своих результатах, что приведет к улучшению реакции с течением времени.
- Повышенная адаптивность
Возможность масштабировать производительность модели в процессе вывода означает, что системы ИИ смогут адаптироваться к различным вычислительным ограничениям и требованиям.
- Более широкое применение
Системы могут лучше справляться с более широким кругом задач за счет улучшения моделирования вознаграждения для общих доменов.
- Более эффективное использование ресурсов
Исследование показывает, что масштабирование времени вывода с помощью метода DeepSeek может превзойти масштабирование размера модели во времени обучения, что потенциально позволяет небольшим моделям работать сопоставимо с большими моделями при наличии соответствующих ресурсов времени вывода.
Растущее влияние DeepSeek
Последнее событие способствует росту авторитета компании DeepSeek в мировом искусственном интеллекте. Основанная в 2023 году предпринимателем Лиангом Вэньфэном, компания из Ханчжоу наделала много шума благодаря своим моделям рассуждений V3 и R1.
Недавно компания обновила модель V3 (DeepSeek-V3-0324), которая, по словам компании, предлагает расширенные возможности рассуждения, оптимизированную внешнюю веб-разработку и улучшенное владение китайской письменностью. DeepSeek придерживается принципа открытого ИИ, выпустив в феврале пять репозиториев кода, которые позволяют разработчикам просматривать и вносить свой вклад в развитие.
Пока продолжаются спекуляции о возможном выпуске DeepSeek-R2 (преемника R1) — агентство Reuters предположило возможные даты релиза — DeepSeek не дала никаких комментариев в своих официальных каналах..
Что ожидать дальше от моделей вознаграждения ИИ?
По словам исследователей, DeepSeek намерена выпустить модели GRM с открытым исходным кодом, хотя конкретные сроки не были указаны. Открытый исходный код ускорит прогресс в этой области, позволив проводить более широкие эксперименты с моделями вознаграждения.
Поскольку обучение с подкреплением продолжает играть важную роль в развитии ИИ, достижения в моделировании вознаграждения, подобные тем, что были получены в результате работы DeepSeek и Университета Цинхуа, вероятно, окажут влияние на способности и поведение систем ИИ.
Работа над моделями вознаграждения ИИ показывает, что инновации в том, как и когда модели обучаются, могут быть столь же важны, как и их размер. Сосредоточившись на качестве обратной связи и масштабируемости, DeepSeek решает одну из фундаментальных проблем создания ИИ, который лучше понимает и согласуется с предпочтениями человека.
- Освой нейросеть Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
- УЧАСТВОВАТЬ ЗА 0 РУБ.
- Расскажем, как получить подписку
- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросеть DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ