Как ИИ выбирает вам песню: нейросети в Яндекс Музыке

Рекомендательные системы стали важной частью нашего цифрового опыта. Музыка, кино, маркетплейсы, TikTok, стриминг, даже поиск друзей — всё это работает на механике рекомендаций. Но по-настоящему умные системы появились совсем недавно, и одна из самых впечатляющих — ARGUS от Яндекса.

Откуда всё началось

Классические рекомендательные системы были как кассеты в начале 2000-х — вроде бы удобно, но уже морально устарели. Коллаборативная фильтрация, контентная фильтрация, item2vec, ALS — всё это было рабочим, но имело слишком много ограничений. Новые айтемы и пользователи выпадали из поля зрения (проблема «холодного старта»), качество зависело от ручного подбора признаков, а объяснить, почему система показала именно это — было невозможно.

Команда R&D Яндекса, которая занимается рекомендательными технологиями уже около пяти лет, решила подойти к вопросу иначе: как сделать так, чтобы ИИ понимал пользователей, учитывал контекст и учился не на лайках, а на поведении?

Что такое ARGUS и чем он отличается

ARGUS (AutoRegressive Generative User Sequential modeling) — это не просто новая модель. Это переосмысленный подход к обучению нейросетей, который совмещает в себе генеративные трансформеры, идеи обучения с подкреплением и масштабируемую архитектуру. В отличие от моделей, которые предсказывают «следующий понравившийся трек», ARGUS смотрит на всю историю взаимодействия пользователя — и положительную, и отрицательную, с учетом времени, устройства, настроек, даже странички, на которой пользователь был.

Что это даёт? Модель не просто угадывает, что вы лайкнете. Она учится понимать вас, как бы звучно это ни прозвучало.

Почему трансформеры? Потому что они работают

Трансформеры стали основой не только GPT, но и современных рекомендаций. Их сила — в умении обрабатывать длинные последовательности, находить скрытые связи и запоминать контекст. Пользовательская история в ARGUS — это уже не «список лайков», а полноценное предложение, где каждое «слово» — это событие: прослушивание, дизлайк, лайк, скип.

ARGUS использует трансформеры не только для кодирования истории пользователя, но и для предсказания следующего действия — и того, как пользователь отреагирует. То есть, модель одновременно решает две задачи:

Next Item Prediction — что пользователь сделает дальше.
Feedback Prediction — как он на это отреагирует.

Это очень похоже на то, как учатся большие языковые модели: сначала просто угадывают слова, а потом — начинают «понимать» смыслы.

Масштабирование: зачем делать модели больше?

Может показаться, что модель с сотнями миллионов параметров — это перебор. Но в случае с рекомендациями это оправданно. Яндекс провёл масштабное исследование: увеличивал размер трансформера и проверял, растёт ли качество. Ответ: да, и как!

Покажем, как в 2025 году пользоваться российскими нейросети в жизни и в бизнесе на бесплатном вебинаре!

Каждый новый шаг в размере модели давал прирост качества — как в задаче предсказания, так и в задаче ранжирования. Это подтвердило гипотезу, что рекоммендеры, как и LLM, подчиняются законам масштабирования: больше данных + больше параметров = лучшее качество.

Для обучения использовался огромный датасет из Яндекс.Музыки — более 300 миллиардов взаимодействий. Это в десятки раз больше, чем используют даже крупные западные компании.

Почему ARGUS работает лучше

Одна из главных идей ARGUS — рекоммендер как агент. Он действует, получает отклик и учится. Это парадигма обучения с подкреплением (Reinforcement Learning), но в применении к рекомендациям. Модель не просто угадывает «что нравится», она пытается достигнуть долгосрочной цели — удержать пользователя, вызвать отклик, сформировать лояльность.

Чтобы достичь этого, ARGUS анализирует не только органическое поведение (например, поиск вручную), но и то, как пользователь взаимодействует с рекомендациями — и корректирует свою стратегию. Это уже не просто подбор похожего контента — это адаптивная коммуникация.

Результаты внедрения ARGUS:

в Яндекс Музыке прирост key-метрик (время прослушивания и вероятность лайка) оказался сопоставим с суммарным эффектом всех предыдущих внедрений.
в «Моей волне» (персонализированный музыкальный фид) ARGUS дал +12% к прослушиваниям и +10% к лайкам в экспериментальной группе.
в Лавке и Маркете ARGUS работает не только как ранжирующая модель, но и как генератор кандидатов.

Кроме того, модель успешно внедрили в умные колонки — и даже здесь прирост оказался ощутимым.

Вывод: рекомендательные системы больше не напоминают спам-подборки. Они превращаются в интеллектуальных собеседников, которые понимают, чувствуют и подстраиваются. ARGUS — яркий пример этому.

Большой практикум

ЗАМЕНИ ВСЕ НЕЙРОСЕТИ НА ОДНУ — PERPLEXITY

ПОКАЖЕМ НА КОНКРЕТНЫХ КЕЙСАХ

Освой нейросеть Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
УЧАСТВОВАТЬ ЗА 0 РУБ.
Расскажем, как получить подписку

Участвовать бесплатно

ОНЛАЙН-ПРАКТИКУМ

ЗАПУСК нейросети DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ

ЧТО БУДЕТ НА ОБУЧЕНИИ?

ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросеть DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ

Участвовать бесплатно

Медиа о нейросетях,
зерокодинге и онлайн-образовании

Медиа о нейросетях,
зерокодинге и онлайн-образовании

Как ИИ выбирает вам песню: нейросети в Яндекс Музыке

Откуда всё началось

Что такое ARGUS и чем он отличается

Почему трансформеры? Потому что они работают

Масштабирование: зачем делать модели больше?

Почему ARGUS работает лучше

Как ИИ выбирает вам песню: нейросети в Яндекс Музыке

Откуда всё началось

Что такое ARGUS и чем он отличается

Почему трансформеры? Потому что они работают

Масштабирование: зачем делать модели больше?

Почему ARGUS работает лучше

Вам точно понравится