На уровне архитектуры рекомендательные системы и языковые модели вроде ChatGPT гораздо ближе, чем кажется. Более того, за последними улучшениями в рекомендациях Яндекса — от Яндекс Музыки до Маркета — стоит та же логика, что и у ChatGPT: трансформеры, масштабирование, обучение на больших данных и способность учитывать длинный контекст.

Как работает ChatGPT — если очень просто

Начнем с ChatGPT. По сути, это модель, которая обучена предсказывать следующее слово в предложении. Вы даете ей текст — она «понимает» контекст и дополняет его. Внутри у ChatGPT — архитектура трансформера: механизм внимания, позволяющий учитывать длинные зависимости между словами, даже если они далеко друг от друга. Благодаря этому модель может «держать в голове» тему разговора, стиль, логические связи и даже настроение.

Теперь заменим слова на действия пользователя, а предложения — на последовательность событий: прослушал, пролистал, лайкнул, добавил в корзину, удалил. Получается почти то же самое, не правда ли?

Как работает ARGUS — и почему это «рекомендательный ChatGPT»

В Яндексе разработали рекомендательную модель нового поколения — ARGUS (AutoRegressive Generative User Sequential modeling). Она тоже основана на трансформере и тоже обучается по принципу предсказания следующего элемента в последовательности. Только в её случае «предложение» — это ваша история поведения, а «следующее слово» — это новый трек, товар или рекомендация.

Расскажем больше о российских нейросетях для жизни и карьеры на бесплатном вебинаре!

Модель анализирует, что вы делали раньше (что слушали, какие жанры пропускали, когда чаще слушаете музыку, на каком устройстве и даже на какой странице вы находитесь) — и генерирует наиболее вероятное действие, которое вы совершите дальше. Точно так же, как ChatGPT продолжает вашу мысль в тексте, ARGUS продолжает ваш поведенческий паттерн в цифровом пространстве.

Общие архитектурные принципы

И ChatGPT, и ARGUS используют трансформеры. Это означает:

  1. Self-Attention — механизм, который помогает модели взвешивать, какие элементы входной последовательности наиболее важны. В тексте — это слова, в поведении — действия и контексты (время суток, источник перехода и т. д.).
  2. Position Embeddings — добавляют информации о порядке элементов. Для ChatGPT это порядок слов, а для ARGUS — последовательность действий во времени.
  3. Масштабирование — и языковые модели, и рекомендательные архитектуры выигрывают от увеличения параметров. Команда Яндекса провела масштабный эксперимент и показала: чем больше трансформер, тем выше точность предсказаний. Точно так же OpenAI масштабировал GPT от 117 млн до 175 млрд параметров.
  4. Авторегрессия — модель предсказывает следующий шаг на основе предыдущих. Это логика, которая лежит в самом названии ARGUS и основе GPT (Generative Pre-trained Transformer).
ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
  • Где и как применять? Потестируем модель после установки на разных задачах
  • Как дообучить модель под себя?

Чем отличается? ChatGPT — генератор текста, ARGUS — генератор поведения

Разница — в «семантике». ChatGPT предсказывает токены (словоформы), ARGUS — действия. Но в обоих случаях есть:

  • история, которую нужно понять;
  • контекст, который влияет на прогноз;
  • цель — дать максимально уместный, персонализированный результат.

В результате ARGUS не просто рекомендует. Он «понимает», что именно вам будет интересно сейчас. Причем не только на основе того, что вы уже лайкали, но и того, что пропустили, не дослушали, отменили или просмотрели мельком. Такой подход делает рекомендации осмысленными, а не просто похожими.

Заключение

Как и у языковых моделей, обучение ARGUS требует больших объёмов данных. Яндекс использует один из крупнейших в мире датасетов пользовательского поведения — Yambda, в который вошло почти 5 миллиардов событий (лайки, скипы, прослушивания и т. д.). Модель учится на последовательностях из сотен действий, что делает её поведенческий прогноз максимально точным.

Кстати, этот датасет доступен всем — и если вы разработчик, исследователь или просто энтузиаст, вы можете сами поэкспериментировать с трансформерами для рекомендаций. Такого доступа к реальным данным у многих международных компаний просто нет.

ChatGPT и рекомендации Яндекса — это не разные миры. Это один и тот же технологический прорыв, просто применённый в разных направлениях. Один работает с языком. Второй — с вашими действиями. Но под капотом — одинаково мощные трансформеры, анализ больших данных и умение угадывать то, о чём вы, возможно, даже ещё не подумали.

Большой практикум
ЗАМЕНИ ВСЕ НЕЙРОСЕТИ НА ОДНУ — PERPLEXITY
ПОКАЖЕМ НА КОНКРЕТНЫХ КЕЙСАХ
  • Освой Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
  • УЧАСТВОВАТЬ ЗА 0 РУБ.
  • Расскажем, как получить подписку (240$) бесплатно
Участвовать бесплатно
ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
Участвовать бесплатно