Меня зовут Иван Юхарин — основатель AI-студии AIPL, преподаватель и Leading Expert в Zerocoder и Нетология. Рассказываю взрослым и детям (НейроTeen) об ИИ и его возможностях. Обучал сотрудников Geely, Кофемании, Московской Биржи, ПИК, Агентство Инноваций города Москвы и других применению ИИ в рабочих задачах. Подробнее о моей деятельности можно почитать тут.

В этой статье я дам краткий обзор развития языковых моделей за последние 5 лет, расскажу, как учатся и улучшаются LLM, а также что нас ждем в будущем.

Трансформеры и их развитие

Для того, чтобы разобраться в устройстве моделей и принципах их работы нам потребуется немного углубиться в термины и суть процесса. Не переживайте, постараемся разобраться на понятном языке.

В начале разберемся с 3 заветными буквами — GPT (Generative Pretrained Transformer) Дословно это «генеративный предварительно обученный трансформер».

И особенно нас здесь интересует термин «трансформер».

О прорыве в нейросетях в 2025 году читайте подробнее в нашей статье

Трансформеры обрабатывают информацию не последовательно, как человеческий мозг, а анализируют все элементы данных одновременно. Представьте, что модель смотрит на текст как на пазл, где каждая деталь важна, но их взаимное расположение определяет общую картину. Для этого используется механизм внимания, который оценивает значимость каждого слова относительно других.

Архитектура состоит из двух ключевых частей:

  • Кодировщик преобразует входные данные (например, текст) в числовые векторы, сохраняющие смысл и позицию каждого элемента.
  • Декодировщик использует эти векторы для генерации ответа, будь то перевод, продолжение фразы или анализ sentiment.

То есть один помогает ИИ понять суть вашего запроса, второй — изложить ответ на понятном нам языке.

ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
  • Где и как применять? Потестируем модель после установки на разных задачах
  • Как дообучить модель под себя?

Первые модели и их недостатки

Первые трансформеры страдали от «шума» — избыточного внимания к нерелевантным элементам. Из-за это ИИ мог давать странные ответы на довольно очевидные вопросы. Для решения этой проблемы Microsoft предложила решение — дифференциальное внимание: вместо одного набора весов (влияния факторов) модель создает два и вычитает их, усиливая значимые связи и подавляя помехи. Это повысило точность работы с длинными текстами на 15-20%. Дальше проекты начали внедрять xLSTM и делать мультимодальные модели — все это делалось для двух вещей:

  1. Повысить эффективность обработки наших запросов, в том числе работе с разными форматами информации.
  2. Снизить расходы на вычисления моделей, ведь ваши 20$ почти никак не окупают Сэму работу дата-центров.

И обе эти задачи сейчас решаются в лучшую сторону.

Как учатся GPT

Также современные GPT-модели обучаются на триллионах токенов из книг, статей, кода и диалогов. Ключевые инновации в этих процессах:

  • Маскированное обучение — предсказание пропущенных слов, развивающее контекстное понимание
  • Контрастивное обучение — сравнение правильных и некорректных вариантов ответов для улучшения точности
  • Reinforcement learning (обучение с подкреплением) с human feedback — донастройка на основе оценок реальных пользователей.

Но есть проблема — модели становятся все больше. И чтобы их запускать, требуется все более мощное железо. Чтобы уменьшить размер моделей без потери качества, сейчас применяются:

  • 8-битное квантование — сжатие числовых параметров с 32 до 8 бит
  • Дистилляция знаний — передача опыта большой модели к компактной версии
  • Sparse attention — фокусировка только на ключевых участках текста, что ускоряет обработку на 40%.

И возвращаясь к вопросу — зачем компании столь активно развивают модели — ответов у нас получится несколько:

  1. Конкуренция за рынок, а в геополитическом масштабе — стремление к цифровому суверенитету
  2. Преодоление проблем, которые мы разбирали ранее. Все-таки деньги хочется тратить эффективно.
  3. Стремление стать новаторами в этой области и дать обществу действительно эффективную технологию

Однако, это мой субъективный взгляд, будет интересно узнать ваши мысли по этому поводу.

Сравнение ключевых моделей

По большей части путь ИИ модели c GPT-3 до текущих 4о и о3-mini-high (а скоро выйдет уже GPT-4.5) можно очень условно описать так:

  1. Модели GPT-3 и GPT-3.5 научились давать более-менее осмысленные ответы на простые вопросы и задачи. Работали они только с текстом, никаких вам анализов таблиц, вычислений на python и прочего. Само начало ИИ-эры.
  2. GPT-3.5 Turbo стала капельку лучше отвечать, но самое главное — значительно ускорилась в подготовке ответов.
  3. GPT-4 вывел работу с ИИ на новый уровень — здесь уже модель стала лучше креативить, решать сложные задачи, со временем научилась работать с файлами. Результаты уже были вполне рабочими, но все еще далеки от идеала.
  4. GPT-4o стал первой полноценной мультимодальной моделью. Он научился

понимать разные типы информации, быстро отвечать, лучше понимать суть задачи. Генерирует ответы быстро, редко отклоняется от запроса.

  1. Ну и линейка reasoning моделей o1-o3 — видоизмененные модели с возможностью «подумать», перед тем как дать ответ. Хороши для сложных рабочих задач, но требуют чуть другого подхода к постановке запроса.

Протестируем модели вместе

Для наглядного примера возьмем один и тот же запрос:

Напиши мне текст для поста в Телеграм. Цель поста — анонс нового продукта «ИИшница», привлечение первых пользователей. Текст должен быть в продающем стиле, не более 300 символов, призывать к действию (перейти по ссылке), в неформальном стиле.

О продукте: ИИшница — мобильное приложение на базе ИИ, который генерирует рецепты блюд по фотографии содержимого вашего холодильника. Помогает решить вечную проблему — «что сегодня приготовить?»

Настройки будем оставлять базовые.

GPT-3.5 Turbo:

🚀 Попробуй наш новый продукт — ИИшница! 🤖🍽️ Забудь о головной боли с выбором блюда, просто сфотографируй свой холодильник и получи рецепты на любой вкус! 😋 Ссылка в профиле, ждём тебя! 📲👩‍🍳 #ИИшница #новинка #приложение

GPT-4:

Эй, гурманы! 🍽️ Перестаньте голову ломать над тем, что готовить из того, что есть в холодильнике! Представляем «ИИшницу» — приложение, которое натренировано выдавать рецепты прямиком из вашего холодильника! 🍔🥗 «ИИшницу» надо всего лишь «накормить» фоткой и… вот оно чудо! 🙌 Рецепты, которые перевернут ваш кулинарный мир, в один клик ➡️ [ссылка].

GPT-4o:

🤖✨Встречайте «ИИшницу» — ваш новый кулинарный помощник! 📸 Сделай фото содержимого холодильника, а наш ИИ предложит рецепты, которые удивят. 🥗🍝 Наслаждайтесь простотой готовки и вдохновляйтесь каждый день! Готовы попробовать? Жмите сюда и открывайте новые вкусы! [ссылка].

Анализ результатов с помощью O3-mini-high

В целом видно, что у каждой модели свой подход и актуальность применяемых «крючков» в тексте на момент их обучения. При этом каждая модель выполнила задачу почти по всем поставленным условиям.

Конечно, если мы возьмем что-то посложнее, например расчет юнит-экономики, то там все модели вам дадут не самые правильные цифры, но по качеству общего анализа свежие модели будут результативнее и релевантнее.

Я попросил модель о3-mini-high сравнить ответы на запросы и описать свои выводы, вот ее мнение:

Ответы различаются по стилю и эмоциональной нагрузке. GPT-3.5 Turbo предлагает краткий, динамичный вариант с эмодзи и хэштегами, что привлекает внимание, но выглядит несколько шаблонно. GPT-4 использует более образный и детализированный язык, усиливая эмоциональный отклик, однако его текст может нуждаться в незначительном сокращении. Версия GPT-4o демонстрирует баланс между информативностью и неформальным стилем с четким призывом к действию — она наиболее готова для публикации без редакционных доработок.

Будущее генеративного ИИ

Что нас ждет дальше? Однозначно все компании будут стремиться достичь следующих пунктов:

  • Улучшить релевантность ответов на запросы за счет большего внимания к деталям, размышлениям и привлечении дополнительных инструментов. Таких как Operator и другие.
  • Лучше обучать модели на специализированных данных, повышая качество ответов в сложных узких дисциплинах.
  • Повысить эффективность и скорость обучения за счет новых дата-центров (для интересующихся — проект Stargate и проект развития ИИ в ЕС) и выйти в прибыль.
  • И главное — довести интеграцию ИИ в повседневную жизнь до формата, в котором это будет очень легко и удобно его использовать. Пример —интеграция Open AI в iOS.

Мы видим, что языковые модели постоянно развиваются и будущем они смогут помогать нам еще лучше!

3-дневный курс
НАУЧИСЬ СОЗДАВАТЬ TELEGRAM-БОТОВ НА PYTHON С CHATGPT
C НУЛЯ ЗА 3 ДНЯ
  • Освой Python и нейросети и узнай, как гарантированно получить первые 10 заказов
  • УЧАСТВОВАТЬ ЗА 0 РУБ.
  • Создай и прокачай собственного чат-бота
Участвовать бесплатно
ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
Участвовать бесплатно