На Dev Day London спикеры представили обзор текущего состояния генеративного ИИ и его перехода от экспериментальных прототипов к масштабируемым производственным решениям. В 2023 году OpenAI выпустила GPT-4, что дало разработчикам возможность взаимодействовать с языковыми моделями. В 2024 году команда стала фокусироваться не только на создании работающих прототипов, а также на их оптимизации для эффективного масштабирования, снижения ресурсов для стабильной работы.

Одним из важных инструментов для этого стала дистилляция (distillation) — техника, которая позволяет передавать знания большой нейросети более компактной версии, сохраняя при этом высокое качество выполнения узкоспециализированных задач. При сравнении GPT-4 с версией 4 Mini выяснилось, что эта версия уступает в точности ответов. Однако с помощью дистилляции удается приблизить её производительность к уровню GPT-4, сохраняя низкие расходы.

Новые инструменты для дистилляции и дообучения

OpenAI в своем вступлении представили новые инструменты, которые упрощают процесс дистилляции и тонкой настройки моделей: stored completions (автоматический сбор данных о взаимодействии нейросети с пользователями) и evals (система кастомных тестов для оценки качества). Эти инструменты позволяют дообучать ИИ, не требуя сложной подготовки данных вручную.

Stored Completions

Раньше сбор данных для дообучения требовал ручного отслеживания запросов и ответов. Теперь API Open AI позволяет автоматически сохранять входные данные и выходные ответы, задавая параметр store=True. Эти данные можно просматривать, фильтровать и использовать для тонкой настройки компактных версий, таких как 4 Mini, на основе больших нейросетей, например, чат GPT-4.

Evals

Оценка больше не ограничивается академическими метриками вроде MMLU. Теперь разработчики могут задавать свои критерии (например, точность классификации, логичность ответа) и автоматически тестировать разные версии. Это позволяет объективно оценивать качество работы GPT-4, Turbo или Mini в конкретных бизнес-задачах.

Сочетание Stored Completions и Evals позволяет:

  1. Собирать данные о том, как отвечает большая версия (GPT-4).
  2. Дообучать компактную версию (GPT-4 Mini) на этих данных.
  3. Тестировать полученный результат и сравнивать с оригиналом.

Оптимизация моделей

  • GPT-4 – мощная версия для сложных задач, но стоит дороже.
  • GPT-4 Turbo – оптимизированная версия с меньшими расходами.
  • GPT-4 Mini – более дешевая, но требует дистилляции для повышения точности.

Новые инструменты позволяют переносить знания больших моделей в компактные версии, снижая затраты без потери качества. Это открывает возможность создавать гибридные AI-решения, использующие несколько версий для разных задач.

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT
ТОП-подарки всем участникам лекции:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!

Основные проблемы дистилляции

На Dev Day London спикеры OpenAI подробно рассмотрели сложности при дистилляции нейросети, и сразу же предложили подходы к их решению. Основные проблемы связаны с искажением данных при обучении, нехваткой редких, но важных примеров и необходимостью итеративного улучшения модели. Кроме того, было отмечено, что в будущем AI-приложения перейдут от использования одной универсальной версии к системе из нескольких нейросетей, каждая из которых будет оптимизирована под конкретную задачу.

Искажение данных при обучении

Для эффективной дистилляции важно, чтобы распределение данных в обучающем наборе соответствовало реальным условиям эксплуатации модели. Если в данных есть перекос, нейросеть может получить ложные паттерны и работать хуже в реальных сценариях.:

Если нейросеть для интернет-магазина обучается на данных, собранных только в период Чёрной пятницы, она будет прогнозировать повышенный спрос круглый год, что приведет к ошибкам в работе.

Решение:

  • Тщательно подбирать данные, охватывающие все возможные сценарии, а не только один типичный случай.
  • Следить за тем, чтобы обучающий набор правдиво отражал реальное использование ИИ.

Нехватка редких, но критически важных данных

Некоторые сценарии встречаются редко, но оказывают значительное влияние на бизнес-процессы. Если модель не обучена на таких данных, она не сможет их корректно обрабатывать.

В банковской сфере случаи мошенничества составляют менее 0,01% всех транзакций. Если обучающая выборка слишком мала, нейросеть может не «научиться» выявлять мошенников и пропускать важные аномалии.

Решение:

  • Учитывать сбалансированное количество редких событий в обучающем наборе.
  • Использовать синтетические данные для моделирования редких сценариев.
  • Применять регулярный мониторинг модели, чтобы вовремя добавлять недостающие случаи в обучающий набор.

Необходимость итеративного улучшения модели

Дистилляция – это не одноразовый процесс, а непрерывный цикл тестирования и оптимизации. Если модель не проходит повторную проверку после обучения, возможны ошибки, которые проявятся только в продакшене.

После дообучения GPT-4 Mini на данных GPT-4 нужно протестировать, насколько точно версия мини имитирует поведение большой. Без проверки ошибки могут проявиться в некорректных ответах чат-бота или снижении качества классификации.

Решение:

  • Проводить многократные тестирования с помощью Evals для оценки качества модели перед развертыванием.
  • Использовать малые тестовые выборки на начальном этапе, а затем масштабировать обучение.
  • Внедрять автоматизированную систему сбора обратной связи от пользователей и корректировать модель на основе реальных данных.

Будущее приложений: от одной модели к системе из нескольких

Разработчики OpenAI отметили, что переход к множеству специализированных моделей неизбежен. Вместо того чтобы использовать единственную нейросеть, отвечающую за все задачи, AI-системы будущего будут строиться на комбинации нейросетей разного уровня сложности.

Как это будет работать?

  • Стандартные версии (GPT-4, GPT-4 Turbo) будут использоваться для сложных аналитических задач, требующих глубокого понимания контекста и высокой точности.
  • Компактные (GPT-4 Mini, специализированные версии GPT) будут выполнять узкоспециализированные задачи, такие как классификация сообщений, автоматическое формирование ответов и обработка рутинных запросов.
  • Дистиллированные модели позволят получать почти такой же уровень качества, как в универсальных версиях, но с меньшими затратами.

Пример:

  • В системе для поддержки клиентов основную часть диалогов будет вести компактная модель, обученная на частых запросах.
  • В сложных ситуациях (необычные вопросы, нестандартные проблемы) запросы будут передаваться на обработку версии 4o.
  • Это обеспечит быструю обработку типичных задач, а сложные случаи будут разбираться с высокой точностью.

Этот подход позволит продуктам быть гибкими, экономичными и масштабируемыми, сохраняя высокое качество работы при оптимальных затратах.

Дистилляция — это способ балансировать между качеством, стоимостью и скоростью работы, делая ИИ доступным инструментом для бизнеса и разработчиков!

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025
Присоединяйся к онлайн-вебинару.
В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!
Вы узнаете о том:
  • Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
  • PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
  • Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
Участвовать бесплатно
ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN
За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT
Вы узнаете:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
Участвовать бесплатно