Как оценить неоцениваемое и сравнить несравнимое? Большие языковые модели — LLM — сложно сопоставить между собой; их непросто оценить даже в рамках разных версий, таких как GPT-4 и выпущенной в середине мая новой GPT-4o от OpenAI. Но как-то же нужно понимать, насколько LLM меняются. Так были придуманы бенчмарки — универсальная «линейка» для нейросети, с помощью которой ее можно объективно измерить.

Что такое бенчмарки

Итак, у нас есть генеративные нейросети — большие языковые модели, они же LLM, способные генерировать текст практически на естественном языке. Их обучение происходит без учителя. Будучи недетерминированной структурой, они не предлагают результат, который можно спрогнозировать. Разобраться в этом несложно: представьте себе написанную программистом функцию. Результат ее запуска будет предсказуем и определен: например, если нам нужно, чтобы функция на Python вычислила n-е число ряда Фибоначчи, мы легко понимаем, справился инструмент с этой задачей или нет. С LLM такое не пройдет — генерация непредсказуема, иногда неверна и порой удивительна. Как же тогда оценивать эффективность моделей?

Тут на помощь приходят бенчмарки.

По определению, бенчмарк — это стандартизированный набор заданий, которые нейросети нужно выполнить. Задания варьируются: это могут быть упражнения на понимание речи, на разумность, способность рассуждать, на академические общие и специализированные знания. Есть математические бенчмарки. С их помощью исследователи могут сравнивать LLM между собой, проводить обучение, а также оценивать, насколько «умнее» стала новая версия большой языковой модели.

Когда несколько условно одинаковых LLM проходят задания, у исследователей появляется возможность сопоставить их. Например, одна лучше справляется с логикой и здравым смыслом, у другой лучше получается переводить с одного языка на другой с учетом контекста.

Получается что-то такое:

Так выглядит оценка разных LLM от OpenAI, которую они провели в связи с релизом новой версии GPT-4o. Разными цветами подсвечены разные языковые модели. Внизу — где написано MMLU, GPQA и так далее — как раз указаны бенчмарки, с помощью которых проводился сравнительный анализ.

Как можно понять, оценка проводилась по нескольким областям, по разным датасетам и разными инструментами. LLM выполняли задания, позволяющие оценить их способности глубоко и объективно.

Еще вы можете узнать больше о составлении промтов — того, что лежит в основе бенчмарков и любого взаимодействия с нейросетями в принципе. Приходите на бесплатный онлайн-вебинар — научим общаться с LLM на уровне «про» и поможем получить новую специальность с хорошим заработком.

ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
  • Где и как применять? Потестируем модель после установки на разных задачах
  • Как дообучить модель под себя?

Какими бывают бенчмарки

LLM нужно оценить по разным параметрам. Например, ключевая ее способность — умение распознавать текст и отвечать на вопросы, или общаться в чате, чтобы говорить в них практически по-человечески, или логически рассуждать. Скажем, не просто дать ответ на задачу, а показать поэтапно, как она пришла к этой мысли.

Для каждого такого пункта используются разные бенчмарки. В этом их преимущество и их недостаток — не существует некоей универсальной шкалы оценки, которая позволит измерить LLM по всем параметрам. Зато имеющиеся бенчмарки достаточно точны и просты в использовании.

Вот некоторые примеры:

  • MMLU, от «Massive Multitask Language Understanding», и русифицированный аналог YaMMLU_ru от «Яндекса». Содержит около 15 000 вопросов по 57 гуманитарным, точным и естественным наукам. Чтобы ответить на вопросы корректно, LLM придется испытать не только свою эрудицию, но и способность логически рассуждать и обосновывать ответы;
  • GLUE, от «General Language Understanding Evaluation». Один из классических бенчмарков, который всегда вспоминают, когда речь заходит об оценке LLM. Он оценивает общую способность модели понимать язык. Позже появилась более продвинутая версия SuperGLUE, которая включает в себя вопросы, например, по эмоциональной окрашенности некоторых фраз;
  • HellaSwag используется для оценки здравого смысла ИИ. Нейросеть должна делать собственные выводы, поэтому в рамках этого бенчмарка LLM получает обманчиво логичные, но ошибочные по своей сути ответы на вопросы;
  • MT Bench проверяет способность большой языковой модели вести осмысленный диалог с поправкой на действительно сложный сценарий взаимодействия. Аннотаторами выступают аспиранты с опытом работы в тематических областях каждого из вопросов.

Особняком стоит ChatBot Arena — отдельная платформа, где возможности нейросетей к обучению и генерированию текстов тестируют настоящие живые люди. Они проверяют разные модели по скорости реагирования, последовательности и полезности, а потом выносят свой вердикт. Хотя это не бенчмарк в своем традиционном виде, который не вовлекает в процесс оценки человека на активном этапе, ChatBot Arena пользуется большим спросом и позволяет сопоставить несколько LLM в режиме реального времени. И еще он универсальнее аналогов.

Бенчмарки — самый эффективный способ как сравнивать большие языковые модели, так и оценивать, насколько новая версия продукта улучшилась по сравнению с предыдущей. Они не без недостатков — им не хватает универсальности, и они не стандартизированы так, как следовало бы, но при всем этом лучшего способа обработать LLM пока не существует.

Большой практикум
ЗАМЕНИ ВСЕ НЕЙРОСЕТИ НА ОДНУ — PERPLEXITY
ПОКАЖЕМ НА КОНКРЕТНЫХ КЕЙСАХ
  • Освой Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
  • УЧАСТВОВАТЬ ЗА 0 РУБ.
  • Расскажем, как получить подписку (240$) бесплатно
Участвовать бесплатно
ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
Участвовать бесплатно