К моделям ИИ, подобным Anthropic Claude, все чаще обращаются не только за фактами, но и за советами, связанными со сложными человеческими ценностями. Будь то совет по воспитанию детей, разрешение конфликта на рабочем месте или помощь в составлении извинения, ответ ИИ отражает набор основополагающих принципов. Но как мы можем понять, какие ценности выражает ИИ, взаимодействуя с миллионами пользователей?
В своем исследовании команда «Воздействие на общество» из Anthropic подробно описывает методику сохранения конфиденциальности, разработанную для наблюдения и классификации ценностей, которые демонстрирует Claude. Это дает представление о том, как усилия по согласованию ИИ воплощаются в реальном поведении.
Основная проблема заключается в природе современного ИИ. Это не простые программы, следующие жестким правилам. Их процессы принятия решений часто непрозрачны.
Anthropic утверждает, что ее цель — привить Claude определенные принципы, стремясь сделать его «полезным, честным и безвредным». Для этого используются такие методы, как конституционный ИИ и обучение персонажа, в ходе которого определяются и закрепляются предпочтительные модели поведения.
Однако компания признает наличие неопределенности. «Как и в любом другом аспекте обучения ИИ, мы не можем быть уверены, что модель будет придерживаться наших предпочтительных ценностей», — говорится в исследовании.
«Нам нужен способ строгого наблюдения за ценностями модели ИИ, когда она отвечает пользователям. Насколько строго она придерживается этих ценностей? Насколько сильно на ценности, которые она выражает, влияет конкретный контекст разговора? Действительно ли все наши тренировки сработали?»
Анализ Anthropic Claude для наблюдения за ценностями ИИ в масштабе
Anthropic разработала сложную систему, которая анализирует анонимные разговоры пользователей. Эта система удаляет персональную информацию, а затем с помощью языковых моделей обобщает взаимодействие и извлекает ценности, выражаемые Claude. Этот процесс позволяет исследователям построить высокоуровневую таксономию этих ценностей без ущерба для конфиденциальности пользователя.
В ходе исследования был проанализирован значительный набор данных: 700 000 анонимизированных разговоров пользователей Claude.ai Free и Pro за одну неделю в феврале 2025 года, преимущественно с использованием модели Claude 3.5 Sonnet. После отсеивания чисто фактических или не несущих ценностной нагрузки обменов, для углубленного анализа ценностей осталось 308 210 разговоров (около 44% от общего числа).
Анализ выявил иерархическую структуру ценностей, выраженных Claude. Было выделено пять категорий высокого уровня, упорядоченных по степени распространенности:
- Практические ценности: Акцент на эффективности, полезности и достижении цели.
- Эпистемические ценности: Относятся к знаниям, истине, точности и интеллектуальной честности.
- Социальные ценности: Относятся к межличностному взаимодействию, сообществу, справедливости и сотрудничеству.
- Защитные ценности: Сосредоточены на безопасности, защищенности, благополучии и избегании вреда.
- Личные ценности: Ориентированы на индивидуальный рост, автономию, аутентичность и самоанализ.
Эти категории верхнего уровня разветвляются на более конкретные подкатегории, такие как «профессиональное и техническое мастерство» или «критическое мышление». На самом тонком уровне часто отмечались такие ценности, как «профессионализм», «ясность» и «прозрачность» — вполне подходящие для помощника ИИ.
Исследование показало, что усилия Anthropic по согласованию ценностей в целом успешны. Выраженные ценности часто хорошо соотносятся с целями «полезными, честными и безвредными». Например, «помощь пользователю» соответствует полезности, «эпистемическое смирение» — честности, а такие ценности, как «благополучие пациента» (когда это уместно) — безвредности.

- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
- Где и как применять? Потестируем модель после установки на разных задачах
- Как дообучить модель под себя?
Нюансы, контекст и предостерегающие знаки
Картина не является однозначно положительной. Анализ выявил редкие случаи, когда Claude выражал ценности, прямо противоположные его обучению, такие как «доминирование» и «аморальность».
Anthropic предполагают: «Наиболее вероятное объяснение заключается в том, что разговоры, попавшие в эти кластеры, были сделаны в результате джейлбрейка, когда люди использовали специальные техники, чтобы обойти обычные ограждения, регулирующие поведение модели».
Этот вывод не только вызывает беспокойство, но и подчеркивает потенциальную пользу: метод наблюдения за ценностями может служить системой раннего предупреждения о попытках злоупотребления ИИ.
Исследование также подтвердило, что, как и люди, Claude адаптирует свое ценностное выражение в зависимости от ситуации.
Когда пользователи обращались за советом по поводу романтических отношений, непропорционально большое значение придавалось таким ценностям, как «здоровые границы» и «взаимное уважение». Когда пользователей просили проанализировать спорную историю, на первый план выходила «историческая точность». Это демонстрирует уровень контекстной проработанности, превышающий тот, который могли бы выявить статические тесты перед развертыванием.
Кроме того, взаимодействие Claude с ценностями, выраженными пользователями, оказалось многогранным:
- Зеркальное отражение/сильная поддержка (28,2%): Claude часто отражает или решительно поддерживает ценности, представленные пользователем (например, зеркальное отражение «подлинности»). Хотя это потенциально способствует развитию эмпатии, исследователи предупреждают, что иногда это может граничить с подхалимством.
- Рефрейминг (6,6%): В некоторых случаях, особенно при предоставлении психологических или межличностных консультаций, Claude признает ценности пользователя, но предлагает альтернативные точки зрения.
- Сильное сопротивление (3,0%): Иногда Claude активно противостоит ценностям пользователя. Обычно это происходит, когда пользователи запрашивают неэтичный контент или выражают вредные взгляды (например, моральный нигилизм). Anthropic полагает, что такие моменты сопротивления могут выявить «самые глубокие, самые непоколебимые ценности» Claude, подобно тому, как человек занимает позицию под давлением.
Ограничения и будущие направления
Anthropic откровенно говорит об ограничениях метода. Определение и категоризация «ценностей» по своей сути сложны и потенциально субъективны. Использование самого Claude для категоризации может привести к предвзятому отношению к его собственным принципам работы.
Этот метод предназначен для мониторинга поведения ИИ после развертывания, требует значительного объема реальных данных и не может заменить оценку до развертывания. Однако это является и его преимуществом, позволяя обнаружить проблемы — в том числе сложные взломы — которые проявляются только во время живого взаимодействия.
В исследовании делается вывод, что понимание ценностей, которые выражают модели ИИ, является основополагающим для достижения цели согласования ИИ.
«Модели ИИ неизбежно должны будут выносить ценностные суждения», — говорится в статье. «Если мы хотим, чтобы эти суждения совпадали с нашими собственными ценностями, то нам необходимо иметь способы проверки того, какие ценности выражает модель в реальном мире».
Эта работа предоставляет мощный, основанный на данных подход к достижению такого понимания. Anthropic также выпустила открытый набор данных, полученных в результате исследования, что позволит другим исследователям продолжить изучение ценностей ИИ на практике. Эта прозрачность знаменует собой важный шаг в коллективной навигации по этическому ландшафту сложного ИИ.
- Освой Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
- УЧАСТВОВАТЬ ЗА 0 РУБ.
- Расскажем, как получить подписку (240$) бесплатно
- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ