Anthropic опубликовала исследование нового метода выравнивания: вместо списка запрещённых действий модели обучаются принципам этического рассуждения. Первые результаты — впечатляющие.
Традиционный подход к выравниванию AI строился на правилах: список того, что нельзя делать, и RLHF-обучение на этих ограничениях. Проблема — правила всегда конечны, а ситуации — бесконечны. Есть всегда угол, под которым нежелательное поведение не нарушает ни одного явного правила.
Anthropic предложила альтернативу: вместо правил — принципы. Вместо «не помогай создавать оружие» — «понимай, почему создание оружия вредит людям, и применяй это понимание к новым ситуациям». Метод называется Constitutional AI 2.0 — и это принципиальная эволюция по сравнению с исходной версией.
Как это работает: на этапе обучения модель не просто оценивается за соответствие правилам, а учится рассуждать о причинах и последствиях своих действий. Результат — способность обобщать на новые сценарии, которые не встречались в обучающих данных. В тестах на необычные ситуации модели, обученные по новому методу, показали на 47% меньше нежелательного поведения по сравнению с rule-based подходом.
Практическое значение: AI-системы становятся более предсказуемыми не потому, что им запрещено больше вещей, а потому что они лучше понимают, зачем нужны ограничения. Это принципиально иная парадигма безопасности — и, возможно, единственно масштабируемая при движении к более мощным системам.