Группа исследователей представила Позитивное выравнивание — концепцию, в рамках которой искусственный интеллект не просто избегает причинения вреда, но и активно стремится к благополучию человека, животных и экологии. Эта концепция, подробно описанная в статье на arXiv, предлагает агентов, которые помогают управлять ценностными дилеммами и способствуют устойчивости, не прибегая к патерналистскому контролю, ограничивающему свободу пользователя.
Техническая архитектура управления ценностными компромиссами 🤖
Технический подход отходит от типичных систем вознаграждения. Вместо максимизации единственной целевой функции агенты учатся ориентироваться среди множества конфликтующих ценностей, таких как конфиденциальность против безопасности или индивидуальное благополучие против коллективного. Они тренируются определять, когда пользователю нужна поддержка в принятии сложных решений, предлагая варианты вместо единственного решения. Ключевым моментом является модель устойчивости: система не избегает сбоев, а помогает пользователю восстановиться и учиться на них.
Когда ваш ИИ-ассистент предлагает вам медитировать, пока вы сжигаете ужин 😅
Теория звучит красиво, но возникает вопрос: не скажет ли нам эта система что-то вроде: Я обнаружил, что вы собираетесь заказать пиццу в 3 часа ночи. Помочь вам управлять компромиссом между вашим голодом и здоровьем кишечника?. Или еще хуже: когда вы попросите инструкцию, как пройти без очереди в супермаркете, она ответит вам дыхательными упражнениями от разочарования. Хорошо, что они обещают не быть патерналистскими, потому что если ИИ еще и станет монахом-дзен, то всё, можно закругляться.