Автоматизация творческих задач, таких как создание презентаций, сделала значительный скачок вперед. Недавнее исследование разработало агента ИИ, основанного на большой языковой модели, который учится исследовать темы, планировать контент и генерировать профессиональные презентации в HTML. Самое примечательное то, что этот агент после тонкой настройки всего 0,5% своих параметров достигает 91,2% качества от массивных моделей вроде Claude Opus, демонстрируя, что эффективность в выполнении инструкций может превосходить простое масштабирование.
Обучение с подкреплением и система вознаграждения из шести измерений 🤖
Агент обучается в среде обучения с подкреплением, совместимой с OpenEnv, с использованием метода GRPO. Ключ к его производительности — инновационная многокомпонентная система вознаграждения, которая оценивает качество генерируемых слайдов с нескольких углов. Она включает валидацию структуры, оценку качества рендеринга, эстетическую оценку от другого LLM, метрики контента и вознаграждение за обратную спецификацию. Последняя особенно изобретательна: другой LLM пытается восстановить исходную цель презентации из генерируемых слайдов, тем самым измеряя коммуникативную верность результата.
Соблюдение инструкций — новая граница искусственного интеллекта 🚀
Эта работа выходит за рамки простого технического прогресса. Сравнение шести моделей показывает, что определяющим фактором производительности в агентных задачах является не количество параметров, а способность следовать инструкциям и coherentно использовать инструменты. Это указывает на смену парадигмы: будущее автоматизации в творческих и офисных работах не будет зависеть исключительно от более крупных моделей, а от агентов, лучше обученных понимать и выполнять сложные цепочки рассуждений и действий.
Насколько автоматизация творческих задач, таких как генерация презентаций легковесной моделью ИИ, переопределяет роль профессионала и ценность человеческой креативности в цифровом обществе?
(ПС: пытаться забанить никнейм в интернете — это как пытаться загородить солнце пальцем... но в цифровом варианте)