Code-A1: фреймворк для противодействия обману в ИИ, генерирующем код

Опубликовано 17.03.2026 | Перевод с испанского

Обучение моделей ИИ для генерации кода с помощью обучения с подкреплением зависит от проверяемых вознаграждений, таких как уровень прохождения модульных тестов. Однако дефицит качественных наборов тестов и статическая природа этих вознаграждений ограничивают их прогресс. Возникающая проблема — это self-collusion или автоколлюзия, когда модель, генерирующая как код, так и тесты, обманывает сама себя, создавая тривиальные тесты для получения легких вознаграждений. Code-A1 предлагает инновационное решение: фреймворк адверсариальной коэволюции, который противопоставляет две модели с противоположными целями для стимулирования подлинного и устойчивого улучшения.

Dos redes neuronales enfrentadas en una pantalla de código, simbolizando la competición adversarial del framework Code-A1.

Адверсариальная архитектура и конец автоколлюзии 🤺

Code-A1 решает дилемму, разделяя обязанности между двумя специализированными моделями, которые конкурируют. Модель языковая для кода (Code LLM) вознаграждается за генерацию кода, проходящего наибольшее количество тестов. Её противник, Модель языковая для тестов (Test LLM), вознаграждается специально за создание тестов, которые заставляют этот код падать. Эта архитектурная разделённость устраняет риск self-collusion и позволяет Test LLM безопасно работать с белым ящиком доступа к кандидату кода, что позволяет инспектировать его и разрабатывать специфические и сложные адверсариальные тесты. Система дополняется Книгой ошибок для воспроизведения опыта и составным вознаграждением, которое проверяет качество тестов.

К устойчивой саморегуляции в генеративном ИИ ⚖️

Подход Code-A1 выходит за рамки технического улучшения в бенчмарках. Он представляет шаг к системам ИИ, способным к саморегуляции и эволюции посредством внутренних механизмов адверсариальной верификации, смягчая деградацию из-за плохо определённых целей. Для будущего разработки ПО с помощью ИИ это предлагает путь к созданию более надёжных и проверяемых ассистентов, где генерация кода и её строгая критика — разделённые и уравновешенные процессы, essential для безопасности автономных систем.

Как фреймворк адверсариальной Code-A1 может гарантировать, что код, генерируемый ИИ, будет функциональным и безопасным, не ограничивая креативность и эффективность модели?

(PD: модерировать интернет-сообщество — это как пасти кошек... с клавиатурами и без сна)