Самообучающиеся ИИ-агенты: Новая Эра в Поиске и Рассуждении
Meta представила инновационный фреймворк, позволяющий языковым моделям (LLM) самостоятельно совершенствовать навыки поиска и рассуждения без использования размеченных данных. Этот подход, в значительной степени, устраняет зависимость от дорогостоящей и трудоемкой ручной разметки, что потенциально меняет правила игры в создании искусственного интеллекта.
В основе фреймворка лежит взаимодействие двух агентов: Proposer и Solver. Proposer генерирует поисковые вопросы, а Solver отвечает на них, используя внешний поисковик. Ключевым элементом является система вознаграждений, которая стимулирует постепенное усложнение задач. Если Solver дает полный и однозначный ответ, ему не полагается награда – только частичный успех оценивается, создавая динамичный и саморегулирующийся учебный процесс.
Процесс обучения представляет собой замкнутый цикл: по мере того, как Solver становится более эффективным, простые вопросы теряют свою актуальность, заставляя Proposer генерировать все более сложные вопросы, что, в свою очередь, стимулирует дальнейшее развитие Solver. Такой подход позволяет достичь высокой производительности даже при отсутствии человеческого участия.
Результаты экспериментов впечатляют. На простых задачах (один поисковый шаг) 3B-модель превосходит существующие размеченные модели на 7-23%. А при многошаговых задачах 7B-модель достигает качества, сравнимого с полностью размеченными агентами, около 90%.
Ограничения: хотя модель показывает отличные результаты, после нескольких итераций процесса обучения наблюдается плато. Кроме того, большие модели могут быть менее стабильными в процессе самообучения. Исследователи продолжают работу над решением проблемы «хищнического вознаграждения» в долгосрочной саморазвитии ИИ.