Google DeepMind обнаружили новый подход к обучению языковых моделей, имитирующий человеческий интеллект
Google DeepMind представили два исследования(здесь и здесь), описывающие принципы обучения языковых моделей. Основная проблема заключается в том, что модели, такие как GPT-5 и Gemini 2.5 Pro, демонстрируют плохую адаптацию в ходе диалога. При получении подсказки или указании на ошибку, они повторяют изначально неверный ответ. Данное явление является следствием архитектуры обучения, основанной на статических текстах. Модель обладает хорошей памятью, но не способна к обучению в режиме реального времени. Исследователи назвали это отсутствием in-context plasticity – способности изменять мышление в ответ на новую информацию непосредственно в процессе разговора. Решение DeepMind заключается в преобразовании обычных задач (математика, код) в педагогические диалоги, где одна копия модели выступает в роли учителя, а другая – в роли студента. Ключевой принцип заключается в том, что учителю не требуется превосходить ученика. Достаточно знать правильный ответ. Асимметрия информации заменяет асимметрию интеллекта. После такого обучения с использованием reinforcement learning (RL) происходит неожиданный результат: Gemini 2.5 Flash демонстрирует аналогичную адаптивность Gemini 2.5 Pro. Модели, обученные на математике, улучшают свои навыки в игре в покер и решении лабиринтов. Особенно странным является явление самосовершенствования. Если обучить модель также предсказывать реплики учителя, она начинает самостоятельно критиковать и исправлять себя. Данный результат превосходит результаты, полученные с помощью реального учителя. Суть заключается в обучении алгоритма, а не ответов. Это то, что люди делают с детства и называют социальным интеллектом. Для ИИ это только начало.