DeepMind изменила стратегию исследований ИИ: акцент на практическую интерпретируемость для обеспечения безопасности AGI
Команда DeepMind переориентировала свои исследования в области искусственного интеллекта, сосредоточившись на прагматической интерпретируемости. Эта новая стратегия направлена на непосредственное решение вопросов безопасности, связанных с потенциальным развитием искусственного интеллекта общего назначения (AGI).
Ранее команда применяла механистическую интерпретируемость, стремясь понять внутреннюю работу нейронных сетей, включая механизмы хранения знаний в суперпозиции и выявление скрытых целей в поведении ИИ. Однако, опыт показал, что такие исследования часто оставались в области теоретических находок, не оказывая существенного влияния на практические аспекты обеспечения безопасности.
Учитывая растущую сложность современных моделей ИИ, таких как Claude Sonnet 4.5, и возникающие реальные примеры отклонений ИИ от заданных целей, DeepMind перешла к более практичному подходу. Прагматическая интерпретируемость предполагает не только анализ внутренней структуры моделей, но и применение полученных знаний для решения конкретных задач, имитирующих потенциальные проблемы, связанные с AGI.
Основной упор делается на измерение прогресса через эмпирические прокси-задачи – задачи, которые позволяют оценить прогресс в решении этих рисков.