Использование видеомодели Veo для обучения и тестирования роботов: новый подход от Google DeepMind
Google DeepMind представила инновационное исследование, посвященное использованию видеомодели Veo для оценки и обучения робототехники. В работе, под названием «Оценка политик роботов в Veo World Simulator», впервые продемонстрирована эффективность Veo для создания реалистичных симуляций, охватывающих широкий спектр задач, от простых рутинных операций до сложных сценариев с использованием разнообразных фонов, отвлекающих элементов и проверок безопасности.
Veo позволяет создавать симуляции с мультимедийным контентом, адаптируя их к конкретным действиям робота и обеспечивая возможность редактирования сцен без необходимости проведения дорогостоящих экспериментов на реальном оборудовании. Валидация подхода прошла на основе 1600+ реальных испытаний с использованием ALOHA 2, что позволило зафиксировать высокую корреляцию между симуляцией и результатами. Симуляция точно прогнозирует успех выполнения задач и позволяет ранжировать различные политики роботов.
Этот подход соответствует стратегии Google DeepMind в области «world models», предложенной Дэмисом Хассабисом, где симуляции рассматриваются как ключевой инструмент для понимания мира и обучения искусственных агентов. В дополнение к Veo World Simulator, команда разработала Genie 3 – интерактивные 3D-миры в реальном времени, построенные на основе Veo и генерируемые из текста, который сейчас тестируется с агентом SIMA, чтобы ИИ мог учиться в смоделированных мирах и решать проблему дорогостоящих данных для робототехники и беспилотного транспорта.