Новая Vision-Language Модель VL-JEPA: Альтернатива Генеративным VLM от Яна ЛеКуна
Meta* FAIR представила VL-JEPA – первую vision-language модель, разработанную с принципиально иной архитектурой. В отличие от традиционных генеративных VLM, таких как GPT или Claude, VL-JEPA не генерирует токены, а напрямую предсказывает смысл объектов и сцен в абстрактном пространстве.
Эта разработка является продолжением серии JEPA, которую Ян ЛеКун позиционирует как альтернативный подход к генеративным моделям. Первоначально были созданы V-JEPA для анализа видео (понимание физических законов) и LeJEPA – для теоретического обоснования. Теперь VL-JEPA представляет собой полноценную мультимодальную модель.
Ключевое отличие заключается в том, что VL-JEPA предсказывает эмбеддинги – представления «смысла» ответа, а не следующий токен. Декодирование ответа в человекочитаемый текст происходит только в случае необходимости его демонстрации.
Результаты исследований:
-
VL-JEPA с 1.6 млрд параметров показала сопоставимые результаты с 72B Qwen-VL в задаче понимания действий.
-
При лучшем качестве результатов, модель обучалась на 50% меньше параметров.
-
Эффективность декодирования VL-JEPA в 3 раза выше благодаря селективному декодированию.
-
Универсальность: Модель может решать задачи классификации, извлечения информации и визуального ответа на вопросы (VQA) без изменения архитектуры.
Почему это важно? Генеративные VLM часто тратят значительные ресурсы на моделирование поверхностных текстовых вариаций. VL-JEPA работает на уровне семантики, обеспечивая большую эффективность и скорость. Эта особенность особенно актуальна для приложений реального времени, таких как робототехника, AR-очки и стриминг видео.