МиниMax представляет VTP: Новый фреймворк для масштабируемого предобучения визуальных токенизаторов

December 19, 2025 admin

В последнее время в области диффузионных моделей, таких как Stable Diffusion и Flux, широко распространено мнение о том, что масштабирование токенизаторов оказывает минимальное влияние на качество генерации изображений, и вычислительные ресурсы целесообразно направлять непосредственно на сам процесс генерации.

Команда MiniMax опровергла эту точку зрения, представив фреймворк VTP – инновационный подход, обеспечивающий масштабируемость. VTP сочетает в себе следующие методы:

  • Обучение представлений, аналогичное CLIP и DINO.
  • Контрастивное и самообучение.
  • Реконструкцию, схожую с принципами VAE.

Впервые была продемонстрирована кривая масштабирования токенизатора, которая демонстрирует, что увеличение объема данных и вычислительных ресурсов для предобучения приводит к значительному улучшению качества генерации на последующем этапе, без дополнительных затрат на генератор.