Новая нейросеть от Microsoft: VibeVoice-Realtime — живая речь с эмоциями

December 9, 2025 admin

Microsoft представила VibeVoice Realtime – инновационную нейросетевую модель для генерации речи, отличающуюся высокой выразительностью и компактностью. Несмотря на скромный размер в 0,5 миллиарда параметров, модель обеспечивает плавную и естественную речь, способную передавать широкий спектр эмоций, от удивления и радости до гнева и волнения.

Ключевое преимущество VibeVoice Realtime заключается в возможности ведения длительных диалогов (до 90 минут) и одновременного управления четырьмя голосами. Это открывает широкие перспективы для использования в умных колонках, голосовых помощниках, игровых персонажах, интерактивных приложениях и даже аудиокнигах.

Разработчики подчеркивают, что модель оптимизирована для работы в реальном времени, обеспечивая мгновенное взаимодействие, которое ощущается как живой разговор. Пользователи могут динамически менять тональность и интонацию, создавая эффект от спокойного рассказа до эмоционального отклика.

Потенциал таких систем выходит далеко за рамки развлечений. Эмоциональные голосовые модели способны существенно улучшить качество человеко-машинного взаимодействия в различных сферах, таких как поддержка клиентов, навигация и образование.