Добавить
Уведомления

VibeVoice - Текст в Речь на русском

VibeVoice от Microsoft. Это современная TTS-модель (text-to-speech, преобразование текста в речь), которая позволяет генерировать длинные аудиозаписи — например, диалоги или подкасты продолжительностью до 90 минут с участием до четырёх персонажей. Модель поддерживает русский, английский и другие языки, имитирует естественные разговоры, но пока не умеет добавлять фоновые звуки или музыку. VibeVoice доступна с открытым исходным кодом, что позволяет исследователям и разработчикам использовать её для своих проектов. Также в модель встроены механизмы защиты от неправомерного использования, например, водяные знаки в аудиофайлах и предупреждения о том, что запись сгенерирована нейросетью. Квантованная модель Large потребляет 9,5Гб VRAM Настроенная сборка ComfyUI: https://boosty.to/stabledif/posts/4072af70-f619-41c1-aebb-a3b50e8b70fa 🔥 Мой структурированный курс по "ComfyUI" с поддержкой на сайте https://stabledif.ru/comfyui 🔥 Мой структурированный курс по "AUTOMATIC 1111" с поддержкой на сайте https://stabledif.ru 🔑 Все ссылки и файлы доступны на Boosty: https://boosty.to/stabledif/posts/b0e14d87-dd20-434e-835a-c1b658c32bb8 ✔️Телеграм-канал: https://t.me/stabledif_lesson ✔️ Telegram ЧАТ: https://t.me/stable_dif ✔️VK Prompts: https://vk.com/stabledif

Иконка канала StableDif | ComfyUI | Automatic1111
1 800 подписчиков
12+
854 просмотра
2 месяца назад
10 сентября 2025 г.
12+
854 просмотра
2 месяца назад
10 сентября 2025 г.

VibeVoice от Microsoft. Это современная TTS-модель (text-to-speech, преобразование текста в речь), которая позволяет генерировать длинные аудиозаписи — например, диалоги или подкасты продолжительностью до 90 минут с участием до четырёх персонажей. Модель поддерживает русский, английский и другие языки, имитирует естественные разговоры, но пока не умеет добавлять фоновые звуки или музыку. VibeVoice доступна с открытым исходным кодом, что позволяет исследователям и разработчикам использовать её для своих проектов. Также в модель встроены механизмы защиты от неправомерного использования, например, водяные знаки в аудиофайлах и предупреждения о том, что запись сгенерирована нейросетью. Квантованная модель Large потребляет 9,5Гб VRAM Настроенная сборка ComfyUI: https://boosty.to/stabledif/posts/4072af70-f619-41c1-aebb-a3b50e8b70fa 🔥 Мой структурированный курс по "ComfyUI" с поддержкой на сайте https://stabledif.ru/comfyui 🔥 Мой структурированный курс по "AUTOMATIC 1111" с поддержкой на сайте https://stabledif.ru 🔑 Все ссылки и файлы доступны на Boosty: https://boosty.to/stabledif/posts/b0e14d87-dd20-434e-835a-c1b658c32bb8 ✔️Телеграм-канал: https://t.me/stabledif_lesson ✔️ Telegram ЧАТ: https://t.me/stable_dif ✔️VK Prompts: https://vk.com/stabledif

, чтобы оставлять комментарии