Алгоритм синтезу мовлення переозвучує фільми оригінальними голосами

Компанія Resemble AI, яка займається розробками в області синтезу мовлення, представила Localize - програму для локалізації мови зі збереженням оригінального голосу. Поки що в сервісі доступні англійська, французька, німецька, голландська, іспанська та італійська мови, але незабаром розробники також обіцяють додати японську, корейську та північнокитайську мови. Послухати приклади роботи програми можна на сайті компанії, а коротко про неї повідомляє Engadget.


Сучасні системи синтезу мови працюють досить якісно: принаймні, вже пару років тому їх результати були невідгукнуті від людської мови - а на виробництво потрібно було не так багато даних. Одна з невирішених поки що проблем - це проблема локалізації: готових рішень, які дозволяли б якісно перекладати мову з однієї мови на іншу зі збереженням голосу, дуже мало.


Наприклад, минулого року Google представила свою таку систему на основі нейромереж з довгою короткостроковою пам'яттю - Translatotron: він може якісно локалізувати промову без проміжного кроку перекладу мови в текст. Проект, однак, поки що залишається виключно дослідницьким: компанія, судячи з усього, не використовує його у своїх сервісах і не надає іншим компаніям.

Resemble AI пішли трохи далі: їх Localize вже доступна для користувачів. Про сам алгоритм в основі програми відомо небагато, але розробники вирішили не обходити крок синтезу тексту в мову, як це зробила Google, тому їх сервіс дозволяє не просто перекладати мову безпосередньо зі збереженням всіх характеристик, але також і синтезувати її з тексту.

Крім того, Resemble AI для своїх продуктів (крім Localize це також і стандартні сервіси синтезу мови) використовує власний вокодер на основі генеративно-змагальних нейромереж - HooliGAN, який у тому числі дозволяє генерувати мову на основі невеликої кількості даних. Також компанія виклала у вільний доступ API і документацію до нього: судячи з неї, сторонні розробники зможуть керувати деякими параметрами синтезу локалізованого мовлення (наприклад, змінювати емоційний окрас сказаного).

Поки що в Localize доступні шість мов: англійська, німецька, французька, іспанська, італійська та голландська, але розробники обіцяють розширити їх список, в першу чергу додавши корейський, японський і північнокитайський. Що стосується сфер використання програми, то Resemble AI в першу чергу націлена на те, що Localize зможе локалізувати фільми в різних країнах з використанням оригінального голосу актора.

Також в локалізації може стати в нагоді і відтворення міміки розмовляє на основі мови - і такі алгоритми теж активно розробляють.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND