Алгоритм розпізнавання мови за звуком навчив нейромережу розпізнавати її по губах

Китайські та американські дослідники розробили новий метод навчання нейромереж для розпізнавання мови по губах, що дозволив досягти кращих результатів, ніж вдавалося аналогічним алгоритмам. Вони запропонували брати добре навчений алгоритм розпізнавання мови за аудіозаписами і використовувати його в якості вчителя для алгоритму розпізнавання мови за відеозаписами. Завдяки такому методу нейромережа для читання по губах може вивчити деякі закономірності і ознаки, які складно вивчити, використовуючи тільки послідовність зображень. Стаття про метод буде представлена на конференції AAAI 2020.


Оскільки великі і точні нейромережеві моделі, як правило, вимагають великих обчислювальних ресурсів, їх складно застосовувати на смартфонах та інших мобільних пристроях. Існують методи, що дозволяють фактично стиснути модель, значно зменшивши її розмір і необхідну обчислювальну потужність для роботи, але майже повністю зберігши точність. Один з таких методів називається дистиляцією знань (knowledge distillation).


При дистиляції знань розробник бере навчену на великій кількості даних велику нейросетеву модель (модель-вчитель) і створює більш компактну нейромережу (модель-учень). Суть методу полягає в тому, що обидві мережі отримують однакові дані і учень намагається повторити результат роботи вчителя на кожній одиниці даних (наприклад, фотографії), причому не тільки на вихідному шарі, а й на всіх проміжних.

Група дослідників під керівництвом Мінлі Сун (Mingli Song) з Чжецзянського університету запропонувала використовувати цей метод для навчання читанню по губах. У цьому випадку в якості вчителя виступає алгоритм розпізнавання мови з аудіозапису, тому що такі алгоритми розвинені набагато краще, ніж алгоритми для читання мови по руху 1916.

Загалом алгоритм можна уявити в симетричному вигляді з двома паралельними рекуррентними нейромережами. Варто зазначити, що вхідний вектор для рекуррентної мережі для розпізнавання по губах формується на основі вектора зі згорточної нейромережі, яка обробляє кадри відео. Дослідники реалізували дистиляцію знань у вигляді декількох блоків, що відповідають за різні масштаби даних: кадр (або відповідний відрізок аудіо), вся послідовність даних (весь ролик) і найбільша загальна підпослідовність.

Розробники навчали і перевіряли роботу методу на стандартних для такого завдання датасетах: LRS2, що містить понад 45 тисяч речень, виголошених в ефірі BBC, а також CMLR - найбільший датасет для читання по губах північнокитайською (мандаринською) мовою, що містить понад 100 тисяч пропозицій з ефіру CNTV.

Порівняння точності розпізнавання на цих датасетах з кращими на момент дослідження аналогічними алгоритмами показало, що новий алгоритм справляється з розпізнаванням по губах на 7,66 відсотків краще на датасеті CMLR (31,27 відсотка помилок на рівні букв) і на 2,75 відсотка краще на LRS2 (45,53 відсотка помилок на рівні букв).

Рухи доль раніше пропонували використовувати не тільки для розпізнавання мови, а й для підвищення безпеки. У 2017 році китайські дослідники запропонували аналізувати індивідуальну манеру руху доль при виголошенні пароля в якості додаткового фактора, що підтверджує особу.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND