Голосовий помічник у смартфоні навчили розпізнавати беззвучну промову

Китайські розробники створили додаток для смартфона, що розпізнає беззвучну мову щодо рухів доль користувача і перетворює команди на дії на пристрої, наприклад, він може запускати інші програми. На відміну від звичайних голосових помічників, додаток можна використовувати в громадських місцях, не заважаючи іншим людям, розповідають розробники в статті, представленій на конференції UIST 2018.


Практично всі сучасні смартфони обладнані голосовими помічниками, що розпізнають і виконують команди користувача. За останні роки розробникам вдалося довести рівень точності розпізнавання мови алгоритмами до рівня фахівців з набору тексту, а також навчити помічники підтримувати діалог, запам'ятовуючи контекст попередніх команд. Проте дослідження показують, що більшість людей не використовують голосові помічники в громадських місцях, оскільки при цьому вони почуваються некомфортно.


Юаньчунь Ши (Yuanchun Shi) і його колеги з Університету Цинхуа розробили голосовий помічник для смартфонів, який вміє розпізнавати промову по рухах доль, навіть якщо користувач не видає звуків.

Під час роботи додаток визначає особу в кадрі з камери смартфона і після цього починає відстежувати положення 20 контрольних точок, які досить точно описують форму доль. Крім того, він визначає ступінь відкритості рота, що дозволяє відстежувати моменти початку і кінця команди. Після цього дані передаються на інший алгоритм на основі згорточної нейромережі, який займається безпосередньо розпізнаванням мови за рухами доль. Варто відзначити, що поки розробники реалізували розпізнавання не на самому смартфоні, а на додатковому і досить потужному комп'ютері.

Автори програми розробили для нього 44 команди, частина з яких відноситься до всієї системи, наприклад, включення Wi-Fi, частина до конкретних програм, а ще одна частина дозволяє взаємодіяти з будь-яким додатком за допомогою системних служб, наприклад, виділяти текст. При цьому програма розуміє контекст команд, наприклад, якщо система відобразила спливаюче вікно з повідомленням, то користувач зможе швидко відповісти на нього.

Розробники перевірили точність розпізнавання, навчивши систему на прикладах мови 21 людини, і перевіривши на промові ще одну. Середня точність розпізнавання виявилася рівною 95,5 відсотка. Крім того, автори перевірили, наскільки їх додаток зручніший голосового введення в громадських місцях, і провели експеримент в пекінському метро. Під час експерименту п'ять пар добровольців оцінювали конфіденційність і комфорт використання програми, при цьому один з них виконував команди, а другий виступав у ролі пасажира. Випробування показали, що в обох випадках люди вважають беззвучні команди більш комфортними і конфіденційними, ніж голосові команди, причому навколишні люди відчували себе більш комфортно, ніж сам користувач.

Розробкою соціально прийнятних способів взаємодії зі смартфонами та іншими пристроями займається досить багато дослідників, які використовують для цього різні підходи. Наприклад, інженери з Массачусетського технологічного інституту створили закріплювану на шиї гарнітуру, яка реєструє зміни сигналів нейромишкової активності, коли користувач говорить, не відкриваючи рота. А інша група інженерів створила розумні окуляри, які відстежують жести пальцями біля носа і перетворюють їх на команди для смартфона.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND