Машинне навчання допоможе освоїти уявну клавіатуру

Корейські інженери розробили і протестували ефективність уявної клавіатури для тачскринів - користувачі, які брали участь у дослідженні, не отримували ніяких обмежень по роботі з клавіатурою і мали руки в будь-якому місці сенсорної панелі, користуючись уявними клавішами в QWERTY-розкладці. Точність розпізнавання алгоритмом тексту, що набирається на невидимій клавіатурі, перевищила 95 відсотків, а швидкість набору тексту перевищувала 45 слів на хвилину, йдеться в препринті на arXiv.org.


Безліч сучасних пристроїв позбавлено апаратних клавіатур - в планшетах, смартфонах і різних терміналах в переважній більшості випадків використовуються тачскріни. Однак такий підхід нерідко призводить до зниження швидкості набору тексту - при використанні апаратних клавіатур людина відчуває натискання клавіш, завдяки чому може друкувати швидко, користуючись сліпим методом. Екранні клавіатури не можуть дати подібного зворотного зв'язку (максимум - вібрація для індикації реєстрації натискання), тому у користувачів значно падає швидкість набору тексту і знижується кількість використовуваних для друку пальців. В якості альтернатив посимвольному набору пропонуються різні жестові методи введення (наприклад, Swype) однак і вони допускають помилки, в тому числі тому, що сильно покладаються на передбачення тексту, що набирається. Крім того, це не вирішує проблему сліпого набору - користувач як і раніше повинен дивитися на клавіатуру.


У Хван Кім (Ue-Hwan Kim) і його колеги з Корейського інституту передових технологій (KAIST) запропонували використовувати для сліпого друку на сенсорних поверхнях уявну невидиму клавіатуру, яка не обмежена фіксованим розташуванням клавіш. Інженери розробили алгоритм декодера, який за допомогою глибокого навчання і довгої короткострокової пам'яті, реалізованої керованими рекуррентними блоками, з послідовностей натискання розпізнає символи, що набираються людиною. Декодер пам'ятає як контекст певний обсяг попередніх даних, набраних користувачем, що покращує точність розпізнавання вводу.

Спочатку дослідникам потрібно було набрати початковий набір даних для тренування алгоритму, тому вони запросили 43 добровольців (11 жінок і 32 чоловіки віком від 22 до 32 років) для набору тексту на стенді, який складався з двох екранів - один використовувався для відображення тексту, а другий (сенсорний) виконував роль клавіатури, на ньому відображалися тільки дві кнопки: «Видалити» (щоб почати набирати фрагмент тексту заново) і «Продовжити» (щоб перейти до наступного фрагмента). Більше екран з тачскріном нічого не відображав, інженери запропонували добровольцям просто набирати текст, як на звичайній екранній клавіатурі. Після розминочних 20 речень учасникам дали для набору тексту 150-160 пропозицій (без рідко використовуваних символів, тільки латиниця, прогалини, крапка, апостроф і кома). У підсумку автори зібрали 7245 фраз, яким відповідали 196194 натискань на уявні клавіші. При цьому зібрані хмари точок в середньому дійсно відповідали стандартній QWERTY-розкладці, що підтвердило припущення авторів про те, що користувачі дійсно можуть наосліп набирати текст навіть без тактильного зворотного зв'язку.

Зібрані дані розділили на три частини: тренувальна, тестова і контрольна. Для тренування алгоритму використовувалися дані, отримані після набору тексту двома добровольцями, а в якості контролю - одним учасником. Інший масив даних використовувався для тренування алгоритму. Контрольний датасет був потрібен для запобігання перенавчання - коли точність розпізнавання декодера почала знижуватися, процес навчання припинили. Максимальна точність роботи декодера при цьому досягла 95,84 відсотка.

Для тестування методу автори набрали нову групу з 13 добровольців (8 жінок, 5 чоловіків), які впевнено володіють сліпим друком. Інженери проінструктували учасників друкувати якомога швидше і точніше, і давали їм для набору як звичну апаратну клавіатуру, так і невидиму клавіатуру на тачскріні (у випадковому порядку для кожного випробуваного). Для розігріву їм запропонували набрати 10 фраз, а потім дали для набору по 20 фраз з раніше зібраного великого датасета. У результаті для апаратної клавіатури швидкість набору становила 51,35 слів на хвилину, а для уявної клавіатури - 45,57 слів на хвилину. Крім того, в експерименті точність роботи декодера виявилася трохи вищою, ніж при перевірці на контрольному наборі даних, і склала 96,12 відсотка.

Після завершення експерименту користувачів також попросили суб'єктивно оцінити роботу на уявній клавіатурі. Учасникам експерименту сподобалося, що набір тексту не зажадав будь-якого переучування, також вони відзначили, що друкувати в будь-якому зручному положенні рук на панелі зручно. З недоліків добровольці вказали неможливість натиснути клавішу нігтем, а також ризик заплутатися в близько розташованих символах.

Автори окремо зазначають, що обмеження швидкості набору на невидимій клавіатурі може бути також обумовлено вибором занадто повільного тачскріна для експерименту - деякі добровольці поскаржилися на пропущені натискання. Дослідники вважають, що в майбутньому технологію можна буде поліпшити. Також автори впевнені, що їх розробка добре підійде для віртуальної реальності.


Для віртуальної реальності існують й інші рішення, в тому числі ті, що задіюють звичну апаратну клавіатуру. Наприклад, Logitech розробила систему інтеграції фізичної клавіатури у віртуальну реальність на базі шолома віртуальної реальності HTC Vive. Для цього на клавіатурі закріплюється спеціальний контролер, що дозволяє точно відстежувати положення клавіатури відносно шолома, а у віртуальній реальності відображається модель клавіатури і руки користувача.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND