Розумна колонка підслухала набір тексту на смартфоні

Британські дослідники показали, що мікрофони розумної колонки здатні підслухати текст, що вводиться на смартфоні, за звуком натискань пальців на екранну клавіатуру. Точність атаки невисока - при підборі п'ятизначного пін-коду за десять спроб шанс вгадати його становить 15 відсотків. Як захист від такої атаки автори запропонували розробником операційних систем або віртуальних клавіатур відтворювати зайві звуки під час набору тексту. Стаття опублікована на arXiv.org.


Розумні колонки викликають великі побоювання у дослідників в області інформаційної безпеки з моменту появи такого класу пристроїв в 2014 році, коли Amazon випустила першу колонку Echo. Абсолютна більшість досліджень сконцентрована навколо самих колонок: вони оснащені постійно слухаючим мікрофоном, який може переслати на сервери компанії (а при зломі - на сервери зловмисника) конфіденційні дані. Також голосовим помічникам, як правило, доступні інші пристрої та особиста інформація, тому в деяких роботах дослідники створювали методи потайного управління колонкою, наприклад, за допомогою ультразвуку.


Дослідники з Кембриджського університету під керівництвом Росса Андерсона (Ross Anderson) показали, що розумну колонку можна використовувати як проміжну ланку при атаці на смартфон. Вони виходили з результатів свого попереднього дослідження, яке показало, що текст, який вводиться на смартфоні, можна розпізнавати за звуками, що виникають у пристрої, коли палець натискає на клавіші, оскільки натискання в різні місця викликає різні звуки. У новій роботі автори, по суті, дистанціювали атаку і «відв'язували» її від пристрою, з якого потрібно вкрасти дані.

У запропонованого ними методу є кілька важливих попередніх умов: у зловмисника повинен бути доступ до мікрофонів колонки або записами з неї, а також копія смартфона або планшета, з якого він намагається добути текст або пароль. Другий пункт необхідний через те, що звуки, що виникають при наборі тексту, специфічні для кожної моделі смартфона, і більше того, на них впливають навіть чохол або плівка на екрані.

Дослідники імітували розумну колонку за допомогою чіпа ReSpeaker з шістьма мікрофонами, призначеного якраз для складання розумних колонок, і мікрокомп'ютера Raspberry Pi. За кілька десятків сантиметрів від мікрофонів розташовувалися смартфони або планшети. Автори записували звук як шестимікрофонної плати, так і з самого смартфона - вони не враховували записи з пристрою під час розпізнавання, тільки для аналізу.

Розпізнавання набраних символів працює у два етапи. Спочатку алгоритми аналізують звук і розпізнають у ньому натискання, а потім ці натискання відносяться до того чи іншого символу. Запис на смартфоні дозволив дослідникам частково автоматизувати збір і розмітку даних, оскільки результати розмітки даних зі смартфона можна вважати справжніми через більше ставлення сигналу до шуму. Автори зібрали датасет із записів з асоційованими часовими мітками і символами, що дозволило навчити алгоритми.

Дослідники створили дві моделі для розпізнавання натискань і символів, що працюють на основі згорточної нейромережі або лінійного дискримінантного аналізу. Вони провели тести на трьох типах даних: п'ятизначних пін-кодах, що складаються з цифр, окремих літерах і англійських словах. Точність залежала від моделі смартфона і алгоритму, як типові значення автори наводять 15 відсотків після 10 спроб для пін-коду і 50 відсотків для слів.

Один з недоліків цього методу полягає в складності доступу до запису звуку з розумної колонки, і в якості одного з рішень автори запропонували використовувати функцію дзвінка, доступну в деяких колонках. Потенційно команду на дзвінок можна дати за допомогою іншої атаки, розробленої минулого року інженерами з Японії та США. Вони навчилися давати голосові команди за допомогою лазерного променя, направляючи його в мікрофон і змінюючи інтенсивність випромінювання так, щоб діафрагма мікрофона перетворювала світло в звук.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND