Зламаний робот-пилосос підслухав розмови за допомогою лазера

Інженери з Сінгапуру і США розробили метод, що дозволяє розпізнавати звуки в кімнаті за допомогою робота-пилососа, не оснащеного мікрофоном. Замість нього вони скористалися лідаром, який часто встановлено в дорогих моделях, і навчилися реєструвати за допомогою лазерного променя вібрації на поверхні предметів, що утворюються через звуки від людини або колонки. Робота була представлена на конференції SenSys 2020.


Звук - це хвиля механічних коливань, які поширюються від їх джерела крізь повітря, тверді предмети або інше середовище і може переходити між середовищами: наприклад, звук з потужних колонок або сабвуфера може викликати помітну вібрацію на предметах у кімнаті. Вчені та інженери давно здогадалися, що цей процес можна «повернути назад» - за вібраціями предмета відновити звук, який їх викликав. У 2014 році інженери з Массачусетського технологічного інституту показали, як можна відновити звук за допомогою пакету від чіпсів і високошвидкісної камери, а влітку 2020 року ізраїльські інженери продемонстрували, що звук у будинку можна відновити на великій відстані, якщо навести телескоп з фотодіодом на працюючу лампочку.


Обидва ці методи і їх аналоги дозволяють досягти непоганої якості і підслуховувати мову, але вимагають досить дорогого обладнання і не годяться, якщо у зловмисника немає візуального контакту з кімнатою, звук з якої треба записати. Інженери під керівництвом Цзюна Ханя (Jun Han) з Національного університету Сінгапуру розробили метод, для реалізації якого годиться робот-пилосос, обладнаний лідаром - його можна придбати за кілька сотень доларів. Він складається з лазерного випромінювача і приймача, закріплених на обертовій платформі, і по суті працює як лазерний далекомір: надсилає промінь і по тому, як швидко він повернувся назад, визначає відстань до об'єктів у кімнаті, що дозволяє будувати точну карту.

У моделі, яку використовували розробники, лідар обертається з частотою п'ять герц і записує 360 значень за обіг. У такому вигляді він здатний реєструвати коливання в одній точці з частотою п'ять герц, що недостатньо для запису мови або інших звуків. Інженери трохи модифікували електричний ланцюг у блоці лідара так, що він може реєструвати відстань без обертання. Вони відзначають, що того ж ефекту можна домогтися модифікацією прошивки, але для простоти вони обійшлися апаратним рішенням. Воно дозволяє направити датчик на одну точку і записувати дані з частотою 1,8 кілогерця (п'ять обертань на секунду ^ 360 вимірювань за обіг), що вже набагато вище, хоча і все ще недостатньо для аналізу мови. Розробники скористалися програмним набором Dustcloud, що дозволяє отримувати права суперкористувача на роботах-пилососах Xiaomi, і з його допомогою записували з лідара «сирі» дані про інтенсивність.

Після отримання даних з лідара алгоритми проводять їх фільтрацію. Серед іншого, вони проводять інтерполяцію для порожніх фрагментів сигналу, що отримуються через те, що промінь не повернувся на датчик, пікову нормалізацію, фільтрують низькочастотний шум і підсилюють сигнал в області низьких частот, причому окремо для безлічі невеликих інтервалів частот. У результаті виходить файл, який складно зрозуміти людині, але при цьому в ньому достатньо даних, щоб надалі по ним можна було відновити деякі типи звуків.

Після попередньої обробки спектрограму сигналу подають на згорточну нейромережу, яка відносить сигнал до одного зі знайомих класів (вони залежать від того, на яких даних і для якого завдання навчали нейромережу). Автори показали практичну застосовність методу на декількох завданнях: визначення вимовлених цифр, статі балакучого і початкової музичної заставки телепередачі, а також розпізнавання особистості балакучого. Вони навчили алгоритм на відповідних датасетах інших розробників, наприклад, Free Spoken Digit, що складається із записів вимовлених цифр, і на власному датасеті з заставок телепередач, який вони зібрали із записів з YouTube.

Розробники встановили пилосос навпроти сміттєвого відра, яке виступало в якості «мішені» лазерного випромінювача, і включали звук гучністю 70 децибел на колонці, що стоїть в 20 сантиметрах від відра. В результаті вони отримали досить високу точність розпізнавання для такого методу: 96 відсотків для визначення статі, 91 відсоток для цифр, 90 відсотків для телепередач (10 можливих варіантів передач) і 67,5 для визначення особи (10 варіантів людей).

Автори запропонували два способи захисту від такої атаки. По-перше, вони пропонують встановлювати в пилососи такі лідари, які на апаратному рівні не можуть проводити вимірювання без обертання, що знизить частоту записуваного сигналу до всього декількох герц. По-друге, вони відзначають, що пилосос, який вони використовували, записує дані з лідара у вигляді пар відстань-якість сигналу, а якість у свою чергу безпосередньо корелює з інтенсивністю. Вони пропонують не використовувати на рівні системи дані, які дозволяють отримати інтенсивність сигналу.


Лазер можна використовувати і для протилежного завдання: створювати з його допомогою звук на великій відстані. Інженери вже продемонстрували цю можливість на практиці, нашіптавши звук на вухо людині і в мікрофон розумній колонці.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND