Комп'ютер навчили відтворювати зображення з мозкової активності

Японські дослідники створили нейромережу, яка вміє реконструювати зображення предметів на основі даних про мозкову активність людей, які на них дивляться. Така нейромережа успішно реконструює літери, геометричні фігури і навіть зображення тварин і предметів, повідомляється в препринті, опублікованому на bceRxiv.


Можливість «читання» людських думок приваблює вчених досить давно, а єдиний реальний спосіб її досягнення - розшифровка набоїв активності головного мозку. Використання для цієї мети даних функціональної магнітно-резонансної томографії (фМРТ) є найбільш ефективним: такий метод дозволяє візуалізувати мозкову активність з найбільшою просторовою роздільною здатністю, тобто локалізувати її з максимальною точністю. Наприклад, ще в 2016 році вченим вдалося відтворити зображення обличчя зі спогадів людини, реконструювавши його завдяки суміщенню активності, пов'язаної з певними рисами.


Всі існуючі підходи, однак, мають ряд обмежень: наприклад, реконструююча нейромережа може бути обмежена навчальною вибіркою, тобто відтворювати тільки окремий ряд зображень, про особливості яких їй відомо. Крім того, отримані зображення дуже часто нагадують вихідні тільки частково. Розробники з Кіотського університету під керівництвом Юкіасу Камітані (Yukiyasu Kamitani) представили новий алгоритм такої реконструкції - нейромережу, що працює завдяки методам глибокого навчання.

Така нейромережа працює за допомогою декодера набоїв зображення в мозковій активності. Вона була навчена на парах «зображення-активність», отриманих в ході експерименту, учасників якого просили розглянути 1200 зображень (кожне зображення було переглянуто кожним з трьох учасників по п'ять разів). Алгоритм реконструкції, таким чином, працює завдяки попіксельній зміні випадкового зображення таким чином, щоб елементи початкового зображення збігалися з його ж елементами, витягнутими з мозкової активності.

Крім цього, розробники також ввели в систему додаткову нейромережу (DGN або deep generative network - глибока генеративна нейромережа), яка дозволяє зробити властивості отриманого з мозкової активності зображення максимально схожими на властивості початкового зображення (наприклад, колір предмета).

У результаті нейромережа змогла відтворити зображення геометричних фігур, букв і навіть цілих предметів. Незважаючи на те, що зображення предметів вийшли абстрактними, робота нейромережі, за оцінками системи попіксельної кореляції вихідного і отриманого зображень, виявилася на 79,7 відсотка ефективною без додаткової DGN і на 76,1 - з її використанням. Людська оцінка виявилася ще вищою: люди правильно вгадували відтворені зображення (а точніше - визначали пари вихідного і отриманого зображення) в 99,1 відсотку випадків з DGN і в 96,5 - без неї (що означає, що застосування додаткової нейромережі має сенс для поліпшення сприйняття людьми).

Незважаючи на те, що ефективність нової нейромережі виявилася досить високою, робота над її поліпшенням повинна тривати далі: візуально кращі результати вона показала при реконструюванні простих форм і цифр, але не реальних об'єктів.

Минулого року вчені вперше вивчили мозкову активність людини при спостереженні за тривимірними образами: для цього учасників фМРТ-експерименту клали в сканер у 3D-окулярах.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND