«Комп'ютерна уява» навчилася створювати картинку за її описом

Дослідники з Токійського університету створили алгоритм для відновлення зображення за його «шматочним» описом. Таке завдання аналогічне збірці картинки-пазла: відомі типи «шматочків» і їх точна кількість, необхідно відновити вихідну картинку. За словами авторів, ця робота є важливим кроком для області «комп'ютерної уяви», з його допомогою планується створювати зображення тільки на основі їх текстового опису. Препринт з описом дослідження викладено на сайті arXiv.org.


Створена авторами програма заснована на представленні зображення у вигляді «мішка візуальних слів» (Bag-of-Visual-Words). Цей метод спочатку був створений для аналізу текстів, фактично, «мішок слів» являє собою набір пар «слово» - «число його появ у тексті». У випадку картинок все подібне, тільки замість «слів» використовуються невеликі усереднені фрагменти зображень.


З кожної картинки автори створювали свій «мішок», а потім намагалися відновити з нього оригінал, тобто розставити фрагменти в правильному порядку. Для цього вчені використовували два типи параметра «природності» (naturalness): локальну і глобальну.

Розташування вважалося локально «природним», якщо зображення на шматочках плавно переходили один в одного, не було явних нестиковок. Глобальна природність оцінювалася за базою даних відомих зображень. Вона визначала, наприклад, що фрагменти неба повинні розташовуватися у верхній частині картинки, а обличчя людини на портреті - ближче до центру.

Автори застосовували свій алгоритм для відновлення зображень різних жанрів. Вони оцінювали ступінь схожості отриманих «реконструкцій», а також визначали, яке оптимальне співвідношення має бути між глобальною і локальною природністю, оскільки часто ці параметри «в чистому вигляді» давали зовсім різні результати.

Виявилося, що серед аналогічних програм новий алгоритм видавав найкращі результати за ступенем схожості з оригіналом. На багатьох зображеннях легко можна вгадати зображений об'єкт, навіть не маючи під рукою опису або вихідного зображення.

Як експеримент вчені також спробували створити зображення «з нуля», ґрунтуючись тільки на текстовому описі. За словами авторів, хоч їм і вдалося отримати зображення, які віддалено нагадують опис, завдання виявилося занадто важким для їх алгоритму.

Проблема складання пазла добре відома в математиці, проте вперше вчені застосували її для відтворення картинки за її описом. Крім області комп'ютерної уяви автори планують використовувати алгоритм для оптимізації програм, що розпізнають зображення. Для їх роботи потрібно класифікувати картинки з набору ознак, але не завжди вдається встановити, які ознаки оптимально підходять для цього завдання. Реконструкція зображення за заданими ознаками і порівняння результату з оригіналом дозволить зрозуміти, які ознаки виявилися значущими, а які - ні.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND