Нейромережі навчилися судити про книгу з обкладинки

Команда японських дослідників створила програму для розпізнавання жанру книги із зображення її обкладинки. Новий метод, заснований на чотиришаровій згорточній нейромережі, успішно передбачав, до якого з 20 жанрів у системі Amazon належить та чи інша книга в 40 відсотках випадків. Препринт дослідження викладено на .Вірточні нейромережі традиційно використовуються в завданнях аналізу зображень, оскільки вміють виявляти особливості різного масштабу - від форми мазка на картині знаменитого художника, до сюжету в цілому і наявності тих чи інших об'єктів на картинці. Такий функціонал дозволяє створювати на основі згорточних нейромереж системи рекомендацій в онлайн-магазинах, а також потенційно використовувати їх як автоматичних «сортувальників» товару. Вихідними матеріалами для авторів нової роботи послужила добірка з 137788 книжкових обкладинок, узятих з онлайн-магазину Amazon. Кожна книга характеризувалася одним з 20 жанрів, а якщо на сайті було зазначено відразу кілька категорій, вчені використовували тільки перший зі списку. У нейромережі було задіяно чотири шари: два згорточних і два пов'язаних (вони обробляли картинку без зменшення її розмірності). Мережу навчали на 80 відсотках вибірки, а дані, що залишилися, використовували для перевірки її працездатності.


Виявилося, що в 22 відсотках випадків нейромережа правильно визначала жанр книги, проте в «Топ-3» правильний результат потрапляв з 40-відсотковою ймовірністю. Таким чином, за словами авторів, їхня програма обробляла складні випадки, коли два жанри описувалися дуже схожими сюжетами обкладинок, наприклад, «Біографії та мемуари» і «Політика і соціальні науки». При цьому для таких жанрів як «Комп'ютери і технології» і «Подорожі» розпізнавання не становило великих проблем. Розробники проаналізували результати навчання і дійшли висновку, що нейромережі в цілому дуже добре помічали особливості тих чи інших жанрів, наприклад, їжу на обкладинці книг з категорії «Кулінарія». Однак якщо на обкладинці замість цього була фотографія шеф-кухаря, програма могла легко переплутати цю книгу з «Біографією» або «Політикою». Так само нейромережа плуталася і з одноколірними обкладинками без картинок, оскільки цей стиль найчастіше відповідав жанрам «Право» або «Релігія». У майбутньому дослідники планують поліпшити показники своєї програми за рахунок збільшення обсягу нейромережі, щоб розпізнавати більшу кількість особливостей. Крім того, автори планують додати аналіз тексту, наприклад, назв книг, щоб підвищити точність класифікації.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND