Нейромережа створила фотографію страви за його рецептом

Ізраїльські розробники створили нейромережу, здатну формувати зображення на основі довгого текстового опису об'єкта, яке не містить чітких даних про його візуальні ознаки. Як приклад вони навчили її створювати фотографії страви за його рецептом. Присвячена розробці стаття доступна на arXiv.org.


Дослідники застосовують нейромережеві алгоритми для різних завдань, пов'язаних із зображенням. Зазвичай, це завдання з класифікації зображень або їх обробки, але також є досить великий клас завдань, пов'язаний зі створенням зображення з нуля, в тому числі на основі текстового опису. Під час навчання такого алгоритму він вчиться пов'язувати слова з відповідними візуальними ознаками. Зазвичай при навчанні нейромережа отримує чіткий опис візуальних ознак, наприклад, «помаранчевий апельсин на білій тарілці». Однак у реальності багато текстів описують об'єкти не настільки чітко. Наприклад, у кулінарних рецептах немає опису підсумкової страви, а є лише список вихідних інгредієнтів і етапи готування.


Нетанел Йозефіан (Netanel Yosephian) і його колеги з Тель-Авівського університету розробили нейромережу, здатну створювати зображення об'єкта, навіть якщо його опис не містить чітких даних про його візуальні ознаки. Автори зазначають, що обраний ними підхід заснований на роботі інших дослідників, які створили датасет з 800 тисяч пар рецептів і фотографій страв, а також навчили нейромережу складати рецепт за фотографією.

Створений ізраїльськими розробниками алгоритм працює з повноцінними рецептами, що містять список інгредієнтів і опис етапів приготування, що займають десятки рядків. Спочатку алгоритм приймає окремо рецепт та інгредієнти, і переводить їх в окремі вектори. Після цього вектора піддаються процедурі спільного вкладення, при якій вони формують єдиний вектор, який умовна генеративно-змагальна нейромережа StackGAN-v2 перетворює на зображення страви.

Розробники навчили нейромережу на 52 тисячах пар рецептів і фотографій з датасета Recipe1M і перевірили роботу алгоритму ще на 24 тисячах пар. Для перевірки його роботи автори вибрали дві метрики - кількісну і якісну. У першому випадку вони використовували описану в 2016 році методику, що дозволяє оцінити роботу генеративно-змагальної мережі. Під час перевірки створені нейромережею зображення віддаються алгоритму для розпізнавання зображень і він відносить об'єкт на зображенні до знайомих йому класів з присвоєною їм часткою ймовірності. Чим менше ентропія розподілу ймовірності за класами - тим більш якісною визнається робота нейромережі. При такій перевірці нейромережа набрала 4,55 0,20 бали за п'ятибальною шкалою. Крім того, роботу нейромережі попросили оцінити людей. При перевірці на те, наскільки результат роботи нейромережі схожий на реальні фотографії їжі, нейромережа отримала 3,72 бала.

Нейромережі використовують і для вирішення інших кулінарних завдань. Наприклад, у 2017 році дослідники навчили адаптувати рецепти під особливості певної національної кухні. Наприклад, система може перетворити класичну лазанню на суші-лазанню, а також визначити, до кухні якої країни належала оригінальна страва.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND