Нейромережа навчили малювати складні сцени за текстовим описом

Розробники з Microsoft представили нову архітектуру генеративно-змагальної нейромережі, яка вміє малювати зображення на основі текстового опису якісніше алгоритмів, представлених раніше. Препринт статті з описом роботи алгоритму опублікований на сайті компанії, а також розробники представлять доповідь на конференції CVPR 2019, яка зараз проходить в Каліфорнії.


Саме по собі завдання створення зображень на основі текстового опису (text-to-image) вже не нове: зараз для цього успішно використовуються генеративно-змагальні нейромережі. Наприклад, на початку минулого року алгоритм, заснований на роботі уважної генеративно-змагальної мережі (attentional GAN, або AttGAN), представила команда розробників з Microsoft. Незважаючи на свою ефективність, такі алгоритми вміють відтворювати тільки базові приклади (інший приклад - алгоритм, який вміє за описом малювати портрети), а ось зі складними сценами з безліччю різних об'єктів справляються поки що погано.


Виправити цей недолік вирішила інша група розробників з Microsoft під керівництвом Веньбо Лі (Wenbo Li). Для цього вони розробили і навчили новий алгоритм, заснований на роботі генеративно-змагальної нейромережі. Робота об'єктно-орієнтованої генеративно-змагальної нейромережі (скорочено ObjGAN) дуже схожа на раніше представлену AttGAN, основна перевага якої полягає в тому, що при створенні зображень на основі тексту вона орієнтується на об'єкти. Але в ObjGAN частині, яка генерує зображення, передує система на основі нейромережі з довгою короткостроковою пам'яттю. Шари в ній аналізують потрібний текст і виділяють з нього об'єкти, які необхідно розташувати на підсумковому зображенні, після чого створюється форма підсумкового зображення. У підсумку та частина алгоритму, яка заснована на генеративно-змагальній нейромережі, домальовує зображення на основі цієї форми.

Для навчання алгоритму розробники використовували класичний датасет COCO, що складається з 328 тисяч зображень з текстовими описами. У підсумку, судячи з прикладів, робота ObjGAN у вирішенні завдання генерації зображень на основі тексту багато в чому перевершує раніше представлені алгоритми і якісно справляється з пропозиціями з великою кількістю описуваних об'єктів і деталей.

За допомогою іншої архітектури генеративно-змагальної мережі (так званої «кругової») нещодавно також вдалося навчитися достовірно переносити інформацію між відео. Прочитати про її роботу ви можете тут.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND