Нейромережа навчили малювати складні сцени за текстовим описом

Навчання 13 листопада 2023

Розробники з Microsoft представили нову архітектуру генеративно-змагальної нейромережі, яка вміє малювати зображення на основі текстового опису якісніше алгоритмів, представлених раніше. Препринт статті з описом роботи алгоритму опублікований на сайті компанії, а також розробники представлять доповідь на конференції CVPR 2019, яка зараз проходить в Каліфорнії.

Саме по собі завдання створення зображень на основі текстового опису (text-to-image) вже не нове: зараз для цього успішно використовуються генеративно-змагальні нейромережі. Наприклад, на початку минулого року алгоритм, заснований на роботі уважної генеративно-змагальної мережі (attentional GAN, або AttGAN), представила команда розробників з Microsoft. Незважаючи на свою ефективність, такі алгоритми вміють відтворювати тільки базові приклади (інший приклад - алгоритм, який вміє за описом малювати портрети), а ось зі складними сценами з безліччю різних об'єктів справляються поки що погано.

Виправити цей недолік вирішила інша група розробників з Microsoft під керівництвом Веньбо Лі (Wenbo Li). Для цього вони розробили і навчили новий алгоритм, заснований на роботі генеративно-змагальної нейромережі. Робота об'єктно-орієнтованої генеративно-змагальної нейромережі (скорочено ObjGAN) дуже схожа на раніше представлену AttGAN, основна перевага якої полягає в тому, що при створенні зображень на основі тексту вона орієнтується на об'єкти. Але в ObjGAN частині, яка генерує зображення, передує система на основі нейромережі з довгою короткостроковою пам'яттю. Шари в ній аналізують потрібний текст і виділяють з нього об'єкти, які необхідно розташувати на підсумковому зображенні, після чого створюється форма підсумкового зображення. У підсумку та частина алгоритму, яка заснована на генеративно-змагальній нейромережі, домальовує зображення на основі цієї форми.

Для навчання алгоритму розробники використовували класичний датасет COCO, що складається з 328 тисяч зображень з текстовими описами. У підсумку, судячи з прикладів, робота ObjGAN у вирішенні завдання генерації зображень на основі тексту багато в чому перевершує раніше представлені алгоритми і якісно справляється з пропозиціями з великою кількістю описуваних об'єктів і деталей.

За допомогою іншої архітектури генеративно-змагальної мережі (так званої «кругової») нещодавно також вдалося навчитися достовірно переносити інформацію між відео. Прочитати про її роботу ви можете тут.

Нейромережа навчили малювати складні сцени за текстовим описом

Як оцінити бюджет на ремонт: будівельний калькулятор від NsdGroup

Умная экономия: эффективное использование кондиционера LG осенью и зимой

Секрети успішної риболовлі: поради та обладнання від експертів «FisherGo»

Здоровий город: правильний догляд за рослинами від А до Я

Повернення легенди: Nike Lunar Gato II — твої ідеальні футзалки вже на 4football.com.ua!

Котлы Холмова их особенность