Дизайнери зібрали датасет з 100 тисяч згенерованих нейромережею осіб

Розробники SaaS-сервісу Icons8 представили Generated Photos - відкритий датасет з 100 тисяч зображень осіб неіснуючих людей, згенерованих нейромережею. Для навчання алгоритму вони використовували 29 тисяч знімків спеціально найнятих моделей. Передбачається, що фотографії будуть використовуватися для рекламних кампаній і презентацій, повідомляється в блозі компанії.


Перший успішний прототип системи, яка генерує реалістичні зображення осіб неіснуючих людей представила компанія NVIDIA восени 2017 року. В основі такої системи лежать генеративно-змагальні нейромережі, а особливість його полягала в поступовому нарощуванні якості зображень, що в підсумку призводило до високої деталізації та натуральності отриманих на зображеннях осіб.


Відтоді технології створення осіб неіснуючих людей поліпшувалися і стали масово використовуватися розробниками: Філіп Ванг з компанії Uber, наприклад, цієї зими запустив досить відомий сайт thispersondoesnotexist, який при оновленні генерує нове зображення.

Якісна робота таких алгоритмів забезпечується величезним масивом даних у навчальній вибірці, для чого автоматично збираються зображення осіб людей. Проблема такого методу полягає в тому, що фотографії можуть бути захищені авторськими правами або просто небажанням людей брати участь у навчанні алгоритму. Крім того, фотографії, на який алгоритми навчаються, найчастіше зроблені з різних ракурсів і з різним рівнем освітлення, що може знизити якість готового знімка.

Ці проблеми розробники з Icons8 вирішили, найнявши 69 моделей: алгоритм (компанія не повідомляє, яку нейросетеву модель вони обрали для навчання) навчений на 29 тисячах їхніх фотографій. У підсумку розробникам вдалося зібрати датасет з 100 тисяч якісних зображень осіб неіснуючих людей.

Generated Photos знаходиться у відкритому доступі: автори проекту передбачають, що його застосовуватимуть у рекламі, копірайтингу та інших сферах, де необхідна візуальна інформація. Не виключено, що стороннім розробникам він допоможе в навчанні алгоритмів, для яких необхідні масштабні датасети з людськими особами. Завантажити датасет можна на офіційному сайті проекту.

Наймати моделей для створення датасетів - практика не така поширена, але досить ефективна: розробники можуть отримати «чисті» дані з потрібно розставленим світлом і ракурсом і необхідною деталізацією. Цим нещодавно скористалася компанія Facebook: вони створили датасет з відео з накладеними на акторів особами моделей, який буде використовуватися для розробки методів боротьби з дипфейками.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND