Нейромережа представить світ у 3D без сторонньої допомоги

Програмісти з лабораторії DeepMind створили алгоритм, який може самостійно дослідити сцену і «додумувати», як предмети, що знаходяться в ній, будуть виглядати з незнайомого ракурсу. Ключова відмінність нової програми полягає в тому, що для навчання їй не потрібна додаткова інформація - нейромережа працює добре, навіть якщо розробники не повідомляють, що за об'єкти знаходяться в кімнаті або де вони розташовані. Стаття опублікована в журналі.


В основі сучасних систем машинного зору лежать глибокі нейронні мережі, яким, як правило, потрібен великий набір розмічених зображень для навчання. На створення таких наборів йде дуже багато часу, оскільки програмістам доводиться вручну описувати кожну деталь картинки. У результаті багато аспектів сцени виявляються опущеними, що обмежує можливості алгоритмів машинного зору. Щоб подолати це обмеження, розробники запропонували зробити підхід до навчання більш «людяним» - вони створили середовище, в якому агент самостійно спостерігає тривимірну сцену з декількох ракурсів, а потім робить її рендеринг з іншого, довільного кута огляду.


Автори нової роботи під керівництвом Алі Есламі (Ali Eslami) з Google DeepMind створили фреймворк Generative Query Network (GQN), в якому агент вчиться сприймати навколишній простір, навчаючись тільки на інформації, отриманій самостійно. GQN складається з двох елементів - репрезентативної мережі і генеративної мережі. Коли агент досліджує середовище, він отримує двомірні зображення сцени, які передаються репрезентативній мережі. Вона кодує інформацію, що міститься в ній, і представляє її у вигляді вектора. Кожне додаткове спостереження дозволяє накопичити більше даних про об'єкти, що знаходяться в сцені. Потім генеративна мережа на основі отриманої інформації пророкує, як виглядатиме сцена з нового, раніше не дослідженого ракурсу, і створює тривимірний рендер.

Оскільки репрезентативна мережа не знає, з яких саме ракурсів генеративному компоненту доведеться «представляти» сцену, вона максимально достовірно і точно описує - розташування предметів у кімнаті, їх колір, де знаходяться джерела освітлення і так далі. При цьому GQN сама вчиться розуміти, які деталі важливі, а також як витягти їх з набору пікселів. Під час тренування генеративна мережа дізнається про те, як виглядають об'єкти в сцені, як вони розташовані по відношенню один до одного і якими властивостями володіє приміщення. Крім того, вона вміє узагальнювати дані - наприклад, якщо в різних сценах їй зустрічається небо, то вона запам'ятає, що воно завжди блакитне. Цей набір «концептів» дозволяє алгоритму описати сцену в абстрактній манері, а генеративній мережі - додумати «необхідні» деталі.

Розробники провели кілька експериментів у віртуальному тривимірному світі, щоб перевірити роботу Generative Query Network. Як показали тести, GQN дуже реалістично відтворює сцену - вона створює досить якісні зображення без знання про закони перспективи, освітлення або окклюзії. Крім того, алгоритм вміє підраховувати кількість об'єктів і класифікувати їх, навіть якщо вони до кінця не видно. У підсумку передбачення програми виглядають дуже природно і майже невідличні від оригіналу.

Робота GQN поки що недосконала, оскільки алгоритм навчався тільки на штучно створених даних. У майбутньому розробники мають намір використовувати реальні сцени, а також зробити рендери більш якісними.

Нещодавно дослідники розробили алгоритм, що створює з двох знятих з близьких ракурсів кадрів нові знімки з інших ракурсів. На відміну від GQN, він не робить знімки з принципово іншого кута огляду, але зате працює з реальними зображеннями.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND