Нейромережа для рендерингу фотографій з нових ракурсів навчили видаляти шум і створювати HDR-знімки

Навчання 13 листопада 2023

Дослідники з Google Research запропонували новий підхід до нейросетевого ренденрингу об'ємних сцен на основі звичайних плоских фотографій. Вони показали, що використання «сирих» кадрів без предобработки дозволяє домогтися набагато більшого динамічного діапазону і знизити рівень шуму, завдяки чому це можна використовувати для придушення шуму і створення HDR-знімків, а не тільки створення знімків з нових ракурсів. Стаття опублікована на arXiv.org.

У 2020 році група американських дослідників, у складі якої був і керівник нової роботи Джонатан Беррон (Jonathan Barron), представила метод нейросетевого рендерінга NeRF, який показав відмінні результати і завоював популярність серед інших дослідників. На відміну від більшості нейросетевих алгоритмів, NeRF-модель навчається не на безлічі різних даних, щоб добре працювати в різних умовах, а на декількох десятках або сотнях фотографій однієї і тієї ж сцени або об'єкта, знятих з різних ракурсів. Завдяки цьому модель дуже добре запам'ятовує саме цю сцену і може генерувати її знімки з нових ракурсів, зберігаючи при цьому форму об'єктів, відображення, прозорість та інші властивості. При генерації нової фотографії модель отримує точку в просторі і кут спостереження, а у відповідь видає значення щільності і кольору простору вздовж кращого променя. Так формується один піксель, потім те ж саме повторюється для інших.

Раніше для навчання NeRF-моделей використовували звичайні фотографії, які вже пройшли предобработку в камері. Група дослідників з Google Research під керівництвом Беррона запропонувала використовувати для навчання NeRF-моделей «сирі» дані у форматі RAW. Такі фотографії мають більше шуму і на них ще не проведена дебаєризація, при якій алгоритм інтерполює кольори кожного пікселя (у фотоматрицах перед кожним фотодіодом стоїть фільтр одного з трьох основних кольорів, тому вони реєструють інтенсивність лише одного кольору). Однак у них містяться максимально достовірні, а не «усереднені» дані, до того ж, у більш широкому динамічному діапазоні.

По суті, дослідники використовували той же підхід, який вже застосовується в смартфонах для зйомки при поганому освітленні: камера робить кілька знімків з великим рівнем шуму, а потім створює з них один кадр, в який потрапляє корисна інформація з окремих зашумлених знімків. NeRF спочатку розроблена для формування єдиного уявлення сцени з безлічі окремих кадрів, тому дослідники припустили, що вона зуміє таким же чином вичленувати корисну інформацію із зашумлених фотографій, і виявилися праві.

Автори навчали моделі для різних сцен на сотні знімків з різних ракурсів, а потім порівняли їх з алгоритмами для придушення шуму на основі алгоритмів машинного навчання. Виявилося, що NeRF-моделі, навчені на одній сцені, показують порівнянний результат з алгоритмами, навченими на величезних датасетах. Крім того, автори показали, як моделі дозволяють керувати експозицією і створювати HDR-знімки, а також змінювати фокус.

Нещодавно ми розповідали про те, як NeRF навчили змінювати ракурс зйомки вже записаного звичайного відео.