Нейромережа підібрала звуки для беззвучного відео

Американські розробники створили алгоритм, який самостійно підбирає звуки до відео, наприклад, звук велосипеда, якщо він рухається в кадрі. Вона також змінює параметри звуку залежно від того, що відбувається в ролику. Препринт статті опубліковано на сайті авторів.


У більшості випадків камери знімають відео відразу зі звуком з внутрішнього або зовнішнього мікрофона. Але є випадки або навіть окремі види зйомок, в яких відео позбавлене звуку. Наприклад, це стосується дронів: вони, як правило, взагалі позбавлені мікрофона, а в разі, якщо він все ж є, звук з нього в основному буде містити шум моторів і гвинтів. Через це монтажерам, які хочуть не просто накласти музику, а передати реальні звуки сцени, доводиться ретельно підбирати схожі звуки з бібліотеки і стежити за тим, як вони співвідносяться з поведінкою об'єктів у кадрі.


Розробники з Університету Карнегі - Меллона і компанії Runway під керівництвом Ніколаса Мартеларо (Nikolas Martelaro) створили алгоритм, який робить цю роботу за людину. Спочатку алгоритм виявляє у кадрі джерела звуку. Вони можуть бути двох типів: конкретні об'єкти і місця з характерним фоновим звуком, наприклад, кафе. Попередньо відео розбивається на сцени з різкої зміни гістограми між двома кадрами. Потім нейромережа CLIP класифікує об'єкти в ній, використовуючи як класи базу ефектів Epidemic Sound, що містить 90 тисяч звуків. У підсумку для кожної сцени наводиться по п'ять найімовірніших ефектів для об'єктів і оточення. За замовчуванням система вибирає по одному з них, але користувач може включити додаткові.

Після підбору звукових ефектів алгоритм створює для них часові інтервали, тому що об'єкт може бути присутнім не протягом всієї сцени, а лише на її частині. Потім кожна сцена розбивається на фрагменти довжиною в секунду, алгоритм визначає розташування джерел звуку і підбирає під нього відповідні параметри стереозвучування і гучності, щоб об'єкти, що рухаються, звучали реалістично.

Раніше ми розповідали про алгоритми, які можуть озвучити відео на основі акустичних властивостей предметів у ньому або додати звук на «німе» відео з грою на фортепіано.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND