Нейромережа навчили шукати на відео людей, які цілуються

Розробник зі Стенфордського університету представив алгоритм, який автоматично визначає на відео людей, що цілуються. Система складається з двох частин: бінарного класифікатора, який виносить рішення про наявність поцілунку по секундному уривку відео, і сегментатора, який видає всі сцени поцілунків з необхідного відео. Препринт статті з описом роботи алгоритму опублікований на arXiv.


Одне з найпопулярніших і найважливіших завдань у галузі комп'ютерного зору - розпізнавання об'єктів. Завдання це, нехай і вже цілком вирішене, однак, не обмежується визначенням і подальшим називанням об'єктів на статичних зображеннях. Трохи складніше працювати з динамічними зображеннями (наприклад, відео): у цьому випадку число завдань, для яких використовуються алгоритми комп'ютерного зору, доповнюється, наприклад, розпізнаванням дій.


Розробник Амір Зіай (Amir Ziai) зі Стенфордського університету вирішив створити алгоритм, який вміє визначати на відео поцілунок. Система складається з двох частин: бінарного класифікатора і сегментатора. Перша система аналізує уривки довжиною в одну секунду по відео і аудіо: за першу частину відповідає згорточна нейромережа ResNet, яка використовується для розпізнавання і класифікації зображень, а за другу - згорточна нейромережа VGG, яка, крім іншого, використовується для аналізу акустичних характеристик. Друга частина алгоритму використовує дані про ймовірність наявності поцілунку на кожному секундному уривку відео і видає кожен з них таким чином, щоб уривки не повторювалися.

У підсумку робота такого алгоритму полягає в наступному. Система отримує на вхід відефрагмент, а на вихід видає окремі уривки різних сцен з поцілунками. Точність розпізнавання створеної системи становить 95 відсотків. Датасет для навчання і тестування зібрали з понад сотні голівудських фільмів: Зіай використав 263 сцени з поцілунками і 363 сцени без поцілунків тривалістю від 10 секунд до двох хвилин.

Як повідомляє портал IEEE Spectrum, зараз Зіай працює в Netflix, але сервіс не причетний до розробки дослідника. При цьому одне з ймовірних застосувань такої технології - якраз стрімінгові сервіси: наприклад, для озвучуючи відео для слабозорих людей.

Анотовані відеоролики використовуються і для інших завдань машинного навчання. Торік розробники з Массачусетського технологічного інституту на парах відео-анотація навчили семантичний парсер.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND