Disney навчила алгоритм читати сценарій і «знімати» за ним відео

Дослідники з Disney Research розробили алгоритм, здатний створювати короткі анімаційні ролики на основі сценарію, написаного природною мовою. Під час роботи алгоритм спрощує вихідні пропозиції, а потім зіставляє кожен об'єкт або дію з аналогами, наявними в його бібліотеці, і створює на їх основі 3D-анімацію, розповідають автори статті, опублікованої на arXiv.org.


Вчені почали вирішувати проблему синтезу зображень або відеозаписів на основі текстового опису досить давно, проте поки ця технологія знаходиться на початковому етапі розвитку і її реалізації володіють безліччю недоліків. Цю проблему можна розбити на дві основні частини: обробка природної мови, що дозволяє комп'ютеру розуміти сенс сказаного людиною, а також створення кадрів. При обробці мовленнєвої послідовності від людини комп'ютер намагається зрозуміти структуру пропозицій, а також співвідношення між словами в ньому, а потім на основі цих знань виконати наступне завдання. У даному випадку таким завданням є синтез реалістичного зображення або відеоролика, в якому об'єкти діють відповідно до вихідного сценарію.


Алгоритми, що створюють ролики на основі текстового опису, вже існують. Однак вони мають кілька недоліків, головний з яких полягає в тому, що їм потрібен не звичайний текст природною мовою (наприклад, сценарій фільму), а максимально прості, хоча і граматично коректні, пропозиції. Ашутош Моді (Ashutosh Modi) і його колеги з DIsney Research розробили алгоритм, здатний працювати з реальними сценаріями фільмів і вистав. Зазвичай сценарії мають чітку структуру, в якій можна виділити опис сцени з діями персонажів, діалоги, технічну інформацію для операторів та інші елементи. У своїй роботі дослідники сконцентрувалися тільки на основному елементі, в якому відбувається загальний опис сцени і перераховуються дії дійових осіб.

Створену розробниками програму можна розділити на декілька додатків, що виконують певну функцію. Спочатку початковий текст сценарію отримує додаток, відповідальний за попередню обробку. Він розпізнає елементи сценарію, наприклад, опис сцени, і створює пари типу «абзац тексту - назва елемента». Потім ці дані передаються модулю обробки мови. Спочатку він спрощує пропозиції, по можливості розбиваючи кожне з них на два або більше, які описує по одній дії. Це відбувається завдяки набору правил, за якими алгоритм розпізнає типи слів і їх співвідношення між собою.

Крім того, модуль спрощує пропозиції не тільки структурно, але і лексично, замінюючи слова на синоніми. Це необхідно для того, щоб на останньому етапі алгоритм зміг підібрати для кожного слова в сценарії відповідну 3D-модель або анімацію з бібліотеки, зібраної авторами. Після отримання спрощеного сценарію алгоритм розмічає технічні дані, такі час початку дії, емоції діючих персонажів та інші, і віддає ці дані модулю, що створює підсумкову 3D-анімацію на основі цих даних.

Розробники перевірили ефективність алгоритму за допомогою BLEU-методу. Під час оцінки три людини проводили таке ж перетворення сценаріїв, як і алгоритм, а потім дослідники вимірювали відмінності в перетвореннях, виконаних людьми і алгоритмом. З'ясувалося, що якість перетворення (близькість до перетворення, зробленого людиною) досить сильно варіюються залежно від типу слова в реченні, наприклад, найближче до людини алгоритм описував манери, з якими робляться ті чи інші дії. Порівняння з іншими алгоритмами обробки природної мови показало, що новий алгоритм дає більш близький до людського результат.

Нарешті, автори провели оцінку на добровольцях, яких просили оцінити якість роботи алгоритму. У загальному випадку при оцінці за п'ятибальною шкалою від «Повністю незгоден» до «Повністю згоден» 45,23 відсотка добровольців погодилися з твердженням, що алгоритм коректно візуалізує текст. Крім того, майже 60 відсотків добровольців погодилися з тим, що алгоритм не додає до візуалізації дії, не згадані в сценарії.

Торік американські розробники навчили нейросетевий алгоритм створювати за текстовим описом ролики з персонажами мультсеріалу «Флінтстоуни». Після обробки тексту нейромережа шукає схожі кадри з реального мультфільму і допрацьовує їх відповідним чином.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND