Тривимірна згорточна нейромережа розпізнала рухи тварин з великою точністю

Група вчених з США представила нейросетевий алгоритм, що дозволяє по відео з тваринами відновлювати їх тривимірну позу з високою точністю. На відміну від більшості сучасних підходів, цей метод не вимагає прикріплення маркерів до тварин, а значить він буде зручний для спостережень за тваринами не тільки в лабораторіях, але і в природному середовищі. Результати дослідження були опубліковані в.


Вивчення руху тварин займає центральне місце в етології, нейробіології, психології та екології. Однак досі не існує універсального методу, відтворюваного в лабораторіях і стійкого в природному середовищі проживання, який би не використовував прикріплення маркерів до тварин.


Вивчення рухів тварин раніше вже автоматизували за допомогою почесних методів - наприклад, нейромережі допомагали відстежувати почесні координати частин тіла. Хоча ці 2D-прогнози і можуть бути триангульовані в 3D з використанням декількох незалежних зображень, такий підхід неефективний для вивчення вільно рухомих звірів. Відбувається це тому, що сама нейромережа не знає нічого про тривимірну позу і не може об'єднувати інформацію з різних зображень. Якщо з одного з ракурсів частина тіла буде перекрита стороннім предметом, положення анатомічних орієнтирів визначиться неточно. Використання почесних методів має ще один недолік: нічого не гарантує хороший результат для будь-яких поз тварин і кутів огляду камери.

Для боротьби з таким і проблемами придумали оптимізаційні схеми, які використовуються для уточнення або відкидання неточно визначених координат. Але вони поки не здатні надійно відстежувати вільно рухомих тварин, за винятком випадків навчання з великою кількістю кадрів.

Для вивчення руху тварин група під керівництвом Тімоті Данна (Timothy Dunn) з Дьюкського університету і Джессі Маршалла (Jesse Marshall) з Гарвардського університету розробила згорточну нейромережу DANNCE. Ключовим нововведенням DANNCE в порівнянні з попередніми алгоритмами є те, що мережа повністю тривимірна, так що вона може дізнаватися про особливості 3D-зображення і про те, як камери і орієнтири пов'язані один з одним в просторі. Щоб навчити нейромережу, вчені зібрали датасет з семи мільйонів кадрів синхронізованого відео і міток з анатомічними орієнтирами гризунів з декількох ракурсів. Навчена нейромережа передбачала положення орієнтирів тварин, використовуючи тільки відео.

Роботу DANNCE можна описати наступним чином. У кожний момент відеозаписи за допомогою триангуляції зображень визначається розташування щура в просторі. Цей просторовий стан відповідає порожній 3D-сітці. Далі на кожне із зображень проектується один воксель. Пікселі з областей зображення, на яких є гризун, трансформуються у воксель. Потім нейромережа обробляє дані з усіх вокселів і видає передбачувані положення анатомічних орієнтирів тварини на вихідній 3D-сітці.

Дослідники порівняли роботу DANNCE з DeepLabCut (DLC) - сучасним алгоритмом на основі почесних згорточних нейромереж. Для цього обидва методи навчили на одному і тому ж наборі відеокадрів і поз (180 456 унікальних кадрів, 3609 120 маркерів) і протестували їх на нових зображеннях об'єкта, який не брав участі в навчанні. Тестова вибірка складалася з 2400 кадрів, які були розділені на 12 груп залежно від поведінки гризуна. З'ясувалося, що DANNCE перевершує DLC навіть у тих випадках, коли перший алгоритм отримує зображення з трьох камер, а другий - з шести: у цьому випадку невизначеність координат, передбачених DANNCE, була більш ніж у 10 разів меншою. До того ж, якщо зменшувати число камер, DLC ставало важче стежити за великим числом орієнтирів, в той час як DANNCE все так само добре справлялася із завданням. Крім того, DANNCE навчилася відстежувати положення мишей, мавп і синиць, коли в навчальну вибірку додали невелику кількість вручну розмічених даних.

Успішне застосування нейромереж у роботі із зображеннями і відео не обмежується цією роботою. Раніше ми розповідали, як нейромережа перетворила растове зображення на безперервне.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND