Майже мільйон знімків натуралістів-любителів допоможе комп'ютеру впізнати тисячі видів

Американські розробники представили iNat2017 - датасет для розпізнавання окремих видів тварин і рослин, що складаються з 859 тисяч фотографій, зроблених любителями за допомогою програми iNaturalist. Навчена за допомогою такого датасета нейромережа вміє розпізнавати як окремі види, так і більш високі ієрархічні ранги. Точність розпізнавання окремих видів, як повідомляється в статті, опублікованій на сайті IEEE Explore, поки що не перевищує 67 відсотків.


Сучасні комп'ютерні алгоритми досить просунуті в області розпізнавання зображень та ідентифікації окремих об'єктів на них: наприклад, навесні минулого року з'явився додаток, які вміє розпізнавати твори мистецтва. Якість роботи подібних систем безпосередньо залежить від різноманітності і величини навчальної та тестової вибірки: наприклад, система розпізнавання осіб у місцях загального користування зможе впізнавати тільки тих людей, зображення яких вона вже бачила.


Розробка програми, яка дозволила б розпізнавати всі біологічні об'єкти, тому, - завдання непросте, але дуже корисне. Розробники з Каліфорнійського технічного інституту, Google і Технологічного коледжу Корнеллського університету під керівництвом Гранта ван Хорна (Grant Van Horn) скористалися допомогою натуралістів-аматорів - користувачів додатку iNaturalist, який дозволяє робити фотографії різних живих організмів і розповідати про них. Для кожної фотографії в додатку є текстовий опис з назвою виду та інших рангів ієрархічної класифікації (клас, надклас тощо). Для того, щоб підвищити якість розпізнавання, вчені включили тільки ті види, фотографій яких було як мінімум 20. Разом датасет складається з 859 тисяч зображень понад 5 тисяч видів тварин і рослин. Кожен об'єкт на зображеннях був вручну позначений рамкою.

Частину датасета використовували для навчання відомих алгоритмів глибокого навчання, що використовуються для розпізнавання об'єктів: зокрема, наприклад, ResNet, одна з архітектур якої нещодавно навчила комп'ютер передбачати поведінку собаки. Друга частина датасета була використана як тестова вибірка. Залежно від обраного алгоритму та надкласу особини точність розпізнавання сягала 92 відсотків; середня точність розпізнавання, однак, не перевищувала 60 відсотків, а для розпізнавання окремих видів точність не перевищувала 67 відсотків.

Автори датасета зазначають, що низька точність розпізнавання з використанням iNat2017 - це його особливість. Всі знімки зібрані любителями: вони не тільки достатньо низької якості, але і зроблені на різному тлі і з різним освітленням. Використання такого датасета для навчання систем автоматичного розпізнавання особин надалі допоможе ідентифікувати їх у схожих умовах -.

Нещодавно дослідники з Каліфорнійського інституту в Берклі представили DeepDrive - найбільший на сьогоднішній день датасет із зображеннями для навчання безпілотних автомобілів. Дані зібрали з 100 тисяч відео, знятих автомобілями.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND