Нове налаштування для розпізнавання зображень AI дозволяє програмі думати по-новому

Штучний інтелект отримує кращу перспективу. Як людина, яка може читати чужий почерк, не вивчаючи безліч зразків рукописного тексту, AI-розпізнавання зображень наступного покоління може більш легко ідентифікувати знайомі погляди в нових ситуаціях.


Створені з нового типу віртуального будівельного блоку, званого капсулами, ці програми можуть скоротити величезний обсяг даних, необхідних для навчання поточного ШІ, що ідентифікує зображення. І це може підвищити такі технології, як машинні медичні діагнози, де, наприклад, зображення можуть бути мізерними, або чуйність самозайнятих автомобілів, де вид постійно змінюється. Дослідники з Google представить цю нову версію штучної нейронної мережі на конференції Neural Information Processing Systems в Лонг-Біч, шт. Каліфорнія, 5 грудня.


Нейронні мережі являють собою мережі окремих віртуальних нервових клітин або нейронів, які вчаться виділяти об'єкти на фотографіях, вивчаючи позначені приклади зображень. Ці мережі значною мірою класифікують зображення на основі того, чи містять вони певні функції. Наприклад, програма, підготовлена по серії пострілів голови, може зробити висновок, що особа має два очі, ніс і рот. Покажіть, що програма має обличчя в профілі з видимим тільки одним оком і, можливо, не розпізнає фотографію як обличчя, пояснює Роланд Мемешевич, комп'ютерний вчений з Монреальського університету, який не брав участі в роботі.

Щоб подолати це обмеження, дослідники можуть навчати нейронну мережу мільйонам фотографій з різних точок зору, і програма запам'ятовує всі різні способи, якими може виглядати обличчя. У порівнянні з людським мозком, якому не потрібно близько мільйона прикладів, щоб дізнатися, як виглядає обличчя, ця система дико неефективна. "Це катастрофа, - каже Мемешевич. «Капсули намагаються це виправити».

Замість мереж окремих штучних нейронів ці нові програми мають мережі кластерів нейронів, званих капсулами. Ці групи нейронів можуть надати більше інформації, ніж один нейрон. Кожна капсула призначена для відстеження не тільки того, чи є певна функція в зображенні, але і властивості цієї функції - наприклад, розмір, орієнтація і положення носа. Це просторове усвідомлення допомагає програмі краще розпізнавати об'єкти в раніше невидимих сценаріях.

Капсула-що містить мережу, підготовлена на знімках голови, могла бачити обличчя в профілі і виводити - на основі видимості видимого ока, носа і рота - те, що інше око просто затінене, а на зображенні зображено обличчя. Оскільки мережі капсул краще застосовують те, що вони знають до нових ситуацій, ці нейронні мережі потребують менших навчальних даних для досягнення тієї ж продуктивності, що і їхні попередники, каже Сара Сабур, комп'ютерний вчений з Google Brain в Торонто.

Сабур і її колеги навчили одну капсульну мережу на зображеннях рукописних номерів і протестували її на фотографіях, де кожен номер був злегка спотворений. Мережа капсул розпізнала спотворені зображення з 79-відсотковою точністю; типова нейронна мережа, що навчається на одній і тій же кількості даних, отримала лише 66 відсотків.

В іншому експерименті Sabour і його колеги навчили аналогічну мережу капсул на десятках тисяч фотографій іграшок, а потім попросили її розпізнати іграшки з нових точок зору. У цьому завданні, про яке повідомлялося в документі, представленому на Міжнародній конференції з вивчення образів у Ванкувері в 2018 році, мережа була неправильною тільки в 1,4 відсотка випадків. Звичайна нейронна мережа робила майже вдвічі більше помилок.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND