Колективне навчання відкрило роботам двері

Дослідники з Лабораторії X (раніше відома як Google X) розробили і протестували систему, яка дозволяє роботам прискорено вивчати виконання однакових завдань за допомогою колективного навчання. Коротко про це розповідається в блозі Google, з препринтами статей можна ознайомитися на arXiv.org (1, 2, 3).


Методи глибинного навчання допомагають роботам засвоїти виконання досить складних дій, у тому числі пов'язаних з моторикою. При наявності симулятора або готового набору даних цей процес може бути відносно недовгим, однак на самостійне навчання з підкріпленням в реальному світі одному роботу, як правило, потрібно куди більше часу.


Розробники з Google вирішили скоротити цей термін, для чого використовували кілька маніпуляторів з сімома ступенями свободи, які навчалися однаковому завданню - самостійному відкриванню дверей. Роботів об'єднали в одну мережу з центральним сервером, на якому проводилося додаткове навчання і зберігалася актуальна версія нейромережі. Кожен з роботів володів своєю копією нейромережі, яка автономно працювала над завданням «відкрити двері за допомогою ручки».

У рамках першого експерименту кожен робот працював зі своїми власними дверима, причому всі двері перебували в різному положенні. Керуюча кожним роботом копія центральної нейромережі становила послідовність майбутніх дій, причому на цьому етапі інженери спеціально спотворювали ланцюжок команд від мережі до роботи стороннім шумом, щоб збільшити діапазон обраних значень. Після цього робот робив чергову спробу відкрити двері.

Інформація про вибрані нейромережею дії, вироблені роботом фізичні рухи в реальному світі і результати кожної спроби відправлялася назад на сервер. Ці дані використовувалися для додаткового налаштування центральної нейромережі, після чого сервер розсилав роботам копію нової версії, яка працювала трохи краще попередньої, і вся операція повторювалася спочатку.

У результаті проведених експериментів з'ясувалося, що навіть два робота навчають нейромережу набагато ефективніше, ніж один робот. Два роботи за дві з половиною години досягли показника в 100 відсотків успішних спроб, а робот, який працював на самоті, за цей час навчився лише переміщати маніпулятор до дверної ручки. Через чотири години робот-одинак навчився відкривати двері тільки в 20 відсотках випадків.

Також дослідники описують два інших підходи до колективного навчання роботів на прикладі практично того ж самого обладнання. Крім вищеописаного експерименту, автори використовували попереднє механічне навчання оператором, який «показував» роботу потрібну дію. Інша публікація описує колективне навчання з використанням камер - у цьому випадку зображення з камер роботів також використовується для колективного навчання центральної нейромережі і передбачення наслідків будь-якої дії у фізичному світі.

Раніше фахівці Лабораторії X вже тестували колективне навчання роботів за допомогою камер. Автори навчили нейронну мережу передбачати ймовірність успішного захоплення, ґрунтуючись на зображеннях камери незалежно від калібрування і вихідного положення робота.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND