Нейромережа навчилася координувати дії футболістів

Колектив американських дослідників створив алгоритм, здатний аналізувати колективну поведінку гравців і стратегію в командних видах спорту, наприклад, футболі. Програма навчалася на траєкторіях професійних футболістів в матчах Європейської ліги УЄФА і при цьому сама визначала ролі гравців по ходу гри, не прив'язуючи до їх формальних позицій у складі команді. Дослідження було представлено на конференції ICML 2017, а також описано в препринті, який доступний на сайті Disney Research.Машинне навчання глибоких нейромереж вже неодноразово доводило свою перевагу в завданнях аналізу та освоєння різних ігор. Настільні ігри на кшталт шахів і го вже остаточно підкорилися штучному інтелекту, а на «перемогу» над комп'ютерними іграми виділяється все більше ресурсів. З точки зору машинного навчання і ті й інші ігри є завданнями навчання з підкріпленням, і в них потрібно навчити одного «агента», скількома б меншими одиницями (фігурами, юнітами) він не керував. Однак існують ігрові види спорту, в тому числі командні, де агентів кілька, і всі вони змушені взаємодіяти один з одним. Зі зрозумілої причини комп'ютери на даний момент не можуть змагатися з людьми в таких видах спорту, зате можуть аналізувати ігри і навчати своїх агентів в симуляторах. Досі, однак, успіхів у вирішенні таких завдань було трохи через складну систему взаємодій агентів один з одним. У новій роботі автори запропонували гібридну схему машинного навчання, яка поєднує дві глибоких нейромережі. Одна займалася тим, що аналізувала дії гравців в залежності від ігрового контексту (рухів м'яча і гравців суперника), намагаючись передбачити найкращий план дій кожного гравця в окремій ігровій ситуації. Ця система навчалася з підкріпленням, тобто на кожну дію система отримує певний відгук від «середовища». Наприклад, якщо якась серія дій призводила до пропущеного м'яча, нейромережа була оштрафована, а якщо віртуальні гравці забивали гол супернику - нагороджена.


При цьому друга нейромережа навчалася без вчителя, тобто працювала з даними без міток, намагаючись якимось чином розбити гравців на кілька ролей. Знахідкою авторів стало те, що нейромережа вихідно не знала, хто з гравців захисник, хто півзахисник, а хто - нападник. По ходу гри нейромережа сама визначала ролі на полі, причому роль не була прив'язана до конкретного гравця, тобто агенти по ходу розіграшу могли грати на різних позиціях. Обидві нейромережі навчалися по черзі, обмінюючись інформацією один з одним: одна знала, які ролі зараз є на полі, а інша - що агентам в різних ролях варто робити в кожен момент часу. Як найпростіший тест нового алгоритму автори вивчали не футбольний матч, а просту постановку «хижак-жертва», в якій чотирьом агентам потрібно було загнати в пастку «жертву», переміщаючись по ґратах лише за певними правилами. Виявилося, що запропонований алгоритм працює суттєво краще, ніж попередні, простіші схеми навчання кількох агентів «командній» роботі.


Грати у футбол системи вчилися за записами 45 професійних матчів Європейської Ліги УЄФА. На цьому етапі знадобилася ще одна нейромережа - реккурентна, - вона висловлювала послідовність дій віртуальних гравців. У цьому експерименті також виявилося, що нова система працювала значно ефективніше попередніх підходів, так званого «імітаційного» навчання. Однак у разі довгих розіграшів точність роботи алгоритму погіршувалася, так як ігрові події розвивалися, як сніговий ком, і передбачити їх було складніше. Автори підкреслюють, що футбол в їх роботі зачіпався лише в якості зручного тренувального майданчика. Інша область застосування подібних систем - це колективна поведінка роботів і дронів у зграї, яким необхідно злагоджено діяти для досягнення поставленої мети. Раніше системам машинного інтелекту вдавалося освоїти ігри на кшталт футбол, але в тому випадку, коли в їх розпорядженні був один агент. Наприклад, алгоритм від DeepMind навчився грати в «мурашиний футбол» з одним мурахом. Що стосується командного футболу, на допомогу іноді приходять і підходи з природничих наук. Так, виявилося, що рух футболістів описуються так само, як блукання частинок у двомірному шарі рідини.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND