Нейромережа AlphaStar здолала професійних гравців у StarCraft II

Програма AlphaStar, розроблена DeepMind, змогла обіграти двох професійних гравців в стратегію в реальному часі StarCraft II. Кожного з гравців-людей нейромережа перемогла в п'яти матчах. Опис роботи програми доступний на сайті DeepMind, а подивитися на AlphaStar у справі можна на YouTube.


Для обох частин StarCraft вже досить давно розробляються боти і навіть проводяться змагання подібних програм, проте досі таким алгоритмам не вдавалося перемогти людину. Справа в тому, що незважаючи на перемогу програми AlphaGo в настільній грі го (яка довгий час вважалася занадто складною для машин) зі стратегією в реальному часі все йде інакше - це гра з закритою інформацією, в якій потрібно вирішувати велику кількість завдань одночасно. Компанія Blizzard оголосила про створення відкритого API для StarCraft II ще влітку 2017 року, але з тих пір помітного прогресу майже не було - навіть нейромережа, розроблена DeepMind, довгий час не могла показати блискучого результату і програвала легкому рівню складності вбудованих алгоритмів.


Тепер компанія DeepMind (входить до складу холдингу Alphabet) продемонструвала, що їх нова програма AlphaStar здатна обіграти професійних гравців. При створенні AlphaStar використовувався метод глибокого навчання з підкріпленням, а також навчання з учителем, в якості тренувального датасета розробники використовували надані компанією Blizzard анонімізовані записи ігор справжніх людей. Навчена на цих іграх нейромережа навчилася перемагати вбудовані алгоритми StarCraft II на найвищій складності в 95 відсотках випадків, після чого фахівці DeepMind змусили програму грати з самою собою. Розробники відзначають, що спочатку в «лізі AlphaStar» домінував раш - тактика швидкої перемоги шляхом будівництва великої кількості порівняно дешевих юнітів. Однак потім нейромережа навчилася боротися з такими атаками і почала робити акцент в тому числі і на економічний розвиток. Всього на «лігу AlphaStar» пішло 14 днів гри агентів один з одним, що еквівалентно 200 рокам гри в StarCraft II.

Спочатку нейромережа виграла п'ять матчів з п'яти проти TLO (Даріо Вунш, Німеччина), а потім інша версія нейромережі перемогла п'ять разів поспіль гравця MaNa (Гжегож Коминч, Польща). Обидва професіонали входять до сотні найсильніших гравців у StarCraft II. Цікаво, що середній APM (кількість дій за хвилину) нейромережі виявився значно меншим, ніж у її супротивників.

Варто відзначити що все ж невелика перевага у AlphaStar була - незважаючи на те, що туман війни закривав карту для нейромережі так само, як і для людини, програма отримувала для обробки не часткове зображення відомої області (умовний екран), а бачила відразу все, що дозволяє побачити гра. Завдяки цьому нейромережі не доводилося постійно перемикатися між різними зонами карти для контролю за тим, що відбувається. Коли ж для ще одного демонстраційного матчу з MaNa розробники змусили AlphaStar грати зі звичайним обмеженням масштабу видимої області, то нейромережа програла людині. Правда, в DeepMind відзначають, що самостійно рухаюча камеру версія програми навчалася в «лізі AlphaStar» всього сім днів.

Перша частина StarCraft теж являє собою складне завдання навіть для методів глибокого навчання. Так, у жовтні 2017 року свого бота для цієї гри представила компанія Facebook, і він виявився слабшим за програми, створені програмістами-аматорами. Фахівцям з Alibaba Group і Університетського коледжу Лондона вдалося навчити свою програму непоганого рівня мікроконтролю юнітів при веденні бою, але на повноцінну гру їх розробка все ще не здатна.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND