Нова AlphaGo сама навчилася грати ще краще. І обіграла всі попередні версії

Розробники DeepMind створили новий алгоритм для програми AlphaGo - штучного гравця в го. Порівняно з попередніми моделями нова AlphaGo при навчанні була орієнтована строго на навчання з підкріпленням (тобто без навчальної вибірки). Нова система здобула абсолютну перемогу над усіма своїми попередниками. Робота опублікована в.


Го - настільна гра, популярна в країнах Азії. Сформулювати основні правила гри можна наступним чином. Два гравці отримують камені різних кольорів (чорного і білого), і завдання кожного з них - обгородити велику територію своїми каменями на гобані - ігровій дошці. Одна партія може займати від 10 хвилин до декількох годин, а число можливих комбінацій більше кількості атомів у Всесвіті. Саме через величезну кількість даних, необхідних для розробки стратегії ефективної гри, розробка комп'ютерного гравця в го довгий час залишалася недоступним завданням.


Програма AlphaGo була представлена DeepMind, експериментальним підрозділом Google, в 2015 році. Перша версія працювала з використанням двох нейромереж: одна обчислювала ймовірність ходів, а друга - оцінювала позицію каменю на дошці. AlphaGo тоді практично повністю покладалася на навчання з учителем, використовувала в якості навчальної вибірки дані про успішні ходи гравців-людей, а також пошук по дереву методом Монте Карло, який часто застосовується у створенні комп'ютерних гравців. Завдання такого пошуку - вибрати найбільш виграшний варіант, аналізуючи зіграні і вдалі ходи в грі. Алгоритм показав свою ефективність практично відразу ж, обігравши професійного гравця Фаня Хуея.

Потім розробники DeepMind поліпшили алгоритм, розширивши використання в системі навчання з підкріпленням - виду машинного навчання, при якому алгоритм навчається, не маючи при цьому навчальну вибірку у вигляді пари «вхідні дані - відповідь». Тоді AlphaGo змогла обіграти іншого гравця в го - Лі Седоля, якого вже відносять до найсильніших гравців у світі. Після цього розробники модернізували алгоритм ще раз: остання версія AlphaGo обіграла третього найсильнішого гравця в го, Ке Цзе, і пішла зі спорту. Проте, розробники DeepMind не припинили роботу над програмою і тепер представили нову версію свого гравця.

На відміну від своїх попередників, нова версія AlphaGo (щоб позначити, що противником «гравця» є він сам, автори статті додали до його назви індекс Zero) працює строго завдяки навчанню з підкріпленням, не використовуючи інформацію, отриману від гравців-людей. Замість цього новий алгоритм вчиться сам: бере в якості вхідних даних положення чорних і білих каменів і починає з випадкової гри, з часом покращуючи якість. На кожному кроці алгоритм підключає пошук по дереву методом Монте Карло, вираховуючи ймовірність наступного кроку, а також підбирає наступний за ним найбільш ефективний хід. Таким чином, новий алгоритм навчився грі сам у себе.

Алгоритм навчався близько трьох днів і встиг за цей час зіграти близько п'яти мільйонів партій з самим собою. Після цього розробники порівняли роботу AlphaGo Zero з усіма попередніми версіями, які обіграли провідних гравців-людей. Всі старі версії програли AlphaGo Zero з рахунком 0:100.

Таким чином, розробники AlphaGo показали, що надлюдський (за словами авторів) рівень гри може бути досягнутий і без прямої взаємодії з інформацією, отриманою від людей. На жаль, грати проти професіоналів-людей новий алгоритм, швидше за все, не буде.

Крім го розробники DeepMind також займаються розробкою й інших ігрових алгоритмів. Наприклад, тут ви можете дізнатися про нейромережі, яка грає в StarCraft - і поки що не дуже успішно. Додаткові подробиці про історію створення та існування AlphaGo в професійному спорті ви можете прочитати в нашому матеріалі.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND