Искусственный интеллект AlphaStar достиг уровня Грандмастера в StarCraft II

Игровой искусственный интеллект последней версии AlphaStar открыл новый уровень возможностей интеллектуальных систем. Впервые в истории ИИ победил в обычной, а не модифицированной версии онлайн-игры StarCraft II, сражаясь с людьми на условиях, в которых состязаются живые киберспортсмены. И последовательно добился высшего ранга «Грандмастера» в сражениях за каждую из трех рас: терранов, протосов и зергов.

Перелом в «воспитании» игровых ИИ произошел в прошлом году, когда система AlphaZero победила своего предшественника, AlphaGo. В 2016-ом та стала первым ИИ, победившим чемпиона мира по игре го, Ли Седола, однако AlphaGo действовала по-старинке, на основе заданных правил и стратегий. Новый ИИ AlphaZero уже целиком построен на принципах машинного обучения, прекрасно учится на собственном опыте и самостоятельно создает стратегии выигрыша. Даже если изначально ничего не знает об игре и своем противнике.

Следующим вызовом стали игры с неполной информацией, вроде покера, и многопользовательские стратегии. Они для ИИ особенно сложны: нужно контролировать множество своих и вражеских юнитов, планировать бои минимум на несколько минут вперед, развивать свои базы, и уметь сочетать разные виды деятельности с мгновенным переключением между задачами. AlphaZero после череды экспериментов научился справляться с этой задачей, выигрывая в 95 % случаев. Но возникла новая проблема – ИИ не понимает саму игру, он действует дистанцируясь от процесса, из-за чего не способен эволюционировать по-настоящему.

AlphaStar (зерги, красный) отражает ранюю атаку протоссов

Решение пришло с созданием системы AlphaStar, которая научилась «создавать трудности» самой себе. Здесь так же все построено на машинном обучении, но если раньше все агенты искусственного интеллекта имели цель разработать выигрышную стратегию, то теперь ИИ намеренно стал разделять себя на «ученика» и «тестеров». Последние во время тренировок стараются вскрыть как можно больше уязвимых мест противника, кроме того, отрабатывая подлые приемы, вроде сговора при игре в режиме «каждый за себя», игры в поддавки и т.д. Прокачавшись таким образом, AlphaStar бросил вызов сильнейшим игрокам в StarCraft, Дарио «TLO» Вуншу и Гжегожу «MaNa» Коминцу, и победил обоих.

Последним камнем преткновения оставался интерфейс. Люди играют, имея ограниченную скорость нажатия на кнопки, кликов мышкой, прокрутки экрана и обзора поля боя, они видят и оценивают наборы пикселей, а не готовые пакеты данных. Потребовалось более полугода, чтобы создать для AlphaStar подходящий механизм управления, после чего ИИ выпустили в Интернет, где он сражался с игроками-людьми в Battle.net, на реальных картах и в одинаковых с ними условиях. И достиг уровня 99,8 % побед, получив статус грандмастера во всех игровых расах.

AlphaStar (зерг, зеленый) выигрывает финальное сражение с помощью поздних высокотехнологичных юнитов

Главное достижение здесь вовсе не в победе – это лишь убедительное доказательство того, что универсальные алгоритмы машинного обучения такого типа могут использоваться для решения сложных реальных задач. Например – создания беспилотника, личного цифрового помощника, военного или исследовательского робота, способного действовать без помощи человека.

Comments (0)
Add Comment