무작정 글쓰는 블로그

알파고의 스타버전, 알파스타! 프로게이머 상대로 10승 1패 본문

IT

알파고의 스타버전, 알파스타! 프로게이머 상대로 10승 1패

신# 2019. 2. 13. 11:36

1월 25일 진행한 알파스타 시연



3년 전 이세돌을 바둑으로 꺾었던 딥마인드의 인공지능이 이번엔 스타크래프트2 프로게이머 두 명을 이겼습니다. 수십 분 동안 수백 개 유닛을 일일이 조종해야 해 AI가 정복하기 힘들다고 알려졌기던 스타크래프트이지만, 지난 1월 딥마인드는 새로운 역사를 썼습니다. 


1월 25일 오전 3시 스타크래프트2 AI '알파스타'와 인간 프로게이머의 경기 내용이 공개됐습니다. 알파스타는 인간 프로게이머와 총 11경기를 맞붙었는데요. 시연 이전에 미리 딥마인드가 위치한 영국에서 유럽의 정상급 프로게이머 두 명과 10경기를 치렀고, 이들 중 한 명과 25일 추가로 한 경기를 생방송으로 진행했습니다.


딥마인드는 이 경기들의 리플레이를 중계했으며, 이날 생방송으로 AI의 능력을 제한한 채로 한 경기를 치르게 했습니다. 스타크래프트의 세 가지 종족 중 프로토스만을 학습한 알파스타는 프로토스만을 사용했고, 상대인 인간 선수 역시 프로토스를 사용했습니다.




알파스타가 맞붙은 첫 상대는 'TLO'라는 닉네임을 사용하는 독일 국적의 다리오 뷘시였습니다. 뷘시는 지난해 말 열린 스타크래프트2 세계 대회인 월드 챔피언십 시리즈(WCS)에서 44위를 기록한 선수인데요. 뷘시는 주종족인 저그 대신 프로토스를 사용해 알파스타와 다섯 경기를 치렀습니다. 뷘시는 지난 11월 알파스타가 펼친 경기를 보고 "자신 있다"고 했지만, 알파스타는 다섯 경기 모두 이겼습니다.


두번째 상대는 닉네임 '마나'를 사용하는 유럽 최정상 프로토스 선수인 그레고리 코민츠였습니다. 뷘시와 같은 구단인 코민츠는 지난해 WCS에서 13위를 기록했습니다. 뷘시와 마찬가지로 지난달 5경기 모두 패배했습니다. 


다만 25일 생방송으로 진행된 경기에서는 알파스타를 꺾었는데요. 게임의 전장 전체를 줌아웃해서 볼 수 있는 알파스타는 이 경기에서는 인간 수준으로 시야를 한정했습니다.






딥마인드가 공개한 인사이트 스토리. TLO 선수와 Mana 선수가 딥마인드에서 총 10경기를 치루는 내용이 담겨있다.





 


MaNa를 상대로 두 경기를 치른 알파스타의 시각화. 알파스타의 관점에서 보는 게임이 나타나 있다. 인공신경망에 입력되는 미가공 자료, 인공신경망 내부의 활성, 어디를 클릭하고 무엇을 지어야 하는지에 관한 알파스타의 생각, 그리고 예상되는 결과. 또한, 여기에는 MaNa의 게임 관점도 보이지만, 알파스타의 경우 해당 정보를 얻을 수 없다.





불완전한 정보, 실시간성, 대규모 유닛 제어 등 게임이 더 복잡하므로 ‘스타크래프트’는 바둑보다 AI가 정복하기 어려운 영역으로 평가됐습니다. 딥마인드는 스타크래프트2에서 AI 도전 과제로 확장할 수 있는 게임 이론, 불완전한 정보를 해석하는 방법, 장기 계획, 실시간성, 대규모 액션 공간 등을 꼽았습니다.


알파스타는 지도학습과 강화학습이 결합한 머신러닝 기법을 사용해 ‘스타크래프트2’를 학습했습니다. 알파고가 바둑을 배운 방식과 비슷한데요, 초기에는 인간의 게임 리플레이 데이터를 통해 훈련한 다음 여러 AI 에이전트를 만들어 리그 경기를 치르는 방식으로 훈련했습니다. 14일간 AI끼리 리그를 진행해, 각 AI 에이전트는 인간으로 치면 200년간 죽도록 스타만 하는 양의 경기를 치렀습니다. 프로게이머 선수들과의 경기에는 이 중 가장 성적이 좋았던 5개의 AI 에이전트가 출전했다고 합니다.


알파스타는 계속해서 새로운 에이전트와 겨루는 과정에서 새로운 전략을 학습했습니다. 포톤캐논이나 다크템플러를 활용한 초반 러시 등 초기에는 단조로운 전략을 썼지만, 다양한 전략을 확장해나갔습니다. 딥마인드 측은 “스타크래프트 출시 후 사람들이 초기 전략을 파훼하고 새로운 전략을 발견해나가는 것과 유사하다”라고 설명했습니다.





하지만 이번 경기가 불공정하다는 의견도 있습니다. AI와 인간의 물리적 한계 차이가 경기 결과로 이어졌다는 의견인데요. 특히 명령을 내리는 속도인 분당 행동 수(APM)에서 AI가 유리하지 않냐고 합니다. 이에 대해 딥마인드 측은 "알파스타의 평균 APM을 프로게이머보다 낮은 수준으로 제한했다"라고 말했습니다. TLO와 마나의 평균 APM이 각각 678, 390인데 반해 알파스타의 평균 APM은 277 정도입니다. 또한, 알파스타는 보고 행동하는 것 사이에 평균 350ms의 반응 지연이 발생하게 되어 있습니다.


알파스타가 MaNa 및 TLO의 경기에서 보여준 APM, 그리고 관찰과 행동 사이의 총 딜레이



그리고 또 알파스타는 시야 범위가 인간보다 자유로웠습니다. 맵핵을 쓰는 건 아니지만, ‘스타크래프트’ 게임 엔진과 직접 연동되기 때문에 카메라 움직임 없이 가시 영역을 확인할 수 있었습니다. 즉 인간은 카메라를 이리저리 움직이면서 전장 정보를 확인해야 하는데 알파스타는 이런 물리적 제한이 없었다는 얘기인데요. 


이는 알파스타와 인간의 대결에서 승패를 가른 결정적 요인 중 하나로 분석됩니다. 실제로 마지막 생중계 경기에서는 알파스타의 시야가 인간 수준으로 제한됐고, 이 경기는 마나가 알파스타에 승리를 거둔 유일한 경기입니다.




미가공 인터페이스와 카메라 인터페이스를 사용했을 때 알파스타의 성능. 카메라 인터페이스를 사용하여 AI 에이전트를 훈련해도 미가공 인터페이스를 사용하는 AI 에이전트의 성능에 빠르게 도달하는 것을 볼 수 있다.





딥마인드는 알파스타의 승리 요인이 초월적인 클릭률, 빠른 반응 시간, 원시 인터페이스(자유로운 시야 범위)보다 우수한 매크로, 미세한 전략적 의사 결정에 있다고 자평했습니다. 즉 신속하고 빠른 의사결정과 정확한 명령 입력 면에서 인간에 앞섰다고 주장합니다.



사실 알파스타의 개발 목적은 단순히 ‘스타크래프트2’에서 인간을 이기기 위해서가 아니라고 하는데요. 딥마인드는 "게임은 AI 시스템 성능을 테스트하고 평가하는 매개일 뿐"이라고 말했습니다. 게임을 통해 얻은 AI 기술은 다양한 과학과 실제 문제를 해결하는 데 필요한 기술로 응용될 수 있습니다.


아래는 알파스타의 시연 후 딥마인드 블로그에 올라온 공식 리뷰 중 일부 발췌입니다.


스타크래프트는 매우 복잡하긴 하긴 하지만 여전히 게임에 불과하며, 저희는 알파스타의 기술이 다른 문제를 해결하는 데도 사용될 수 있다고 생각합니다. 예를 들어 알파스타의 신경망 아키텍처는 불완전정보에 기반하여 한 시간 동안 진행되며 수만 개의 행동을 해야 하는 게임에 필요한 매우 기다란 행동시퀀스를 생성해낼 수 있습니다. 여기서 스타크래프트 플레이장면 프레임 한 개는 하나의 입력단위가 되며, 인공신경망은 게임 플레이 전체에 걸쳐 각 프레임 다음에 어떤 일련의 행동을 취해야 할지 예측합니다. 사실 현실 세계에서 볼 수 있는 문제 대다수는 아주 길다란 일련의 데이터에 대해 복잡한 예측을 해야 하며, 여기에는 기상예측, 기후모델링, 언어이해 등이 있습니다. 그리고 저희는 알파스타 프로젝트에서 얻은 발견 및 결과물이 해당 분야들의 발전에 도움이 되기를 기대합니다.


또한, 저희는 여기서 사용된 훈련방식이 좀 더 안전하고 안정적인 인공지능의 연구에 도움이 될 것으로 생각합니다. 가장 큰 인공지능의 난제 중 하나는 인공지능이 다양한 방식으로 고장이 날 수 있다는 점이며, 스타크래프트 프로게이머들은 이미 예전부터 이러한 실수들을 사용하여 인공지능을 쉽게 이겨왔습니다. 알파스타의 혁신적인 리그기간 훈련방식은 상당히 신뢰성이 높은 방식이며 일이 잘못될 확률도 낮습니다. 저희는 이러한 훈련방식이 전반적으로 인공지능의 안전과 안정성을 높여줄 것으로 기대하며, 특히 에너지산업과 같이 안전이 요구되며 복잡한 사건들이 발생하는 분야에서 유용하리라 생각합니다.


알파스타는 이번 프로젝트를 통해 인간을 이긴 것으로 끝난 것이 아닙니다. 더 나은 게임 AI 개발과 동시에, ‘스타크래프트’라는 가상 세계에서 벗어나 실제 세계에 AI를 적용하기 위한 기반을 착실히 다지고 있습니다.







참조

1) 딥마인드 공식 블로그 : 알파스타 포스팅 https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

2) 딥마인드 유튜브 : 알파스타 인사이드 https://youtu.be/UuhECwm31dM

3) 디스이즈게임 네이버 포스팅 http://naver.me/F2eX0kP1

4) 딥마인드 알파스타 시연 https://youtu.be/cUTMhmVh1qs

5) 블로터 포스트 https://www.bloter.net/archives/329970

6) 아시아경제 포스트 https://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=105&oid=277&aid=0004401176

Comments