Tech

알파고 제로 (AlphaGo Zero) & Capture the Flag AI: 인공지능을 통해 인간의 전략을 이해하다

딥마인드 챌린지에서 기념사진을 찍는 하사비스 CEO와 이세돌 9단. <사진출처: Google AlphaGo Blog>

2016년 3월 9일, 서울의 포시즌스 호텔에서 있었던 세기의 대국은 전세계가 AI (Artificial Intelligent)에 다시금 주목하는 계기가 되었다. 구글 딥마인드의 바둑 인공지능 알파고는 한국의 이세돌 9단을 상대로 4:1 완승을 거두며 이른바 인공지능 열풍이 전 세계에 불게 되었다.

구글 딥마인드팀은 이에 머물지 않고 새로운 인공지능을 발표한다. 2017년과 2018년에 딥마인드가 발표한 주요 인공지능은 다음과 같다.

 

2017: AlphaGo Zero (Mastering the Game of Go without Human Knowledge)

2017년 딥마인드 팀은 인간의 기보없이 혼자서 바둑을 학습한 알파고 제로를 발표한다. 알파고 제로는 이세돌을 이긴 알파고 Lee 버전보다 약 1500점, 커제를 이긴 알파고 마스터버전보다 약 500점 더 높은 Elo Rating (실력을 가늠하는 점수)을 달성하며 세계에서 가장 강한 바둑 플레이어로 등극한다.

2018: Capture the Flag

2018년 딥마인드 팀은 2:2 Capture the Flag FPS게임을 플레이하는 인공지능을 발표한다. 실시간으로 상대팀의 깃발을 뺏는 3D 게임에서 인공지능은 인간고수보다 약 400점 높은 ELO Rating을 기록한다.

 

불과 수 년 전만 해도 인공지능이 바둑과 FPS게임에서 인간을 능가하는 것을 상상하기 어려웠다. 이 모든 것들이 지금은 현실이 되었고 낙관적으로 볼 때 인공지능의 발전은 더욱 빠르게 진행될 것으로 예상된다. 그러나 이러한 인공지능의 발전이 지금 우리 삶에 어떠한 의미를 갖는지, 알파고 제로의 성공이 왜 우리에게 반가운 소식인지 묻는다면 어떻게 답할 수 있을까.

본 포스트에서는 최근 구글 딥마인드팀에서 개발한 알파고 제로와 Captuer the Flag 인공지능을 소개하고, 이 기술들을 통해 가까운 미래에 인공지능이 우리 삶에 어떠한 가치를 제공할 것인지를 고찰해보고자 한다.

 

 

AlphaGo Zero


<사진 출처: Deepmind AlphaGo Zero blog>

2017년 구글 딥마인드팀은 알파고의 새로운 버전인 알파고 제로를 발표한다. 알파고는 바둑 학습과정에서 약 16만개의 인간의 기보를 입력받아 바둑을 학습하는데, 알파고 제로는 기보를 입력받지 않고 마치 어린아이가 혼자서 바둑을 두듯이 수많은 자체대국을 통해 바둑을 학습한다. 이는 딥마인드팀에서 발전시킨 강화학습 모델 덕분에 가능한 일이다.

알파고 제로는 단 3일만에 알파고 Lee버전을, 21일만에 알파고 마스터 버전을 따라잡는다. 다시 말하면 3일만에 이세돌 9단, 21일만에 커제 9단을 능가하는 실력을 갖추게 된 것이다.

알파고 제로는 40일만에 Elo 5000점의 (알파고 마스터는 약 4800점) 경지에 도달한다.

알파고 제로의 Elo Rating 변화 그래프 <출처: DeepMind Alphago Zero 블로그>

알파고 제로가 발표되었을 때 나는 한 가지 우려를 마음속에 품고 있었다. 인간의 기보없이 바둑을 학습한 알파고 제로가 완전히 새로운 바둑으로 인간을 압도할지 모른다는 두려움이 존재했다. 만약 알파고 제로가 인간과 완전히 다른 수법의 바둑을 둔다면, 그리고 그 수법으로 알파고 제로가 인간을 완전히 능가한다면, 천년 넘짓 바둑을 두어 온 인간의 세월이 자칫 무상해질지 모른다.

다행히 알파고 제로의 바둑은 인간의 바둑과 매우 유사하다. 학습 3시간 이내의 알파고 제로는 인간 초심자와 같이 악수로 알려진 바둑판 중앙과 구석에 돌을 착수한다. 그러나 학습 19시간 이후로는 인간과 거의 유사한 초반 포석 (초반 돌 포진)과 정석 (대체로 좋다고 알려져 많은 사람들이 두는 정수), 화점 (바둑판의 점), 소목 (화점의 옆), 3-3 (바둑판 귀퉁이 3X3 지점) 등 인간과 매우 비슷한 바둑을 구사한다. 그간 인간이 두어온 바둑의 방향이 옳았음을 간접적으로 보여준다.

약 70시간 이상의 학습을 거듭한 알파고 제로는 매우 복잡한 전략을 구사한다. 알파고 제로의 한 수 한 수에는 복잡한 의미들이 담기기 시작하며, 여러 전장을 오고가며 전투를 벌이는 모습도 보인다. 보통 인간은 한 번에 하나에서 둘의 전투에 관여하는데, 알파고는 세 가지 이상 전투를 오고가는 모습도 보인다. 이 부분에서는 계산력이 월등한 알파고가 유리하다.

학습시간 변화에 따른 알파고 제로 기보의 변화 <출처: DeepMind Alphago Zero 블로그>
학습시간에 따른 알파고 초반 정석의 변화. 시간이 지날수록 인간이 두는 정석과 거의 차이가 없다.<출처: DeepMind Alphago Zero 논문>

알파고 제로의 성공은 다음의 두 가지 의의를 가진다.

1. 바둑에 대한 인간의 접근법이 옳았음을 입증한다. 알파고 제로는 인간의 지식 없이 바둑을 학습했음에도 인간과 매우 유사한 바둑을 구사한다. 이는 바둑에 대한 인간의 접근법과 해법을 검증하는 효과를 낳는다.

2. 인공지능이 인간의 지식이 전무한 문제들을 해결할 가능성을 보여준다. 알파고 제로는 인간의 실력을 훨씬 상회하는 실력을 보여준다. 이는 인간의 지식이 부족한 분야의 문제들도 인공지능이 해결할 수 있으며, 그로인해 사회발전을 크게 가속시킬 수 있는 가능성을 시사한다

한계점: 사실 인간세상의 문제들은 바둑보다 훨씬 더 복잡하기 때문에 아직 갈길이 멀다. 어디까지나 가능성이 있는 것이지 매우 복잡한 사고과정을 통해 기준이 불분명한 인간의 문제들을 해결할 수 있을지는 아직 미지수이다.

 

 

Capture The Flag


Capture The Flag (이하 CTF) 게임은 고전게임의 하나로 각자의 팀이 상대편 기지 (Base)에 있는 깃발 (Flag)를 뺏어 자신의 기지로 가져오면 점수를 얻는 방식의 FPS 게임이다. 간략히 게임 소개를 하면 다음과 같다.

– 상대 기지에 놓여있는 상대 깃발을 뺏어든다.

– 상대 깃발을 우리 기지로 가져온다.

– 우리 깃발이 우리 기지에 있는 상태에서 상대 깃발을 우리편 기지로 가져오면 점수를 얻는다.

– 우리 깃발을 든 상대편을 터치하면 우리 깃발이 즉시 우리 기지로 복귀한다.

 

CTF는 다음과 같은 이유로 인공지능에게 바둑보다 어려운 게임이다.

1. 취할 수 있는 액션의 수가 매우 많다. 인공지능은 3D화면을 통해 상황을 인지하고, 판단하고, 움직이고, 같은 편과 협동해야 한다. 모든 일은 실시간으로 이루어져야 한다.

2. 바둑과는 달리 정보가 제한되어 있고 비대칭이다. 바둑은 두 플레이어가 바둑판 위의 모든 정보를 알고있는데 반해, CTF에서는 각 플레이어가 알고있는 정보가 다르고 한정되어있다.

3. 협업을 해야한다. 협업은 팀원의 움직임도 고려해야 하므로 가능한 액션의 경우의 수를 큰 폭으로 늘린다. 이 때문에 많은 학습 시간이 소요된다.

구글 딥마인드는 위와 같은 요소들을 고려하여 FTW (For The Win) 인공지능을 개발한다. 40명의 인간 플레이어들을 포함한 토너먼트를 통해 (인간과 인공지능은 같은팀이 될수도, 다른팀이 될수도 있다) 테스트를 진행했다.

FTW (CTF AI) 의 ELO레이팅 변화. Self-play 와 RS는 여기서 다른 모델과 파라미터를 적용한 인공지능이다. FTW과의 가장 큰 차이점은 Self-play라는 이름처럼 팀플레이를 고려하지 않은 모델이다. <출처: 구글 딥마인드 블로그>

놀랍게도 CTF 게임마저 FTW 인공지능은 약 170,000게임의 플레이타임으로 인간 고수를 따라잡는다. 그리고 300,000게임을 플레이한 후에는 인간고수를 훨씬 상회하는 실력을 보여준다.

딥마인드의 CTF 게임에서의 성공은 인공지능이 바둑보다 어려운, 조금 더 현실세계에 가까운 문제도 해결할 수 있다는 가능성을 보여준다. 물론 게임이라는 제한적 환경에서의 성공이기 때문에 아직 갈길은 멀다.

 

 

초보, 중수, 고수 인공지능은 어떻게 플레이 했는가?


딥마인드에서 발표한 알파고 제로와 CTF 논문의 부록에 흥미로운 그래프가 수록되어 있다.

알파고 제로를 발표한 논문 “Mastering the Game of Go without Human Knowledge” 의 부록에는 다음과 같이 알파고 제로가 사용한 정석 (많이 사용되어 정수라고 불리는 전략)의 빈도수를 그래프로 나타낸다. 논문에는 약 10여 가지 전략을 보여주는데, 여기에서는 두 가지 예를 들고자 한다.

Pincer 3-3 Point

알파고의 학습시간에 따른 Pincer 3-3 point 전략 사용 빈도 <출처: AlphGo Zero 논문>

Pincer 3-3 point 전략은 30시간 학습한 알파고 때까지 전혀 쓰이지 않다가, 30시간이 넘어가면서 점차 쓰이기 시작 하면서, 60시간이 넘어가면서 부터는 매우 활발하게 쓰이기 시작한다. 이를 통해 Pincer 3-3 point 전략이 고수 플레이어가 사용하는 고급 전략이라 추론해볼 수 있다. 혹은 알파고 제로가 아주 오랜 시간동안 학습해서 발견한 가치 높은 전략이라고 추론할 수도 있다. 

3-3 Invasion

알파고의 학습시간에 따른 3-3 침입 전략 사용 빈도 <출처: AlphGo Zero 논문>

인간도 많이 사용하는 3-3 침입의 경우, 알파고 제로의 학습시간이 약 20-30시간을 넘어가면서부터 폭발적으로 쓰이기 시작한다. 약 40시간을 학습한 중급 알파고 제로의 경우에서는 매우 잦은 빈도로 3-3 침입을 사용하는 것을 볼 수 있다. 재미있는 것은, 알파고 제로의 학습시간이 60시간을 넘어가면서부터는 3-3침입의 사용빈도가 매우 큰 폭으로 떨어진다는 것이다. 이는 3-3침입의 가치가 고수 플레이어 레벨에서는 크지 않을 수 있음을 시사한다.

CTF게임에서도 매우 유사한 결과를 찾아볼 수 있다. 딥마인드는 CTF게임을 학습한 인공지능이 다음과 같이 크게 세 가지의 전략을 주로 구사하는 것을 확인할 수 있었다: Home Base Defence (집 지키기), Opponent Base Camping (상대 기지 캠핑), Teammate Following (우리편 따라다니기).

재밌는 점은, 인공지능이 스스로 찾아내 구사한 위 전략들이 우리 인간들도 충분히 많이 생각해보고 사용할 수 있는 직관적인 전략이라는 것이다. 그렇다면 과연 고수는 어떤 전략을 선호했을까?

CTF 인공지능이 주로 구사한 세 가지 전략 <출처: 구글 딥마인드 블로그>

위 그래프는 CTF 게임플레이 시간에 따른 인공지능의 전략 사용 빈도(확률)을 나타낸다. 약 200,000게임을 플레이한 CTF 인공지능은 Teammate Following (같은편 따라다니기) 전략을 압도적으로 많이 사용했다. 그러나 약 300,000게임플레이를 넘어가며 고수단계로 진입한 CTF 인공지능은 Home Base Defence (내 기지 지키기) 와 Opponent Base Camping (상대편 기지에 진치기)를 섞어 사용했고 Teammate Following 전략은 매우 적게 사용했다. 그 중에서도 Home Base Defence 전략을 가장 많이 사용하였다.

이 그래프 또한 각 전략의 가치의 난이도를 간접적으로 시사한다. Teammate Following같은 경우는 중수들이 매우 간단하면서도 강력하게 사용할 수 있는 전략이라 추론해볼 수 있고, Home Base Defence의 경우는 고수레벨에서 사용하기 좋은 전략이라 유추해볼 수 있다. 본 포스트에서는 직관을 사용해 추론하였지만, 이러한 전략 사용빈도에 대해 더 많은 데이터와 함께 연구해 볼 필요성이 있다. 이러한 경향은 분명히 의미가 있다.

 

결론: 인공지능은 우리에게 조금 더 객관적 평가를


본 포스트에서는 알파고 제로와 Capture The Flag 게임 인공지능을 간단히 소개하고, 각 인공지능이 공통적으로 보였던 전략에 대한 분석을 소개하였다. 두 인공지능은 게임을 학습하며 특정 전략을 스스로 발견하고 활용하였으며, 학습시간과 실력에 따라 각 전략을 다른 빈도로 사용하는 모습을 보여주었다. 그러나 두 인공지능이 보여준 전략들은 우리에게 있어 새롭고 특별한 것은 아니다. 3-3 침입과 같은 알파고가 보여준 전략들은 이미 인간도 충분히 사용해왔다.

인간과 위 인공지능들의 차이점은 전략 가치 평가의 객관성이다. 인간사회에서는 특정 전략/전술에 있어 주관적 평가가 대체로 행해져왔다. 예를 들어 조훈현 9단이 화려한 행마와 공격형 바둑으로 각종 타이틀을 석권하자, 많은 사람들이 조훈현 9단의 행마와 공격바둑을 으뜸이라 여겼다. 이창호 9단의 시대에는 견실하고 실리를 추구하는 수비형 바둑이 각광을 받았다. 이와 같이 인간은 전략과 전술의 가치에 대해 많은 논쟁과 토론을 나누며 평가하는 과정을 거친다. 술 한 잔과 함께 친구, 동료들과 나누는 논쟁은 많은 이에게 즐거움의 대상이 되기도 한다.

알파고 제로와 FTW 인공지능은 단순히 게임을 잘 플레이 하는 것에 그치지 않고 우리에게 바둑과 CTF게임에 대한 깊은 이해 (Insight) 를 제공한다. 각 전략들의 사용빈도와 함께, 이 게임들을 어떻게 플레이해야 하는지, 그리고 어떤 전술이 더 가치가 있는지 통계적 데이터와 함께 보여준다.

위 사례들을 통해, 인공지능이 인간 사회의 많은 분야에서 보다 객관적 평가를 제공할 가능성을 엿볼 수 있다. 예를들어, 축구경기에서 4-2-3-1 포메이션이 과연 최고의 포메이션인지 인공지능이 데이터를 기반으로 평가를 내릴 수 있을 것이다. 전쟁 시뮬레이션을 통해 최적의 전술을 찾고 그 동안 인류가 사용해온 전쟁 전술에 대한 평가도 내려볼 수 있을지 모른다. 먼 미래에는 정부 정책의 평가에도 도움을 줄 수도 있을 것이다.

 

혹시 인공지능의 이러한 발전을 보고 너무 빠른 것이 아닌가 걱정할수도 있으리라 생각한다. 다만 위 두 사례에서 보았듯 아직 두 가지 큰 한계가 존재한다. 첫째는 아주 제한된 분야 (바둑, CTF 게임)에서만 성공을 거뒀다는 것이고, 둘째는 CTF 인공지능의 경우 알파고 제로와 같이 완벽하게 스스로, 알아서 학습한 인공지능은 아니라는 것이다. 아직도 갈 길은 꽤 멀다.

 

 

본 포스트는 구글에서 공개한 블로그, 논문들을 토대로 작성되었습니다.

본 포스트에 대한 코멘트, 질문 등은 acsstudent28@gmail.com 보내주시면 감사하겠습니다.

 

참고문헌

Silver, David, et al. “Mastering the game of Go without human knowledge.” Nature, 2017.

AlphaGo Zero: Learning from the Scratch, url: https://deepmind.com/blog/alphago-zero-learning-scratch/

Max Jaderberg et al., Human-level performance in first-person multiplayer games with population-based deep reinforcement learning, 2018

Capture the Flag: the emergence of complex cooperative agents, url: https://deepmind.com/blog/capture-the-flag/

 

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다