5천년 바둑지식 36시간만에 독학…'슈퍼 알파고' 등장

데이터없이 백지상태서 시작, 스스로 약점 보완하며 학습
기존 알파고에 100대0 압승

  • 김윤진 기자
  • 입력 : 2017.10.19 02:01:01   수정 : 2017.10.19 09:47:47
  • 프린트
  • 이메일
  • 페이스북
  • 트위터
  • 카카오스토리
  • 공유
더 진화한 구글 '알파고 제로'

 기사의 0번째 이미지
인류가 5000년에 걸쳐 켜켜이 쌓아 올린 바둑 지식을 인공지능(AI)이 단 36시간 만에 뛰어넘었다.

지난해 3월 세기의 대결에서 인공지능의 선두주자 '알파고 리(Lee)'는 바둑 최강자인 이세돌 9단을 꺾었다. 당시 알파고 리는 오랜 세월 축적된 인간 고수들의 수를 집중 학습해 '청출어람'의 경지에 올랐다. 그러나 18일 구글 딥마인드가 '네이처'에 공개한 최신 업그레이드 버전인 '알파고 제로'는 인간이 갈고닦은 바둑의 기술, 기보를 단 하나도 참고하지 않았다. 인간의 가르침을 받지 않은 채 말 그대로 '제로 베이스'에서 출발한 것이다. 그리고 바둑을 배운 지 불과 36시간 만에 알파고 리의 실력을 뛰어넘기 시작했다. 데이터가 주어지지 않은 백지 상태에서 스스로 깨우친 것이다. 490만번 자기 자신과 바둑을 두면서 약점을 고치고 혼자의 힘으로 진화했다. 모두 72시간의 훈련을 끝마친 알파고 제로는 알파고 리를 상대로 '100대0' 압승을 거뒀다. 연초 중국 랭킹 1위인 커제 9단을 꺾었던 '알파고 마스터'와의 대결에서도 89대11로 승리했다.

인간 도움 없이 스스로 진화

알파고 제로는 인간의 사전 데이터에 의존하지 않고 다양한 지식을 스스로 익히는 '범용 AI'다. 그동안 과학자들은 과연 데이터 양이 충분하지 않아도 AI 머신러닝(자율학습)이 가능한지 궁금해 했다. 알파고 제로의 등장은 이 같은 의문을 해소하고, 인공지능이 데이터 없이도 독학을 통해 인간의 지도를 받을 때보다 더 똑똑해질 수 있음을 입증했다. 또 알파고 리를 학습시키는 데는 수개월이 걸린 반면 알파고 제로가 훈련하는 데 걸린 시간은 단 3일에 불과했다. 데미스 허사비스 구글 딥마인드 최고경영자(CEO)는 "알파고 제로는 현존하는 구글 AI 중 가장 뛰어나며, 컴퓨터 연산능력이 떨어지거나 데이터가 없어도 지능이 진일보할 수 있음을 보여줬다"며 "이 같은 알고리즘 혁신을 통해 신약 개발 등 인간의 당면 과제를 해결하는 데 기여할 수 있을 것"이라고 평가했다.

네이처에 따르면 알파고 제로가 두는 바둑은 인간의 바둑과 닮았다. 감동근 아주대 전자공학과 교수는 "무(無)에서 시작해 궁극의 경지에 이른 알파고가 인간의 정석대로 바둑을 둘지, 듣도 보도 못한 기상천외한 전략들을 구사할지는 관심의 대상이었다"며 "새로운 수도 있긴 했지만 전반적으로 '사람다운 바둑'을 두는 것으로 확인됐다"고 말했다.

기존 알파고보다 뇌 구조 단순

알파고 제로가 상대의 수를 예측하는 데 걸리는 시간은 '0.4초'에 불과했다. 논문에 따르면 기존 알파고보다 직관적이다. 뇌 구조도 훨씬 단순해졌다. 알파고 리는 구글이 개발한 AI용 칩 TPU(텐서프로세싱유닛)를 48개나 동원하는 등 대규모 전산 설비로 무장했지만, 알파고 제로는 고작 한 대의 산업용 컴퓨터에 TPU 4개만을 사용한다. 또 16만개의 기보와 3000만번의 대국을 익힌 알파고 리와 달리 단 500만번의 국면만 학습했다.

이처럼 적은 데이터와 적은 사양으로 빠른 학습이 가능해진 이유가 무엇일까. 딥마인드 연구팀은 기술적으로 하나의 신경망을 사용한 것을 차이점으로 꼽았다. 인공지능의 뇌에도 사람처럼 신경회로가 돌아가는데, 알파고 리는 신경망 2개를 사용해 바둑을 뒀다. 상대가 다음에 둘 법한 수를 뽑아내는 '정책망'과 해당 수에서의 승률을 계산하는 '가치망'이 분리돼 있었다. 그러나 알파고 제로는 신경망 2개를 하나로 통합해 효율을 획기적으로 높였다. 신경망의 종류도 회선 신경망(CNN)에서 잔차 신경망(RNN)으로 바꿔 정확도를 높이고 오차를 줄였다.


100% 독학? 과장된 측면도

AI가 인간의 도움 없이 초인간적 지능에 도달했다는 구글의 주장에 '구멍'이 없는 것은 아니다. 감 교수는 "연구를 해석하기에 따라 알파고 제로가 100% 자율학습으로만 실력을 다진 게 아니라 지도학습을 일부 받았다고 반론할 여지도 있다"며 "또 학습을 시작한 지 36시간 만에 알파고 리와 인간을 능가했다지만 초기 조건들을 설정하는 사전 작업에 상당한 시간이 걸렸을 것으로 추정된다"고 말했다. 이 같은 범용 AI의 알고리즘이 바둑 외 다른 분야에까지 적용될지는 지켜봐야 한다는 설명이다. 송화전 한국전자통신연구원(ETRI) 책임연구원은 "딥러닝 기술이 점점 데이터 의존도를 줄여나가는 방향으로 나아갈 것으로 예측은 됐지만 실제로 구현했다는 점에서 의미가 크다"며 "다만 이 같은 알고리즘을 승패가 분명한 게임 외에 불확실한 변수가 많은 다른 영역으로까지 넓힐 수 있을지는 장담할 수 없다"고 말했다.

[김윤진 기자]


[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

+ Recent posts