[AI] 규칙도 안 배운 인공지능이 최고수가 되다 로봇AI

2020.12.26 09:02 곽노필 Edit

» 딥마인드가 게임 규칙을 가르쳐주지 않아도 스스로 학습해 최고수 경지에 오르는 인공지능을 개발했다. 딥마인드 제공

스스로 학습해 규칙 터득하는 `뮤제로'

딥마인드, 새로운 게임 인공지능 발표

 

구글의 인공지능 자회사인 딥마인드가 사람처럼 스스로 학습해 원리를 터득하는 기계의 꿈에 한발 더 다가갔다.

딥마인드는 게임 규칙을 알지 못한 상태에서 스스로 학습하며 바둑과 체스, 장기, 아타리 등의 게임 규칙을 터득해 최고의 실력을 쌓는 인공지능 뮤제로( MuZero)를 개발해 23일 국제학술지 `네이처'에 발표했다.

2016년 이세돌 9단과의 바둑 대국에서 압도적인 승리를 거둔 인공지능 알파고를 선보여 세계를 깜짝 놀라게 한 딥마인드는 이후 기보 학습 없이도 최고수 실력을 쌓은 알파고제로, 같은 알고리즘을 이용해 장기와 체스까지 석권한 알파제로를 잇따라 개발하며 일약 인공지능계의 슈퍼스타로 떠올랐다. 그러나 지금까지 딥마인드가 내놓은 인공지능은 모두 게임 규칙을 사전에 입력해줘야 했다.

» 2016년 3월 알파고와 대국하는 이세돌 9단. 한국기원 제공

체스, 바둑, 장기 실력은 알파제로 비슷

아타리 비디오게임 실력은 가장 앞서

 

반면 이번에 발표한 뮤제로는 게임에 관한 아무런 사전 정보도 없이 백지 상태에서 경기를 치러가면서 스스로 게임의 규칙과 보상을 터득해 간다. 이어 보상을 알고난 뒤에는 보다 쉽게 보상을 획득하는 방법을 찾아낼 때까지 계속해서 경기 방법을 바꿔나간다. 이를 관찰학습이라고 부르는데, 이는 생소한 문제에 직면한 인공지능에겐  이상적인 학습법이라고 전기전자학회가 발행하는 `아이트리플이 스펙트럼'(IEEE SPECTRUM)은 보도했다. 이런 점에서 딥마인드의 인공지능은 뮤제로 이전과 이후로 나눌 수 있다.

딥마인드는 테스트 결과 뮤제로는 체스, 바둑, 장기에서는 알파제로와 비슷한 경기력을 보였으며 아타리 게임에서는 이전의 모든 알고리즘보다 우수한 실력을 발휘했다고 밝혔다.

딥마인드의 설명 자료에 따르면 인공지능 연구자들이 문제를 해결하는 데 사용하는 전략은 두 가지다. 하나는 게임 규칙이나 지식에 기반한 의사결정 트리 검색, 즉 미리보기 검색이다. 다른 하나는 모델 기반 학습이다. 게임 환경을 정확하게 모델링한 뒤 이를 기반으로 전략을 짜서 문제를 해결하는 방법이다. 하지만 가능한 모든 측면을 모델에 넣으려면 매우 복잡한 계산이 필요하다. 특히 시각적 요소가 많은 비디오 게임에서는 이런 방식은 효율이 크게 떨어진다. 뮤제로는 게임의 전체 환경을 모델링하는 대신, 각 의사결정 단계에서 가장 중요한 것만 모델링하는 방식으로 이 문제를 해결했다. 딥마인드는 이를 알파제로의 미리보기 검색 능력과 결합시켜 새로운 인공지능 `뮤제로'를 탄생시켰다.

» 아타리의 아케이드 비디오 게임 화면.

중요한 것만 골라 학습한 게 비결...데이터 효율 극대화

 

뮤제로 학습법의 장점은 딥마인드의 이전 인공지능에 비해 데이터를 매우 경제적으로 사용한다는 점이다. 미즈 팩맨(Ms. Pac-Man) 같은 아타리의 비디오 게임에서 뮤제로는 하나의 무브당 6~7가지 경우의 수밖에 고려하지 못하는 경우에도 게임을 훌륭히 치러냈다. 이 시스템은 일단 훈련을 마친 뒤에는 스마트폰에서도 온전히 작동할 만큼 처리 과정이 간단해진다. 훈련량이 그렇게 많은 것도 아니다. 논문 공동저자인 줄리안 슈릿위저는 "아타리 게임을 훈련하는 데는 단일 GPU로 2~3주면 된다"고 말했다.

이런 날렵한 작동이 가능한 것은 각 의사결정 단계에서 중요한 측면만을 고려한 덕분이다. 딥마인드는 보도자료에서 "우산이 당신을 젖지 않게 해줄 거라는 걸 아는 것이 비가 내리는 패턴을 파악하는 것보다 더 유용하다"는 말로 뮤제로 학습 방식의 효용성을 빗대 표현했다. 중요한 게 뭔지를 아는 게 중요하다는 것이다.

범용 알고리즘에 큰 진전...자율주행, 단백질 설계에 이용 검토

 

뮤제로의 등장은 범용 알고리즘으로 가는 길에 상당한 진전이 이뤄졌음을 뜻한다. 딥마인드의 수석과학자 데이비드 실버(David Silver)는 "우리는 처음으로 세계가 작동하는 방식을 스스로 터득해서, 체스 같은 게임을 푸는 데 이용할 줄 아는 시스템을 갖게 됐다"며 "뮤제로는 백지에서 출발해 시행착오를 거쳐 세상의 규칙을 찾아내고 그 규칙을 이용해 일종의 초인적 성능에 도달할 수 있다"고 말했다.

뮤제로가 외부에 처음 공개된 건 지난해 11월 온라인 사전출판논문집 `아카이브'이었다. 이후 지난 사이에 미국 공군은 뮤제로의 공개 버전을 응용한 인공지능 알고리즘 `알투뮤'(ARTUμ)를 개발했다. 이 인공지능은 최근 미 공군 정찰기 `유투 드래건 레이디' 비행에서 인간을 대신한 부조종사로 정식 데뷔했다. 알투뮤의 주요 임무는 적군의 미사일 발사체를 찾아내는 것이다. 이에 따라 뮤제로처럼 확장 가능성이 높은 알고리즘의 악용 가능성에 대한 우려가 점차 현실화할 것으로 보인다. 실버 박사는 뮤제로 같은 인공지능을 군사부문에 쓰는 것에 대한 의견을 묻는 `와이어드'의 질문에 "인공지능을 치명적 무기에 사용하는 것에 대해 반대한다"며 "치명적 자동무기에 대한 금지가 더 강화되기를 바란다"고 답변했다.

딥마인드는 현재 구글의 동영상 서비스인 유튜브의 동영상 압축에 뮤제로를 적용하는 방법을 모색하고 있다. 동영상의 압축 효율을 높이면 유튜브 운영에 들어가는 구글의 비용을 크게 줄일 수 있다. 딥마인드에 따르면 지금까지 비디오 압축률이 5% 향상됐다. 

딥마인드는 "이미 알파제로가 화학, 양자물리학 분야의 복잡한 문제 해결에 쓰이고 있다"며 " 뮤제로의 강력한 알고리즘은 로봇공학, 산업 시스템 등 `게임의 규칙'을 알 수 없는 복잡한 실제 환경에서 맞닥뜨리는 새로운 문제들을 해결하는 길을 닦을 수 있을 것"이라고 밝혔다. 딥마인드는 자율주행차와 단백질 설계에도 뮤제로를 적용할 수 있는지 검토하고 있다.

 

출처

https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/deepminds-new-ai-masters-games-without-even-been-taught-the-rules?

https://techcrunch.com/2020/12/23/no-rules-no-problem-deepminds-muzero-masters-games-while-learning-how-to-play-them/

https://techxplore.com/news/2020-12-deepmind-muzero-conquers.html?utm_source=nwletter&utm_medium=email&utm_campaign=daily-nwletter

https://www.engadget.com/deepmind-muzero-160024950.html

https://www.bbc.com/news/technology-55403473

발표 자료

https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

논문 보기

https://www.nature.com/articles/s41586-020-03051-4?

뮤제로

https://en.wikipedia.org/wiki/MuZero

개발자 인터뷰

https://www.wired.com/story/what-alphago-teach-how-people-learn/ 


곽노필 한겨레신문 선임기자 nopil@hani.co.kr
페이스북 페이지 '미래가 궁금해'
트위터 '곽노필의 미래창'

 인공지능  딥마인드  뮤제로  범용알고리즘  곽노필  미래창

[로봇] 두발로 네발로...로봇 3총사의 새해맞이 군무[로봇] 월마트

+ Recent posts