포커 인포 그래픽의 인공 지능 : 역사와 시사점

터미네이터, I, 로봇 그리고 A.I. 인공지능은 지난 40년동안 많은 영화에서 인간이 범접할 수 없는 인류의 끝으로 인도하는 주제로 보여져 왔다. US News & World report의 Jeff Nesbit에 따르면 이러한 시나리오는 가까운 미래에 있을 법한 이야기는 아니지만 많은 사람들은 적어도 한 부분인 인간의 두뇌를 뛰어넘는 인공지능과 인공지능 수준에 도달하는 것이 30년 이내에 발생 될 것으로 생각 하고 있다.  .

Artificial Intelligence in Poker Infographic: History and Implications 0001

ASI가 인류의 종말을 야기할지는 확실치 않지만 인공지능은 최근에 포커 시장에 확실히 한걸음 더 나아가고 있다.

포커는 인공지능 분야에서 1984년 이래로 계속 연관 되어져 왔다. 같은 해 사람들은 처음으로 스크린에서 Arnold Schwarzenegger가 출연한 터미네이터를 보게 되었고 아마 모두들 단지 실제로 수년후 일어날 일이 아닌 영화속의 공상 과학 이라고만 생각했다. 그리고 Mike Caro가 Orac이라 불리는 WSOP에서 겨루어질 기본 포커 인공지능 소프트웨어를 만들어 냈다.

포커 인공지능은 이후로 빠르게 진보되어 왔고 최근 인포그래픽은 상세한 비쥬얼과 모든 데이터를 들여볼수 있는 포커 인공지능 발전에 대한 통계적인 내용도 제공하여 준다.

포커와 인공지능 인포그래픽

2달여 전 즈음에  Josh Wardini (온라인 포커 사이트에 대한 커뮤티니 메니저 및 편집장)은 인포그래픽 관련하여 “포커와 인공지능 : 인류에 대항하는 기계의 증가”라는 기사를 내었다. 그는 잘 정돈 되고 한눈에 보기 쉽게 지난 30년간의 포커와 인공지능의 관계에 대한 프레젠테이션을 공개하였다.

인공지능 연구가 다양한 분야에서 진행되는 동안 전략적인 게임에 접목시켜 대중화 시키는 것이 시행되어 왔다. 지단 20년 동안 인공지능은 체스, Go, Jeopardy와 같은 많은 게임에서 인간에게 승리를 하였다.  지난 10년동안은 많은 인공지능 연구가 포커 플레이 분야로 확장되어 왔다.

한가지 질문을 할 것이다. 왜 포커인가?

Wardini에 따르면 게임이 복잡한 이유로 많은 대학교의 인공지능 연구소에서 포커에 대하여 연구를 진행 하였다고 한다. 수많은 실질적인 우리의 삶과 같이 포커는 확신할 수 없는 상황을 맞닥드리는 것이고 인공지능이 풀어야 할 문제가 그것이기 때문에 포커에 접목시키려 하는 것이라고 한다.

Carnegie Mellon University의 인공지능 박사과정인 Noam Brown은 20,000칩으로 시작하는 No-limit Hold’em은 10의 163승에 해당하는 다양한 상황이 벌어지며 이러한 다양한 상황을 아무리 고성능의 컴퓨터라고 하여도 계산을 해내기는 불가능하다.

포커 인공지능 연구의 마일스톤

인포그래픽에 따르면 포커 인공지능 연구를 이끌고 있는 곳은 University of Alberta, University of Auckland, 위에서 언급한 CMU 이다. 그 후자로 인공지능 회사로 널리 알려진 Claudico와 Libratus이며 최근 헤즈업 플레이 관련하여 상당한 시스템 내 변화를 주었다 한다.

2015년 Claudico는 4명의 플레이어가 뭉친 한팀에게 플레이를 패배하였고 그 4명의 플레이어는 Doug Polk, Bjorn Li, Dong Kim , Jason Les이다. 그러나 이 패배에서 인공지능 로봇은 몇가지 긍적적으로 얻어낸 것들이 있었다.

Polk는 최근 PokerNews에서 Claudico는 작은 배팅부터 큰매팅까지 다양하고 매우 복잡한 전략을 사용했었고 다만 인공지능이 몇가지 실수를 했었다고 인터뷰 하였다.

Libratus는 2017년 1월에 4가지의 장점을 부각 하며 새롭게 진보된 기술을 접목하여 업그레이드 되었다. Kim과 Les는 이번에 다시 경합을 하고 추가로 Jimmy Chou와 Daniel McAulay이 같이 참가 하였다. 120,000번의 핸드가 넘는 노리밋 홀덤 헤즈업 경기에서 Libratus는 1,766,250 달러를 우승하였고 인간과 인공지능의 첫번째 다른 결과를 가져온 경합 이었다.

Don kim은 이 경합 이후에 PokerNews의 Sarah Herring과 인터뷰를 하였다.

그가 이야기 하기를 “이번 경합은 우리에게 정말로 힘든 경험 이었다. 우리가 전략을 가지고 플레이 할때는 좋은 결과를 얻는 듯 하였으나 그 다음날이 되면 그 전략이 무용지물이 되었다. 그리고 플레이가 너무 단단해서 그것에 대해 준비를 할 수 없었다.”

그 이유가 무엇일까? Libratus는 자기진단을 한다. 인공지능은 매일밤 자신의 플레이를 분석하며 실수를 바로 잡고 매일 다른 플레이를 준비한다. 그러나 이것이 다는 아니다.

이전의 로봇들과 달리 Libratus는 Pittsburgh Supercomputing Center에서 고안한 고정 전략을 가진 시스템이 아닌 “Bridges” 라는 소스를 사용하여 수많은 코어에서 다양한 계산이 가능하도록 하는 전략을 자가적으로 계산하는 알고리즘을 이용한다. 이것은 또한 임의적으로 플레이 하여 상대방이 이것이 블러핑인지 아닌지 구별하기 힘들도록 만든다. 정말로 놀라운 것은 Libratus는 포커만이 아닌 다른 불확실한 정보 시스템에 모두 적용할 수 있다는 점이다.

Kim은 이러한 단단한 플레이가 가능한 점이 인상적이라고 언급 하였다.

“이 인공지능은 정말로 플레이를 잘 한가 그리고 내가 생각하기에 이 플레이는 세계적인 수준의 플레이다.”

어떠한 Libratus의 전략이 Kim의 게임에 적용할 수 있는지 질문하였을 때 Kmi은 로봇의 복잡한 전략은 플레이에 본인이 적용하기 힘들다고 설명하였다.

“나의 플레이에 적용하고 싶은 수많은 장점들이 있었다. 그러나 그것을 실행하기는 정말 어려울 것 같다. 그리고 그의 전략은 굉장하고 혼합적이었다. 정말로 당신이 그의 전략 하나 이상을 할 수 있다면 당신은 이미 포커에서 발전 가능성을 보인 것이다. 정말로 그를 흉내 내거나 따라 할 수 있는 것은 어려운 것으로 보고 있다. 그래서 나는 간단한 한가지만 이용할 것이다.”

Libratus는 참담할 정도로 오버벳을 자주 구사했었다.

“다른 것보다 오버벳을 많이 하였다. 만약 인간이었다면 우리는 그것을 현명함을 갖추어야 할 완전한 피쉬로 생각을 할 수 밖에 없을 정도로 많이 구사 하였다.”

“사실 오버벳을 한다는 것은 블러핀이 많다는 것이다”

CMU 연구원인 Brown은 PokerNews  에서 2016년 3월에 인터뷰를 했었다.

“로봇이 블러핑을 한다는 것은 놀라운 점이 아니다. 왜나하면 컴퓨터가 시행하는 것은 수천만의 핸드를 시물레이션하는 것이기 때문이다. 그리고 그것은 우리가 생각하는 블러핑과는 다른 것이다. 정말로 로봇이 시행하는 것은 계속적으로 상황에 부딪히는 것이고 심지어 강한 핸드가 아닐지라도 로봇은 배팅으로 더 많은 돈을 딸 수 있다는 것을 이야기 하는 바이다.”

인공지능의 영향

Libratus의 Tuomas Sandholm 개발자는 Carnegie Mellon에서 진행된 로봇의 승리에 대한 영향에 대해 평가하였다.

그는 “불확실한 정보를 합리적으로 전략을 구사할수 있는 인공지능의 능력은 인간을 넘어서고 있다.” 라고 하였다.

Polk가 감정을 되내기를 그가 Claudico 보았던 Leak은 Libratus에 잘 들어 맞았다.

“보통 플레이어 들이 노 리밋 헤즈업 게임에서 커브를 겪고 몰락하는 시기가 나에게 점점 다가 왔었고 나는 이것이 다른 형태에서도 계속 될 것이라고 생각하였다.”

현실에서 포커분야에서 인공지능 연구의 궁극적인 목표가 현실에서 반영이 될수록 특히 틀러핀이 가능하다는 Libratus의 성공은 중대한 영향을 끼친다.

CMU 컴퓨터과학 부서의 우두머리인 Frank Pfenning가 언급하기를 블러핑 없이는 이길 수 없었을 만큼 블러핑을 구사하는 것은 핵심 컨셉이었다.

“성곡적으로 인공지능을 발전시킨다는 것은 과학적으로 엄청난 과정이고 수많은 곳에 적용을 할 수 있다는 의미이다. 당신의 스마트폰이 당신을 위하여 새로운 차를 살 때 최고의 가격을 합의 볼 수 있다는 것을 상상해 보아라. 이것은 단지 시작에 불과하다.”