구글 알파고가 이세돌 9단을 꺽으면서 전세계가 놀라워 했습니다. 인공지능의 수준이 예상했던 것 보다 매우 뛰어난 결과를 보여주었기 때문입니다.
어떻게 이세돌9단을 이길수 있을 만큼 빠르게 학습한 것일까요? 구글 알파고가 자체적으로 학습을 한다는 개념은 이미 알고 계실 것입니다.
그럼 어떠한 방식으로 학습을 하는 것일까요? 알파고는 인간수준의 제어를 위한 강화학습으로 DQN을 사용합니다.
구글 알파고 어떻게 이세돌을 이길수있었을까? 구글 DQN
DQN은 2015년 2월 26일 네이처지에 발표된 논문에서 처음 공개되었습니다.
강화학습과 신경망을 결합한 DeepRL 시스템을 기반으로 만들어진 인공지능 알고리즘 시스템입니다. 이러한 DQN의 테스트를 위해서 구글은 아타리 게임들을 이용하여 테스트했는데 결과는 다음과 같습니다.
파란색으로 표시된 부분이 구글 DQN으로 학습한 컴퓨터이며 게임리스트 중간 Asterix 위의 게임들은 DQN 학습 인공지능이 인간과 동등하거나 월등한 능력을 보여준 게임들이라고 하겠습니다.
이러한 표만으로는 DQN 인공지능의 학습능력을 이해하기가 쉽지 않으실 것 같습니다. 인간과 비교하여 1327% 수준의 놀라운 능력치를 보인 Breakout 게임의 동영상을 보시면 좀 더 쉽게 학습성과를 이해하실수 있을 것이라고 생각됩니다.
구글 인공지능의 벽돌깨기(Breakout) 게임 학습동영상
1.최초 10분간의 트레이닝
2~5점등 10점이내의 수준으로 낮은 점수만을 기록하며 게임을 잘 이해하지 못하고 있습니다.
2. 120분간의 트레이닝 (2시간)
약 2시간동안의 트레이닝만에 DQN은 벽돌깨기(breakout) 게임의 고수 수준의 게임능력을 보여줍니다.
3.240분간의 트레이닝(4시간)
일반적인 고수수준을 넘어 가장 효율적이고 빠르게 게임을 클리어 하는 방법을 DQN은 이해하고 보여줍니다. 즉 가장자리의 벽돌을 깨고 공을 상단의 빈공간으로 보내 공을 받아치는 방식이외에 더 빠르게 게임을 클리어하는 방식을 이해한 것입니다.
구글 인공지능의 Seaquest 게임 학습동영상
다른 게임은 어땠을까요? 좀더 복잡한 개념의 게임인 Seaquest 학습 동영상입니다. 바다속을 지나가는 물고기를 사냥하는데 산소가 떨어지면 죽기 때문에 산소량을 확인하여 부족할 경우 다시 수면위로 올라와야 하는 게임입니다.
1.최초 학습시작
물고기를 사냥해야 점수가 올라간다는 사실을 모르기 때문에 계속 수면위에 있습니다.
2.120분간의 트레이닝(2시간)
2시간의 학습후 잠수하여 물고기를 맞춰야 점수가 올라간다는 사실을 이해했습니다 하지만 물고기를 맞추지 못하는 경우도 있고 이 게임을 하는 초보자 수준에 머물러 있습니다.
3.16시간동안의 트레이닝
놓치는 물고기가 거의 없어 물고기를 사냥하는 효율성등은 매우 높은 수준에 도달했습니다. 하지만 여전히 산소가 떨어지면 죽는다는 게임룰을 완벽하게 이해하지 못해 산소가 떨어져 죽는 경우가 많이 있습니다.
상단의 게임학습능력 그래프를 보시면 Seaquest 게임의 경우는 인간보다 못한 게임능력을 보여준 게임에 속해있습니다.
이러한 게임테스트에 구글이 인공지능에게 당연히 게임룰등을 알려주지 않았으며 “높은 점수를 획득해라” 등의 목표만 제시했습니다.
이처럼 구글 DQN은 모든 상황과 게임에 대해서 인간보다 뛰어난 완벽한 인공지능이라고 할수는 없습니다.
그러나 DQN을 기반으로 만들어진 알파고는 광역적인 게임에 대한 부분보다는 바둑이라는 특정한 게임에 최적화된 학습을 위한 최고수준의 광범위한 정보가 제공되었다고 할수 있습니다.
또 학습에 투입된 시간이 위의 게임을 학습하기 위해서 소요된 24시간 이내 수준이 아닌 몇개월동안의 시간이 제공된 것입니다. 보다 많은 학습 시간이 제공될수록 인공지능은 더욱 뛰어난 모습을 보여주기 때문입니다.
이세돌9단이 중반이후까지 가면 승산이 희박하다고 언급한 것은 반복학습 될수록 강력해지는 인공지능의 특성을 이해했다고 할수 있는 것입니다.
- 워드프레스 테마 오픈마켓 테마포레스트- Theme forest
- 워드프레스 추천테마 관련 포스트 - AVADA / JARIDA / SAHIFA / GOODNEWS