작성자 | power1028 | ||
---|---|---|---|
작성일 | 2017-10-22 20:37:20 KST | 조회 | 2,773 |
제목 |
딥마인드 스2 ai프로젝트인 pysc2 sc2le등을 알아본 느낌 몇줄
|
괸심있어서 유튜브랑 영웹좀 돌아봤는데 아직 뭔가 성과가 있는거 같지는 않음
학습된 영상들 보면 그냥 정찰없이 14파일런 15게이트 16가스 이런 기본적인것도 안함
14파일런 17게이트 20게이트 이런식으로 대충 2개 3개짓고
추적자만 인구수 안막히게 쭉쭉 뽑아서 (신기하게 인구수는 딱딱 뚫림)
공격을 감 (자원은 개남음)
근데 상대 역시 허접인지라 또 뚫림
그럼 가치망에 이 빌드로 +1승 추가되고 승리한 판으로써 그걸 학습하는거 같음....
여기서부터는 영상들을 본 뒤 제 상상입니다
기존에 알파고와 딥마인드가 플레이한 모든 게임은 서로가 게임에 대한 완전한 정보를 받을수 있는 완전정보게임임
상대가 있는 게임이건(바둑이나 체스) 없는 게임(벽돌깨기 같은)이건 이것은 동일함
이세돌의 한수에 대한 알파고의 한수는 완전 정보하에서 경험을 통해 얻은 가치망 분석을 통해 이루어짐
결국 상대가 1번 할때마다 1번의 가치판단을 통해 상대의 행동을 따라가는게 가능함
결국 초보적인 상태에서도 (저급하지만) 얼추 게임같은 게임, 바둑같은 바둑을 하긴 함
하지만 스타는 내가 뭐하는지만 알지 상대가 뭐하는지는 모름
이 상황에서 알파고는 내가 뭘 할지에 대해서만 계속 시뮬레이션 할것임
일꾼 일시키고 일꾼 1개 찍고 파일런 건설하고 바로 게이트 짓고 1가스 같은 노정찰로도 해야하는 기본적 빌드까지는 시간문제로 학습할거라고 봄
하지만 첫 정찰부터 문제가 생김
일단 정찰이라는 행동 자체를 안함
정찰이라는 일을 안하는 "비생산적인 잡무"를 발견하지 못한것일수도 있고 정찰을 진짜 낭비라고 생각한것일수도 있겠지만 아무튼 안함
이걸 정찰시키기 위해선 정찰이 노정찰보다 낫다는것을 가치망이 인식해야하는데 초보 ai가 보내는 저급한 정찰은 상대가 보급고 배럭 가스 가스인것을 봐도 이게 뭘 의미하는지 모름
보급고 가스 배럭 사령부랑 차이도 모를것임 (브론즈의 위치확인 전용 정찰과 비슷)
여기서 사람은 다른사람들이 다 정찰하니까 나도 해야되겠지 하고 이기던 지던 계속 보냄
하지만 Ai는 정찰가도 도움 하나도안되고 미네랄만 못캐더라 하고 가치망에서 점수가 깎일거임
그럼 이 ai는 이제 정찰을 안보내고 계속 내정만 해서 병력찍고 손가는 타이밍에 최적화해서 공격, 승부내는것만 학습할거임
여기서 승률이 높은게 제1 가치를 가진 빌드가 됨
이게 막히고 뚫리고 하다보면 지긴 지는데 ai는 왜 지는지 모르기 때문에 여기서 더 발전이 없음
지금 영상들은 이 상태가 굉장히 빨리온듯 함 (미네랄 1000남기는 추적자 2줄 공격빌드)
이걸 깨고 더 발전하려면 추적자 하나하나에 영혼을 담는 방법이 있음 (스크립트 ai마냥 손빠르기로 승부)
이러면 이제 "ai는 손만 빠르고 게임은 노잼으로 하더라" 이런식으로 되서 쇼매치가 이루어지기는 힘들거임
반대로
제대로 성장하려면 허접ai가 가치망 바닥에 쳐박아놓은 "정찰"을 재발견해서 상대의 abcdef를 나의 bcdefg로 맞받아치는 플레이를 해야하는데 이걸 학습하기는 정말 힘들거같음
기존방식대로 1수에 1수씩 a에 b를 받아치는식으로 할수가 없고
한번에 내 돌 하나를 희생해서 1수부터 15수까지 정찰되고
한참 있다가 다시 내 돌죽여서 16수부터 33수까지 보여주는 바둑이라고 생각하면 그럴듯 한가
심지어 16부터 33까지 정찰할려고 했는데 22부터 27까지는 불의의 사고로 못보는 경우가 있을수도 있다는거
문제는 상대가 뭐하는지 안 다음 하나씩 따라붙으면 이미 늦기 때문에 상대의 플레이를 예측해서 동일타이밍에 계속 카운터 수 내지 정석 수를 두어 나가야함
초보를 탈출하려면 이 "추리능력"이 중요해지는건데 이걸 기존의 완전정보게임 학습 ai가 잘 할수 있을지 모르겠음
결국 추리능력또한 모든경우의 수를 다 겪어보고 1대1 대응하는 기존방식으로 해결해야한다는건데 (정찰결과 asdf???k 인경우 ???가 ghj일 가능성이 10만판중 7만6천판/ 카운터로 bcdefgh를 썼을시 5만7천판 승리)
정찰주기에 따라 입력되는 정보량이 너무 광범위하고 폭넓어서 학습하는데 바둑보다 훨씬 많은 판수가 필요할거로 보임
게임을 이길때마다 mmr+1점씩 높은 상대로 바꿔주는 방식으로 배양한다 치면 mmr 3400선에서 느린 추적자 2줄빌드는 100전 승률 0퍼센트로 깨져셔 가치망 바닥에 쳐박히고 마찬가지로 광전사 2줄빌드 사도 2줄빌드 또한 바닥에 박혔을때 비로소 정찰이라는 저가치 행동을 꺼내들고 완전랜덤으로 빌드를 재구상해서 자연스럽게 (스타2에 국한되는) 추리능력을 배양하고 3400선을 다시 뚫는데 수만판은 걸릴거같음
이렇게 뚫어내도 3700선 4200선 계속 난관에 부딛히고 랜덤으로 모든 경우의수를 학습...
이런 무식한 방식으로7000까지 올리는게 가능한지도 의문이고 배속으로 돌려도 소모되는 시간이 초당 몇판씩 두는 ai바둑에 비해 너무 오래걸리기때문에 포기할수도 있을거라는 생각을 했음
요약하자면
1.현재 딥마인드 ai수준은 매우 저급함
2.아직도 정찰을 이해하지 못함
3.시행착오를 겪어서 정찰을 이해하더라도 정찰내용으로 내 빌드를 만들어나가는건 다른문제임
4.ai대 ai로 한판 돌리는데도 시간이 바둑보다 오지게 오래걸림
5.한판에서 배우는 속도또한 바둑보다 오지게 느림
현 방식으로는 수년안에 mmr 7000급의 ai가 나올수 있는지 의문
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
© PlayXP Inc. All Rights Reserved.