딥마인드 스2 ai프로젝트인 pysc2 sc2le등을 알아본 느낌 몇줄

서브 메뉴

로그인

스타2 정보

스타크래프트 II v5.0.14 패치 본서버 적용

스타크래프트 II 5.0.14 패치 노트

스타크래프트 II v5.0.13 패치 본서버 적용

스타크래프트 II 5.0.13 패치 노트

스타크래프트 II v5.0.12 패치 본서버 적용

추천 게시물

+3 추천 2024 GSL S2 Code S 결승전 결과 [1]

+3 추천 김동원 선수 소식

+3 추천 조성호 선수 소식

+4 추천 이병렬 선수 소식 [1]

+3 추천 ㅋㅋ

스타2 게시판

전체

Page. 416 / 84247 [내 메뉴에 추가]

작성자	power1028
작성일	2017-10-22 20:37:20 KST	조회	2,773
제목	딥마인드 스2 ai프로젝트인 pysc2 sc2le등을 알아본 느낌 몇줄

괸심있어서 유튜브랑 영웹좀 돌아봤는데 아직 뭔가 성과가 있는거 같지는 않음

학습된 영상들 보면 그냥 정찰없이 14파일런 15게이트 16가스 이런 기본적인것도 안함

14파일런 17게이트 20게이트 이런식으로 대충 2개 3개짓고

추적자만 인구수 안막히게 쭉쭉 뽑아서 (신기하게 인구수는 딱딱 뚫림)

공격을 감 (자원은 개남음)

근데 상대 역시 허접인지라 또 뚫림

그럼 가치망에 이 빌드로 +1승 추가되고 승리한 판으로써 그걸 학습하는거 같음....

여기서부터는 영상들을 본 뒤 제 상상입니다

기존에 알파고와 딥마인드가 플레이한 모든 게임은 서로가 게임에 대한 완전한 정보를 받을수 있는 완전정보게임임

상대가 있는 게임이건(바둑이나 체스) 없는 게임(벽돌깨기 같은)이건 이것은 동일함

이세돌의 한수에 대한 알파고의 한수는 완전 정보하에서 경험을 통해 얻은 가치망 분석을 통해 이루어짐

결국 상대가 1번 할때마다 1번의 가치판단을 통해 상대의 행동을 따라가는게 가능함

결국 초보적인 상태에서도 (저급하지만) 얼추 게임같은 게임, 바둑같은 바둑을 하긴 함

하지만 스타는 내가 뭐하는지만 알지 상대가 뭐하는지는 모름

이 상황에서 알파고는 내가 뭘 할지에 대해서만 계속 시뮬레이션 할것임

일꾼 일시키고 일꾼 1개 찍고 파일런 건설하고 바로 게이트 짓고 1가스 같은 노정찰로도 해야하는 기본적 빌드까지는 시간문제로 학습할거라고 봄

하지만 첫 정찰부터 문제가 생김

일단 정찰이라는 행동 자체를 안함

정찰이라는 일을 안하는 "비생산적인 잡무"를 발견하지 못한것일수도 있고 정찰을 진짜 낭비라고 생각한것일수도 있겠지만 아무튼 안함

이걸 정찰시키기 위해선 정찰이 노정찰보다 낫다는것을 가치망이 인식해야하는데 초보 ai가 보내는 저급한 정찰은 상대가 보급고 배럭 가스 가스인것을 봐도 이게 뭘 의미하는지 모름

보급고 가스 배럭 사령부랑 차이도 모를것임 (브론즈의 위치확인 전용 정찰과 비슷)

여기서 사람은 다른사람들이 다 정찰하니까 나도 해야되겠지 하고 이기던 지던 계속 보냄

하지만 Ai는 정찰가도 도움 하나도안되고 미네랄만 못캐더라 하고 가치망에서 점수가 깎일거임

그럼 이 ai는 이제 정찰을 안보내고 계속 내정만 해서 병력찍고 손가는 타이밍에 최적화해서 공격, 승부내는것만 학습할거임

여기서 승률이 높은게 제1 가치를 가진 빌드가 됨

이게 막히고 뚫리고 하다보면 지긴 지는데 ai는 왜 지는지 모르기 때문에 여기서 더 발전이 없음

지금 영상들은 이 상태가 굉장히 빨리온듯 함 (미네랄 1000남기는 추적자 2줄 공격빌드)

이걸 깨고 더 발전하려면 추적자 하나하나에 영혼을 담는 방법이 있음 (스크립트 ai마냥 손빠르기로 승부)

이러면 이제 "ai는 손만 빠르고 게임은 노잼으로 하더라" 이런식으로 되서 쇼매치가 이루어지기는 힘들거임

반대로

제대로 성장하려면 허접ai가 가치망 바닥에 쳐박아놓은 "정찰"을 재발견해서 상대의 abcdef를 나의 bcdefg로 맞받아치는 플레이를 해야하는데 이걸 학습하기는 정말 힘들거같음

기존방식대로 1수에 1수씩 a에 b를 받아치는식으로 할수가 없고

한번에 내 돌 하나를 희생해서 1수부터 15수까지 정찰되고

한참 있다가 다시 내 돌죽여서 16수부터 33수까지 보여주는 바둑이라고 생각하면 그럴듯 한가

심지어 16부터 33까지 정찰할려고 했는데 22부터 27까지는 불의의 사고로 못보는 경우가 있을수도 있다는거

문제는 상대가 뭐하는지 안 다음 하나씩 따라붙으면 이미 늦기 때문에 상대의 플레이를 예측해서 동일타이밍에 계속 카운터 수 내지 정석 수를 두어 나가야함

초보를 탈출하려면 이 "추리능력"이 중요해지는건데 이걸 기존의 완전정보게임 학습 ai가 잘 할수 있을지 모르겠음

결국 추리능력또한 모든경우의 수를 다 겪어보고 1대1 대응하는 기존방식으로 해결해야한다는건데 (정찰결과 asdf???k 인경우 ???가 ghj일 가능성이 10만판중 7만6천판/ 카운터로 bcdefgh를 썼을시 5만7천판 승리)

정찰주기에 따라 입력되는 정보량이 너무 광범위하고 폭넓어서 학습하는데 바둑보다 훨씬 많은 판수가 필요할거로 보임

게임을 이길때마다 mmr+1점씩 높은 상대로 바꿔주는 방식으로 배양한다 치면 mmr 3400선에서 느린 추적자 2줄빌드는 100전 승률 0퍼센트로 깨져셔 가치망 바닥에 쳐박히고 마찬가지로 광전사 2줄빌드 사도 2줄빌드 또한 바닥에 박혔을때 비로소 정찰이라는 저가치 행동을 꺼내들고 완전랜덤으로 빌드를 재구상해서 자연스럽게 (스타2에 국한되는) 추리능력을 배양하고 3400선을 다시 뚫는데 수만판은 걸릴거같음

이렇게 뚫어내도 3700선 4200선 계속 난관에 부딛히고 랜덤으로 모든 경우의수를 학습...

이런 무식한 방식으로7000까지 올리는게 가능한지도 의문이고 배속으로 돌려도 소모되는 시간이 초당 몇판씩 두는 ai바둑에 비해 너무 오래걸리기때문에 포기할수도 있을거라는 생각을 했음

요약하자면

1.현재 딥마인드 ai수준은 매우 저급함

2.아직도 정찰을 이해하지 못함

3.시행착오를 겪어서 정찰을 이해하더라도 정찰내용으로 내 빌드를 만들어나가는건 다른문제임

4.ai대 ai로 한판 돌리는데도 시간이 바둑보다 오지게 오래걸림

5.한판에서 배우는 속도또한 바둑보다 오지게 느림

현 방식으로는 수년안에 mmr 7000급의 ai가 나올수 있는지 의문

아는까마귀 (2017-10-22 20:56:17 KST)

사람이 학습 방식의 개요를 짜주는 게 아니라 맨땅에 헤딩하는 거였네

tererere (2017-10-22 21:12:26 KST)

정찰을 위한 동기부여가 되긴 될련지 모르겠음.

zhuderkov (2017-10-22 21:30:10 KST)

AI도 리플레이 돌려주면 뭐 학습하려나...

헤일로워즈 (2017-10-22 23:10:24 KST)

저는 이 의견에 공감이 안되는게... 저도 머신러닝을 좀 배운사람으로써

"원래 초기 학습진행도는 개판중 개판임" 머신러닝 상승곡선은 지수함수 e를 따라 증가하는편임.

그 꺾어지는 경계선만 넘으면 사람이 생각지도 못하는 변수를 창출해낼거임.

멀리갈것도 없이, 알파고의 바둑을 인간이 분석하고 배우고 따라가게 되었음.

이건 인간이기에 가진 한계이고, 스2도 크게 다를게 없음. 완전공유정보를 기준으로 학습이 불완전 정보를 기준으로 학습하는것보다 결과판단이 더 빠를진 몰라도, 그 많은 경우의수를 계산하는것 역시 못지않게 시간이 많이 들어갔던 부분임.

영상을 보니 오히려 "벌써 이기는 방법을 배우는 단계까지 진입했구나" 하는 생각이 듬. 사실 처음 기대한건 "이 로봇이 유닛움직이는 의미가 뭔지는 알까?" 였음.

헤일로워즈 (2017-10-22 23:13:29 KST)

물론 뭐 기계학습이란게 순수하게 대전을 통해서 경험만으로 배우는게 아니라, 강화학습, 지도학습 등의 밑바탕이 같이 들어가면서 배우는거라 초기가 빠르게 스타트한거일수도 있음.

AzureP (2017-10-23 00:00:13 KST)

ㄴ기계학습 배웠다는 분이면 현재의 LSTM, GRU, Wavenet 등은 아무리 길고 깊게 연결해도 아직 long term memory를 충분한 수준으로 길게 유지하지 못한다는거 알고 계시겠네요. 기껏해야 어텐션까지 동원해서 기계번역 몇문장 하는 수준임.

그런데 스타는 내가 알고 있는 상대의 과거 행보로부터 내가 뭘 해야할지랄 판단해야 하는 게임이라 long term memory가 필수적입니다. 아직 멀었어요. 나중에 어느 정도 수준의 네트워크가 나온다고 하더라도, 그건 현재 알려진 구조는 확실하게 아닐겁니다. 그래서 스타가 주목받는거고 아직 딥러닝은 스타를 극복하기에는 멀었어요