이동통신 대학원생

고정 헤더 영역

글 제목

메뉴 레이어

이동통신 대학원생

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (6)
    • AI (3)
    • 이동통신(LTE/5G) (2)
    • 반도체 설계 (1)

검색 레이어

이동통신 대학원생

검색 영역

컨텐츠 검색

강화학습

  • 몬테카를로 트리 서치 (Monte Carlo Tree Search)에 대한 정확한 정리

    2021.09.07 by 현민 

  • Dynamic Programming은 강화학습인가? 강화학습과 Model-based / Model-free

    2021.09.07 by 현민 

몬테카를로 트리 서치 (Monte Carlo Tree Search)에 대한 정확한 정리

※해당 포스팅은 제 네이버 블로그 https://blog.naver.com/gusals1620/222497438773에서도 확인하실 수 있습니다. 알파고를 통해 AI가 크게 화제가 되면서, 알파고에 사용된 몬테카를로 트리 서치 알고리즘도 화제가 되었습니다. 대학원 세미나를 준비하면서 많은 정보를 보았는데, 한글로 된 정보 중에는 깊은 내용을 다루고 있는 것은 없어서 아쉬움이 있었습니다. 그래서 무료 강의, 논문, 책을 통해 직접 조사를 거쳐 정리해보았습니다. 우선 몬테카를로 트리 서치(Monte Carlo Tree Search, 이하 MCTS)는 MDP(Markov Decision Process)를 해결하는 방법의 한 종류입니다. 알파고 덕분에 강화학습이 유명해져서, "강화학습은 MDP를 푸는 방법이다"..

AI 2021. 9. 7. 10:45

Dynamic Programming은 강화학습인가? 강화학습과 Model-based / Model-free

※해당 포스팅은 제 네이버 블로그 https://blog.naver.com/gusals1620/222488077108 에서도 확인하실 수 있습니다. 강화학습을 처음 공부할 때 Dynamic programming, TD method 등 다양한 방법론들을 배웠습니다. 처음에는 Dynamic Programming도 강화 학습의 한 종류인 것처럼 배웠는데요. 대학원에서 연구를 하며 강화학습에 대해 깊이 공부할 수록, Dynamic Programming은 과연 강화학습의 인가? 라는 의문이 들었습니다. 흔히 강화학습은 시간 순서에 따라 정의되는 문제인 Markov Decision Process(MDP)를 해결하기 위한 방법(method)이라고 하지만, 정확히 말하면 강화학습은 MDP를 해결하기 위한 method들..

AI 2021. 9. 7. 10:42

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
이동통신 대학원생 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바