reinforce1 강화학습 5 <Policy-based RL의 시작 : REINFORCE> MDP를 푸는 강화학습 방법은 'Value based RL'과 'Policy based RL'로 분류 가능하다. 'Value based RL'에는 바로 이전에 학습한 DeepSARSA, Table 저장 방식을 사용하고 환경을 모를 때 적용 가능한 SARSA, Q-Learning을 포함한다. 그 이유는 Value function(Q function 포함)을 기반으로 행동을 선택하고, 이를 업데이트 하면서 학습하기 때문이다. 금일 정리하는 내용은 'Policy-based RL'이라 지칭한다. 그 이유는 Policy를 학습하고 이를 기반으로 행동하기 때문이다. Policy라는 단어 의미와 이 문장이 잘 연결되지 않는데, 기존의 Value function 학습- 행동 결정 으로 이어지는 과정 전체를 인공신경망으.. 2021. 12. 26. 이전 1 다음