인공신경망1 강화학습 4 <인공신경망을 활용한 강화학습 - Deep SARSA> 지금까지 MDP로 정의된 문제를 푸는 방법 중 고전적 강화학습으로 분류되는 Dynamic Programming - Policy Iteration, Monte Carlo, Temporal Difference, SARSA, Q-learning 등을 배웠다. Dynamic Programming (이하 DP)은 환경의 state의 정보(Reward, Transition probability)를 알 때 Policy Iteration (이하 PI)을 사용해 state 별 상태가치함수, 행동가치 함수를 업데이트하고 정책을 업데이트하여 MDP를 푸는 방법이다. 이후 Monte Carlo (이하 MC), Temporal Difference (이하 TD), SARSA, Q-Learning 등은 환경의 state 정보를 모.. 2021. 12. 24. 이전 1 다음