DeepQNetwork1 강화학습6 <Q함수를 인공신경망으로 근사한 DQN> 특정 문제를 완벽히 풀어내는 해답이 생기면 연구는 중단된다. 하지만 문제를 제한적으로 풀어내는 해답이 지속 제시된다면, 개선된 방법이 지속적으로 연구된다. MDP 문제를 푸는 강화학습도 문제의 성격에 따라, 기존 답안 보다 더 좋은 방법들이 지속적으로 연구되어 왔다. MDP 문제 중 환경을 알 때 적용 가능한 Dynamic Programming, 환경을 모를 때 적용 가능한 Monte Carlo, Temporal Difference, SARSA, Q-Learning 등.. 그리고 현실의 많은 문제들이 state를 Table 형태로 표현이 불가능하기 때문에 (너무 많아서), 인공 신경망을 접목하는 방법들이 연구되어 왔다. 이전 글에서는 정책을 인공신경망으로 근사하는 REINFORCE 알고리즘을 정리했다. .. 2021. 12. 29. 이전 1 다음