Deterministic Policy1 강화학습 8 <Continuous Action Space에 적용가능한 DDPG> 최근에 공부한 강화학습 방법은 DQN와 Actor-Critic이 었다. 이 두 방법은 각각 Q함수와 정책 경사를 선택한 방법이다. 그리고 이 두 방법 이후 제시된 방법은 DDPG이다. DDPG는 Deep Deterministic Policy Gradient의 약자이다. 이 방법은 두개의 특징을 가지고 있다. 1. Continuous Action Space (real-value) 에 적용 가능하다. 2. Deterministic Policy를 사용한다. 지금까지 적용한 강화학습 예제는 그리드월드와 같이 Action이 Discrete한 경우였다. 그런데 실제로 Action은 실수단위의 Continuous할 수 있다. 이 경우 Q함수나 Value Function을 학습시킬 수가 없다. Dimension이 거의.. 2022. 1. 10. 이전 1 다음