Offline Reinforcement Learning1 강화학습 9 <Offline Reinforcement Learning> 전통적인 강화학습은 특정 환경에서 Agent가 Action을 선택하고 Reward를 얻는 에피소드를 반복해가며 최적의 정책을 학습하는 것이다. 전통 강화학습 기법은 학습 초기 네트워크의 학습이 효과적으로 이루어지지 못하는 문제가 있다. 이로 인해 에피소드가 수천~수만번 수행되면서 학습 시간이 많이 소요된다. 특히, 데이터를 쌓아두고 네트워크를 학습하는 일반 딥러닝과 비교했을 때 소요되는 시간 차이가 굉장히 크다. 이를 개선하기 위해 Offline Reinforcement Learning 방식이 제안되고 있다. 이는 데이터를 구축한 후 네트워크를 초기 학습한다. 그리고 어느정도 학습 네트워크를 시뮬레이션 / 실제 환경에서 강화학습을 진행한다. 즉, 데이터로 네트워크를 어느정도 학습한 후, fine-tuni.. 2022. 12. 16. 이전 1 다음