전통적인 강화학습은 특정 환경에서 Agent가 Action을 선택하고 Reward를 얻는 에피소드를 반복해가며 최적의 정책을 학습하는 것이다. 전통 강화학습 기법은 학습 초기 네트워크의 학습이 효과적으로 이루어지지 못하는 문제가 있다. 이로 인해 에피소드가 수천~수만번 수행되면서 학습 시간이 많이 소요된다. 특히, 데이터를 쌓아두고 네트워크를 학습하는 일반 딥러닝과 비교했을 때 소요되는 시간 차이가 굉장히 크다.
이를 개선하기 위해 Offline Reinforcement Learning 방식이 제안되고 있다. 이는 데이터를 구축한 후 네트워크를 초기 학습한다. 그리고 어느정도 학습 네트워크를 시뮬레이션 / 실제 환경에서 강화학습을 진행한다. 즉, 데이터로 네트워크를 어느정도 학습한 후, fine-tuning 목적으로 네트워크가 동작할 환경에서 전통 강화학습 방식으로 가중치를 업데이트 해나가는 방식이다. Offline Reinforcement Learning은 네트워크의 학습 초기 과정에서 발생하는 비효율 문제를 개선할 수 있어 학습 소요 시간이나 성능 면에서 이점이 있다고 주장한다.
반면, Offline Reinforcement Learning 또한 단점이 있는데, 선 학습에 사용되는 데이터와 시뮬레이터 환경 구성이 다른 경우 학습이 효과적으로 되지 않을 수 있다. 또한, 초기 학습 데이터를 구축하는데도 공수가 소요된다. Raw 데이터로부터 학습에 사용할 Good Reward의 데이터 추출, 데이터 전처리 등의 공수가 필요하다. 이 과정 또한 시간이 많이 소요될 수 있지만, 한번 구축만 하면 추가 공수 투입 없이 지속 사용 가능하다.
Offline RL에서도 결국 Reward 설계가 핵심이다. 초기 네트워크 학습에 사용되는 Good Data를 추출할 때 Reward를 사용하고 Fine tuning을 위한 Online RL에서도 Reward가 사용되기 때문이다.
'개념공부 > 강화학습(Reinforcement Learning)' 카테고리의 다른 글
강화학습 8 <Continuous Action Space에 적용가능한 DDPG> (0) | 2022.01.10 |
---|---|
강화학습 7 <REINFORCE 방식을 개선한 PG 방법인 Actor - Critic> (0) | 2021.12.31 |
강화학습6 <Q함수를 인공신경망으로 근사한 DQN> (2) | 2021.12.29 |
강화학습 5 <Policy-based RL의 시작 : REINFORCE> (0) | 2021.12.26 |
강화학습 4 <인공신경망을 활용한 강화학습 - Deep SARSA> (0) | 2021.12.24 |