DQN 설명 썸네일형 리스트형 강화학습(2) DQN, Double DQN, Deuling DQN DQN(2013) -> A2C, A3C(2016) -> DDPG(2015) -> PPO(2017) -> TD3, SAC(2018) 순서. 1. DQN (1) Deep Q-Learning 기존의 Q-learning은 state-action(s,a)에 해당하는 Q값을 테이블 형식으로 저장하여 학습한다. 상태 공간, 행동 공간이 커지게 되면 모든 Q값을 저장하기 어려워진다. (메모리 문제, 긴 탐험 시간 문제). Deep Q-Learning은 이를 딥러닝으로 해결한 알고리즘이다. Q-table에 해당하는 Q함수를 비선형 함수로 근사시키며, Q함수의 가중치 파라미터들을 θ로 표시하였다. 1. 파라미터를 초기화, 매 스텝마다 2~5를 반복한다. 2. Action at를 e-greedy 방식에 따라 선택한다. 3... 더보기 이전 1 다음