역강화학습 썸네일형 리스트형 GAIL 1. Human-Machine Interaction(HMI) 인간과 기계가 협동을 함에 있어서 사람의 의도를 파악하는 것은 중요한 문제다. Task를 수행할 수 있도록 보상함수를 설계하는 과정이 사람의 의도를 반영하는 것과 같다. 2. GAIL의 등장 배경 전문가는 보상함수로부터 얻어지는 보상을 최대로 하는 행동[최적 정책]만 한다고 가정한다. 전문가의 행동을 최대의 보상으로 평가하는 보상함수를 찾으면? 그것이 전문가의 의도. IRL은 Reward function의 구조를 정의하고, weight를 업데이트한다. -> 보상함수가 선형조합이라고 가정하는 제한 3. GANs 생성 모델(G)과 식별 모델(D)로 구성. 두 모델이 적대적인 경쟁적 학습을 통해 실제와 유사한 데이터를 생성하는 것을 목표로 한다. (.. 더보기 이전 1 다음