본문 바로가기

LAB/RL, IRL

GAIL

728x90
반응형

 

 

1. Human-Machine Interaction(HMI)

 

인간과 기계가 협동을 함에 있어서 사람의 의도를 파악하는 것은 중요한 문제다.

Task를 수행할 수 있도록 보상함수를 설계하는 과정이 사람의 의도를 반영하는 것과 같다. 

 

 

2. GAIL의 등장 배경

 

전문가는 보상함수로부터 얻어지는 보상을 최대로 하는 행동[최적 정책]만 한다고 가정한다. 

전문가의 행동을 최대의 보상으로 평가하는 보상함수를 찾으면? 그것이 전문가의 의도. 

IRL은 Reward function의 구조를 정의하고, weight를 업데이트한다. 

-> 보상함수가 선형조합이라고 가정하는 제한

 

 

3. GANs

 

생성 모델(G)과 식별 모델(D)로 구성.

두 모델이 적대적인 경쟁적 학습을 통해 실제와 유사한 데이터를 생성하는 것을 목표로 한다. 

(1) Generator : 위조지폐 생산 -> D를 속일만큼 Real과 유사하게 생산

(2) Discriminator : 실제 지폐와 위조지폐 구별 -> Real과 Fake 사이를 구분하는 기준 찾기

 

 

4. GAIL의 보상 함수

 

전통적인 강화학습해선, 사람이 수동으로 보상 함수를 설계하고 정희한다. 

(보상 함수는 학습 과정에 매우 중요한 역할을 수행하며, 알고리즘 성능에도 큰 영향을 미친다.)

그러나 수동 설계는 어렵고 복잡하다. 또한 보상 함수의 구조가 고정되어 있어 일반화에 제약이 있다.

GAIL은 신경망을 사용하여 보상 함수를 복원한다. 

즉, 구조적 제한 없이 보상 함수를 학습할 수 있다. 일반화, 적응성이 향상된다. 

 

 

5. 코드 실행

 

아직 ing 중이다. 우리가 코드에 손을 대야만 하는 오류여서 좀 더 고민이 필요하다. 다른 깃허브 파일을 찾아야할 듯.

https://ufubbd.tistory.com/147 

 

 

 

 

 

 

 

728x90
반응형