본문 바로가기

논문 리뷰

[DiffAIL] DiffAIL : Diffusion Adversairal Imitation Learning 논문 리뷰

728x90
반응형

 

 

https://arxiv.org/abs/2312.06348

 

DiffAIL: Diffusion Adversarial Imitation Learning

Imitation learning aims to solve the problem of defining reward functions in real-world decision-making tasks. The current popular approach is the Adversarial Imitation Learning (AIL) framework, which matches expert state-action occupancy measures to obtai

arxiv.org

 

 

0. Abstract 

 

모방 학습의 목표는 실제 세계의 decision-making task에서의 보상 함수를 정의한 문제를 해결하는 것이다. 현재 가장 인기있는 접근 방식은 AIL(Adversarial Imitation Learning)이다. 이는 forward RL을 위한 대리 보상을 얻기 위해 전문가의 state-action을 매칭하는 것이다. 그러나 기존의 판별자(D)는 간단한 이진 분류기로 정확한 분포를 학습하지 않기 때문에 한계점을 가진다. 

해당 문제를 해결하기 위해 DiffAIL이 제안되었다. 이는 state-action 쌍을 unconditional diffusion model로 모델링하고, 판별자의 정확도를 향상하기 위해 diffusino loss를 판별자의 목적 함수 일부로 사용한다. 실험적으로 해당 제안 방식이 벤치마크 작업에서 전문가 데모를 크게 능가함을 보였다. 

 

 

1. Introduction

 

Deep Reinforcement Learning은 수많은 decision-making task에서 뛰어난 성능을 보여왔다. 알파고, 아타리 게임, 무조코 환경, 로봇 제어 등의 작업은 실제로 명료한 보상 함수를 가지고 있어 agent가 decision-making하기가 쉬운 편이다. 그러나 자율 주행과 같은 실제 세계에서의 보상 함수는 획득 및 정의가 어렵다.

Imitaion Learning의 등장은 접근 불가능한 보상 문제에 대한 현실적인 해결책을 제공한다. [1] 오래된 방식은 clone learning으로, 전문가 데이터로부터 지도 학습을 수행하는 것이다. 이들은 extrapolation erorr에 매우 취약하다. [2] 이를 완화하기 위해 전문가 정책에 접근하는 방식이 제안, 이는 agent가 온라인으로 환경과 상호작용, 전문가 정책으로 행동을 구하여 데이터셋을 확장하는 방식이다. [3] Adversarial Imitaion Learning은 expert policy와 agent policy 간의 발산을 최소화하는 방식이 아닌, 전문가 정책과 학습된 정책에 의해 유발된 공동 state-action 분포의 발산을 최소화한다. 

AIL에는 분포를 정확하게 학습하는 판별기(D)가 필요하다. 확산 모델은 강력한 분포 일치 능력을 갖추며 GAN과 같은 생성 모델들은 이미지 생성에서 높은 품질과 다양성을 갖춘 샘플을 생성한다. 해당 논문에서는 전통적인 AIL과 동일한 프레임워크를 사용하면서도 확산 모델을 도입하여 state-action distribution을 모델링한다. 

 

 

2. Preliminaries 

 

(1) Problem Setting

MDP(Markov Decision Process)는 튜플 형식으로 이루어진다. S는 상태 공간, A는 행동 공간, ρ0는 초기 상태 분포이다. P -> [0,1]은 state transition function(상태 전이 함수)이며 r은 보상 함수다. 또한 agent policy는 S -> A이며 π(a|s)로 나타낸다. 정책은 전이 (st, at, rt, st+1)을 생성한다. 강화학습의 목표는 누적되는 discount reward를 최대화하는 정책 π(a|s)를 학습하는 것이다. 

모방 학습에선 보상 신호에 접근할 수 없다. 대신 전문가 정책 πe에 의해 주어진 전문가 데모 D={(st,at)}k t=1에 접근할 수 있다. 모방 학습의 목표는 보상에 의존하지 않고 전문가 데모를 기반으로 πe를 복원할 수 있는 정책 π를 학습하는 것이다. 이는 오프라인에서만 학습하여 전문가 데모만 사용하거나, 환경과 상호작용하여 행동 정책에 의해 온라인으로 추가 학습하는 등의 방식이 있다. 

 

(2) Adversarial Imitation Learning

AIL은 상태-행동 분포를 최소화하는 최적의 정책을 찾는 것이다. 

 

 

dπe(s,a)는 πe의 상태-행동 분포를 나타내는 것이다. Df는 최소-최대 목표를 통한 임의의 거리 공식이며 gail의 경우 거리 행렬 Df를 적용한 JS divergence를 채택하였다. 아래는 JS divergence를 활용한 GAIL의 최소-최대 최적화 목표다. 

 

 

판별기 Dϕ는 expert demonstration과 학습된 정책으로부터 생성된 sample을 판별하기 위해 사용된다. 이는 전문가의 데이터에게 1을, 정책에서 생성된 데이터에게 0을 부여하는 전형적인 이진 분류다. 

 

 

log D, log(1-D)들은 대리 보상 함수로 사용될 수 있다. 이러한 대리 보상 함수들을 사용하여 모방학습은 정책 최적화를 위한 다른 forward RL 알고리즘과 결합될 수 있다. 그 예시로는 PPO, TRPO, TD3, SAC 등이 있다. 

 

(3) Diffusion Model 

확산 모델은 마르코프 체인을 사용하여 잠재 변수 모델을 잠재 공간으로 매핑하는 모델이다. forward 과정에서, 노이즈는 매 시간 스텝마다 데이터에 점진적으로 추가된다. t가 증가함에 따라 데이터는 순수한 표준 가우시안 노이즈가 된다. 

 

 

알파와 베타의 값을 조정함으로써 reparameterization trick을 통해 데이터 x를 직접적으로 샘플링한다. 

 

 

reverse 과정에선 순수 가우시안 노이즈에서부터 노이즈를 점진적으로 빼며 기존의 데이터로 복구한다. 

 

 

확산 모델은 모델의 예측된 분포의 log-likelihoodㄹ르 최대화하는 것으로, 이는 아래의 식과 같다. 

 

 

 

3. Method

 

 

(1) Diffusion over state-action pairs

xt= (si,ai)t에서 t는 확산 과정의 시간 스텝을 의미하며 i는 특정 상태 혹은 궤적의 행동에서의 시간을 의미한다. xt는 데이터에서 사용 가능한 상태-액션 쌍을 나타낸다. forward 과정을 아래와 같이 표현한다. 기존 확산 모델의 식과 동일하다.

 

 

그리고 reverse 과정은 아래와 같다. 이는 매개변수화된 확산 모델의 reverse 과정이다.

 

 

아래는 상태-행동 쌍에 대한 Diffuser로, DDPM의 함수와 동일한 구조로 모델링된다.

 

 

µ는 uniform distribution이고, ε는 표준 가우시안 노이즈 분포 N(0,I)를 따른다. 이 논문에서는 G에 확산 모델을 사용한 것이 아니라, D에 확산 모델을 사용했다. 또한 Mujoco 환경에서는 고성능의 샘플링 알고리즘이 필요없으므로 단순히 2020년도 DDPM의 알고리즘을 사용하였다. 

 

(2) Diffusion Adversarial Imitation Learning

확산 모델의 loss function을 AIL의 판별기(D)에 결합하자. 우선 GAIL의 목적 함수는 아래와 같다. 

 

 

ϕ에 의해 표현되는 Dϕ는 diffusion noise loss를 활용한 판별기이고, θ는 정책 네트워크다. 

 

 

확산 모델 loss를 훈련하는 것은 adversarial 과정이다. diffusion erorr는 expert πe로부터의 x를 최소화하고, policy πθ로부터의 샘플에서 생성된 x를 최대화한다. 또한 확산 보델 기반의 판별기(D)를 사용하여 대리 보상함수를 획득한다. 아래는 대리 보상 함수 식이다. 

 

 

 

4. Related work

 

(1) Adversaial Imitation Learning

생략, 논문을 한 번 후루룩 읽어보세요. 

 

(2) Diffusion Model with Reinforcement Learnig

Diffusion-BC(2023), Diffuser(Janner, 2022), Diffuser Decision(2022), BESO(2023), Diffusion Q(2022)

 

 

5. Experiments 

 

실험은 4가지를 중점으로 한다. [1] 인기있는 무조코 환경에서 상태-행동 및 상태만 설정에서 소량의 데모 데이터로 우수한 결과를 얻을 수 있을까? [2] 전문가 수준의 보지 않은 상태-행동 쌍에서 DiffAIL이 판별자의 성공적인 식별 능력의 일반화를 향상시킬 수 있을까? [3] 판별자와 비교하여 DiffAIL이 더 선형적 상고나관계를 가진 대리 보상을 제공할 수 있을까? [4] 환산 단계의 수가 모델 능력에 큰 영향을 미치는데 우리의 방법에서도 이 현상이 발생할까? 

 

 

 

6. Conclusion

 

내용 

 

 

(*) Appendices

 

내용

 

 

 

 

 

 

728x90
반응형