본문 바로가기

논문 리뷰

[DBC] Diffusion Model-augmented Behavioral Cloning 논문 리뷰-ing

728x90
반응형

 

 

https://arxiv.org/abs/2302.13335 

 

Diffusion Model-Augmented Behavioral Cloning

Imitation learning addresses the challenge of learning by observing an expert's demonstrations without access to reward signals from environments. Most existing imitation learning methods that do not require interacting with environments either model the e

arxiv.org

 

 

0. Abstract

 

모방 학습(Imitation learning)은 환경에 대한 보상 신호 없이, 전문가의 시연을 관측함으로써 학습한다. 대부분 기존의 모방 학습은 환경과의 상호작용을 필요로 하지 않기에 전문가 분포를 조건부 확률 p(a|s), 혹은 결합 확률 p(s,a)로 모델링한다. BC로 조건부 모델링하는 것은 간단하지만, 일반화가 어렵다. 결합 확률을 모델링하는 것은 일반화 성능을 향상시키지만, 시간이 오래 걸리고 모델이 manifold overfitting에 빠질 수 있다. 

이 연구는 전문가 분포의 조건부 확률, 결합 확률을 둘 다 모델링함으로써 이점을 얻는 모방학습 프레임워크를 제안한다. DBC(Diffusion model-augmented Behavioral Cloning)전문가 행동을 모델링하도록 훈련된 확산 모델을 이용하여, BC loss와 diffusion model loss를 둘 다 최적화하는 정책을 학습한다. 해당 알고리즘은 다양한 연속 제어 작업에서 기준선을 능가하였다. 

 

 

1. Introduction 

 

최근 로봇 제어를 위한 [1] DRL(Deep Reinforcement Learning) 프레임워크가 개발되고 있다. 이는 감지, 계획, 제어 알고리즘 설계의 과정을 자동화하여 로봇이 학습하도록 하는 것이다. 그러나 시행착오를 통해 로봇이 학습하는 것은 원하지 않는 행동으로 이어질 수 있으며, 이는 인간에게 위험한 행동을 초래할 수도 있다. 해당 문제를 극복하기 위해 [2] 모방 학습은 전문가 데모로부터 정책 학습하는 것을 목표로 한다. 이들 중에서도 AIL, IRL은 유망한 결과를 얻었다. 그러나 해당 방법들은 여전히 환경과 상호작용해야 한다는 점에서 비용이나 위험 요소가 들 수 있다. 반면 [3] BC(Behavior Cloning)는 환경과 상호작용할 필요가 없다. 해당 알고리즘은 모방 학습을 지도 학습 문제로 정의한다. 즉 전문가 데모 데이터셋이 주어지면, 정책은 (데이터셋에서 샘플링된) 상태를 입력으로 받아, 해당 전문가 동작을 복제하는 방법을 학습한다. 간단함과 훈련 안전성을 보이지만 훈련 중 관찰되지 않은 상태에 대한 일반화에 어려움을 겪는다. 

이 논문에선 이러한 단점을 보완하기 위해 전문가 상태-행동 쌍의 결합 확률인 p(s,a)를 생성 모델로 모델링할 것을 제안하였다. 결합 확률을 모델링하면 훈련 중 관찰되지 않은 데이터 포인트에 대해 더 잘 일반화할 수 있다. 그러나 학습된 결합 확률 모델 p(s,a)를 사용하려면 동작 샘플링 및 최적화가 필요하며, 이는 큰 행동 공간에서 비효율적일 수 있다. 게다가 결합 확률 모델링은 관찰된 고차원 데이터가 저차원 매니폴드에 존재할 때 앞서 언급한 manifold overfitting에 빠질 수 있다. 이를 방지하고자 결합 확률과 조건부 확률을 결합하였다. [1] 확산 모델을 사용하여 전문가 state-action 쌍을 모델링한다. 즉 확산 모델은 전문가 데이터셋에서 어떤 상태-동작 쌍이 샘플링될 지 가능성을 학습한다. [2] 학습된 확산 모델이 생성한 추정치와 BC 목적, 이 2가지를 최적화하는 정책을 학습한다. 

 

 

2. Related work 

 

BC, AIL 파트는 했던 말 반복이라서 생략.

IRL(Inverse Reinforcement learning)은 전문가 데모에 기반한 보상 함수를 추론하고, 추론된 보상 함수를 기반으로 정책을 학습한다. 이를 통해 보상 함수 명시가 어려운 태스크를 학습할 수 있다. 그러나 두 단계의 학습 과정으로 인해 계산 비용이 많이 들고, 시간이 오래 걸린다. 또한 전문가의 보상 함수(=대리 보상 함수)를 정확히 추정하는 것은 어려울 수 있다. 

Diffusion Policies, 최근 많은 연구에서 조건부 확산 모델을 사용한 모방 학습 프레임워크를 제안하였다. 이들은 상태 및 샘플링된 노이즈 벡터에 대한 예측된 동작을 생성한다. 그러나 본 논문에선 정책 표현의 목적이 아닌, 정책을 안내(guide)하는 학습 목적으로 확산 모델을 사용할 것이다.  

 

 

3. Preliminaries 

 

(1) Imitation Learning

내용

 

(2) Diffusion models

내용

 

 

4. Approach 

 

 

우리의 목표는 조건부 확률, 결합 확률의 이점을 모두 확용한 모방학습 프레임워크를 제시하는 것이다. 먼저 행동 복제(BC)를 사용하여 전문가 상태-행동 쌍에서부터 조건부 확률을 모델링한다. 다음으로 전문가 상태-행동 쌍의 결합 확률을 포착하기 위해 확산 모델을 사용한다. 확산 모델은 전문가 상태-행동 쌍 분포에서 어떤 쌍이 샘플링될 가능성을 추정하는 데 사용된다. 학습된 확산 모델에 의해 제공된 해당 추정값을 최적화하여, 정책 학습을 안내하도록 한다. 이로써 정책은 전문가 행동과 유사한 동작을 생성하게 된다. 마지막으로 BC 손실과 확산 모델 손실을 결합하는 프레임워크를 통해 전문가 행동의 조건부 확률과 결합 확률 모두를 모델링하여 이익을 취할 수 있는 정책을 학습한다. 

 

(1) Behavioral Cloning Loss

BC model은 지도 학습을 통해 전문가 행동을 모방하는 것을 목표로 한다. BC는 전문가 상태-행동 쌍의 조건부 확률 p(a|s)을 획득하는 방법을 학습한다. BC 정책은 아래 식과 같으며, 최적화를 통해 학습된다. 

 

 

d(',')는 두 행동 간 거리를 나타내는 측정값이다. 예를 들어 대부분의 연속 제어 작업에 대해 MSE(평균 제곱 오차) 손실인 ||a - a^||^2를 적용할 수 있다. 

 

(2) Learning a Diffusion Model and guiding policy learning

직접적으로 조건부 확률 p(a|s)를 학습하는 대신, 어떻게 결합 확률 p(s,a)를 확산 모델로 모델링하는지에 대해 논의할 것이다. 또한 학습된 확산 모델을 활용하여 어떻게 정책 학습을 안내할 지 소개할 것이다. 

[1] Learning a Diffusion Model, 전문가 상태-행동 쌍의 결합 확률을 확산 모델 ϕ로 모델링한다. 상태-행동 쌍의 연결 분포를 학습하기 위해 노이즈를 주입하여 DDPM을 학습한다. 최적화 과정은 아래처럼 정의된다. 

 

 

최적화된 후에 확산 모델은 전문가 분포를 완벽하게 예측하여 전문가 분포에서 샘플링된 상태-행동 쌍에 주입된 노이즈를 완벽하게 예측할 수 있게 된다. 

[2] Learning a policy with diffusion model loss, 전문가 데이터셋에서 훈련된 확산 모델은 추정된 diff loss를 생산한다. 이는 얼마나 상태-행동 쌍이 전문가 분포에 fit한 지를 가리키는 지표다. 정책 π는 아래의 식을 최적화하여 학습된다. 

 

 

직관적으로 정책 π는 ((확산 모델이 동일한 상태 집합을 기반으로 조건부로 하는) 전문가 행동 a와 구별 불가능한) 행동 a^를 예측하도록 학습한다. 

우리는 식 3을 최적화하여 정책을 학습하는 것이 불안정할 수 있다고 가정한다. 특히 확산 모델로 잘 모델링되지 않은 상태-행동 쌍에 대해 높은 Ldiff 값을 생성할 수 있다. 따라서 Lagent_diff를 Lexpert_diff로 정규화하는 것이 제안되었다. Lexpert_diff는 아래 식과 같이 계산될 수 있다. 

 

 

agent와 expert의 확산 손실 차이를 계산하여 확산 모델 손실 L_DM을 최적화하는 것을 제안한다. 

 

(3) Combining the two objectives

우리의 목표는 조건부 확률, 결합 확률을 모두 모델링하는데 이바지하는 정책을 학습한다. BC 손실을 최적화하는 BC 정책과 확산 모델 손실 L_DM을 결합하여 최적화하는 것을 제안한다. 

 

 

 

5. Experiments

 

내용

 

 

6. Conclusion

 

제안된 DBC는 모델 전문가 행동으로 훈련된 확산 모델, BC loss와 diffusion model loss를 둘다 최적화한다. 구체적으로, BC loss는 전문가 상태-행동 쌍으로부터 조건부 확률 p(a|s)을 획득한다. ...ing 

 

 

 

 

 

728x90
반응형