본문 바로가기

728x90
반응형

전체 글

[DBC] Diffusion Model-augmented Behavioral Cloning 논문 리뷰-ing https://arxiv.org/abs/2302.13335 Diffusion Model-Augmented Behavioral Cloning Imitation learning addresses the challenge of learning by observing an expert's demonstrations without access to reward signals from environments. Most existing imitation learning methods that do not require interacting with environments either model the e arxiv.org 0. Abstract 모방 학습(Imitation learning)은 환경에 대한 보상 신호 없.. 더보기
강화학습(1) 강화 학습 개념 정리 https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html 0. 기계학습 데이터에서 특성을 추출하고, 이를 기반으로 모델을 학습하여 예측, 분류, 군집화 등의 작업을 수행한다. [1] 표현자(representation) : 데이터의 특성을 선택 및 유도하여 유효성을 확인한다. [2] 평가(evaluation) : 구축한 모델의 정확도를 나타낸다. [3] 최적화(optimization) : 실제 모델을 만들 때 필요한 방법, 학습 과정에 대응한다. 최적화를 이루기 위해서는 목적 함수를 정의해야 한다. 목적 함수는 보통 실측값과, 예측치의 차이들을 모두 제곱해서 더한 것으로 정의된다. 1. 강화학습 (1) agent of RL 강화학습의 agent(.. 더보기
[DiffAIL] DiffAIL : Diffusion Adversairal Imitation Learning 논문 리뷰 https://arxiv.org/abs/2312.06348 DiffAIL: Diffusion Adversarial Imitation Learning Imitation learning aims to solve the problem of defining reward functions in real-world decision-making tasks. The current popular approach is the Adversarial Imitation Learning (AIL) framework, which matches expert state-action occupancy measures to obtai arxiv.org 0. Abstract 모방 학습의 목표는 실제 세계의 decision-making ta.. 더보기
딥러닝(3) 파이썬, 텐서플로 : 코드 위주 1. 텐서플로(TensorFlow) 데이터 플로우 그래프를 사용해 수치 연산을 하는 오픈 소스 소프트웨어 라이브러리다. 머신 러닝, 특히 딥러닝 연구를 목적으로 구글의 브레인 팀에 의해 개발되었다. 그래프의 노드(Node)는 수치 연산을, 그래프의 에지(Edge)는 노드 사이를 이동하는 다차원 데이터 배열(Tensor)을 의미한다. (1) 파이토치 (pytorch) 현재 논문에서 가장 많이 사용하는 딥러닝 프레임워크다. 파이썬 본래의 코드와 유사해 직관적이라는 장점이 있다. 동적 계산 그래프를 사용한다. 즉 변수를 호출할 때 그래프를 만들어가며 사용한다. 중간에 변수의 값을 바꿀 수 있다. (2) 텐서플로 (tensorflow) 구글에서 공개한 프레임워크, 다양한 플랫폼에서 이용할 수 있다. 케라스를 고.. 더보기
딥러닝(2) 인공신경망의 구조와 연산 : 이론 위주 0. 딥러닝의 역사 1956년 스스로 학습하는 인공 신경망인 '퍼셉트론'이 등장했다. 퍼셉트론은 입력 데이터가 들어오면 가중치와 곱해서 가중 합산을 하며, 그 결과가 0보다 크면 1을 출력하고 그렇지 않으면 0을 출력한다. 가중 합산과 step function을 순차적으로 실행하는데, 이때 계단 함수가 퍼셉트론의 활성 여부를 결정하므로 이를 활성 함수(activation function)이라고 부른다. 퍼셉트론의 한계로 인해 다층 퍼셉트론의 필요성과 동시에 인공 신경망 연구의 침체기가 도달했다. 1974년 다층 퍼셈트론을 학습시킬 수 있는 '역전파 알고리즘'이 제안되었다. 이는 일반적인 그래프 형태의 네트워크에서 작동하며, 신경망의 뉴런에 분산된 파라미터의 미분을 효율적으로 계산하기 위한 알고리즘이다. .. 더보기
딥러닝(1) 인공지능의 분류, 지도 학습 구현 기법 1. 인공지능 인공지능이란 사람처럼 생각, 추론, 학습할 수 있는 지능 시스템을 말한다. 머신러닝이란 인공지능의 하위 분야로 기계가 스스로 학습하여 지능을 습득하는 기술이다. 일반적인 알고리즘은 규칙에 따라 행동하는 반면, 머신러닝은 '데이터'로부터 학습, 훈련을 통해 스스로 규칙을 찾는 셈이다. 딥러닝은 머신러닝의 하위 분야로, 인공 신경망을 사용하는 경우를 말한다. (1) 특징(Feature) 생성된 데이터(샘플)의 특징을 통해 머신러닝을 수행한다. 특징이란 어떤 물체를 구분할 수 있는 적절한 정보다. 머신러닝에서는 이렇게 취득한 정보를 통해 학습, 결과를 도출한다. (2) 분류(classification) 대표적인 머신러닝은 분류 문제다. 클래스(class)에 맞게 분류하는 것을 의미하며, 둘 중 .. 더보기
생성모델(3) Denoising Diffusion Implicit Models(DDIM) 1. DDIM (1) from DDPM DDPM은 퀄리티가 좋으며, 다양한 이미지를 생성한다. 데이터의 분포 q(x0)가 주어질 때 모델 분포 pθ(x0)가 q(x0)를 근사하도록 학습한다. 또한 파라미터 θ는 variational lower bound를 최대화시키는 방향으로 학습된다. (x1:T|x0)는 잠재 변수에 대한 inference distribution이며, DDPM은 q(x1:T|x0)을 고정시키고 학습을 진행한다. 또한 감소 수열 α1:T∈(0,1]^T로 매개변수화된 Gaussian transition이 있는 다음의 Markov chain을 사용한다. 그러나 DDPM은 sampling 속도가 비교적 느려, 생성 속도가 더딘 편이다. Diffusion model의 생성 속도를 개선하기 위한 .. 더보기
생성모델(2) Neural ODE input space가 연속적/이산적인 것에 대해서는 많이 다뤘다. model space가 연속적/이산적인지를 알아보자. 1. ODE (1) ODE 딥러닝이란 알려지지 않은 unknown function f를 찾아가는 과정이다. 그 과정에서 y- f(x) = error(loss)를 구해 function을 업데이트한다. 최적화 f(x)를 구하는 매우 직접적인 방식이다. neural ODE 역시 함수 f(x)를 찾아가겠다는 목적은 동일하다. 그러나 다른 접근으로 찾아간다. DE(Differential Equation)은 미분한 도함수를 포함하는 방정식이다. ODE(Ordinary DE, 상미분 방정식)는 미분하는 변수가 하나인 경우를 말한다. (2) 미분방정식 ODE를 인공신경망에 가져온 이유는? seque.. 더보기

728x90
반응형