본문 바로가기

728x90
반응형

전체 글

GAIL 1. Human-Machine Interaction(HMI) 인간과 기계가 협동을 함에 있어서 사람의 의도를 파악하는 것은 중요한 문제다. Task를 수행할 수 있도록 보상함수를 설계하는 과정이 사람의 의도를 반영하는 것과 같다. 2. GAIL의 등장 배경 전문가는 보상함수로부터 얻어지는 보상을 최대로 하는 행동[최적 정책]만 한다고 가정한다. 전문가의 행동을 최대의 보상으로 평가하는 보상함수를 찾으면? 그것이 전문가의 의도. IRL은 Reward function의 구조를 정의하고, weight를 업데이트한다. -> 보상함수가 선형조합이라고 가정하는 제한 3. GANs 생성 모델(G)과 식별 모델(D)로 구성. 두 모델이 적대적인 경쟁적 학습을 통해 실제와 유사한 데이터를 생성하는 것을 목표로 한다. (.. 더보기
DGAIL 코드 분석(DDPG.py) 본 코드는 DDPG(Deep Deterministic Policy Gradient) 알고리즘과 GAIL(Generative Adversarial Imitation Learning) 알고리즘을 조합하여, 강화학습을 수행하는 모델을 구현하였다. import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from utils import ExpertTraj device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") 1. Actor 클래스 class Actor(nn.Module): def __init__(self, state_dim, .. 더보기
Diffusion_Toy Simulation code 분석 드디어 코드 분석 시작! 바로 논문 코드를 분석하진 않았고, 쉬운 코드로 먼저 분석했다. 1. Package import & Device setting 딥러닝과 컴퓨터 비전 작업을 위한 다양한 라이브러리와 모듈을 가져오는 역할을 한다. 우선 PyTorch 라이브러리와 그 하위 모듈들을 가져오는 부분이다. 이에는 신경망 모듈('torch.nn'), 컴퓨터 비전 관련 모듈('torchvison'), 초기화 메소드('init'), 일반적인 연산에 대한 함수형 인터페이스('F') 등이 포함된다. 그 외에도 다양한 모듈을 활용한다. math 모듈은 연산을 수행한다. matplotlib.pyplot 모듈은 animation이라는 이름으로 가져오는데, 애니메이션을 생성한다. rotate 함수는 배열의 회전 변환을 수.. 더보기
[DDPM] Diffusion Models Beat GANs on Image Synthesis 논문 리뷰 Diffusion Model에 사용되는 아주 기본 공식들(여기를 클릭) 공부하기 전에 알아두면 좋은 DPM 기본 공식들 (여기를 클릭) Abstract diffusion model이 현재의 state-of-the-art generative model보다 우수한 [이미지 샘플 퀄리티]를 가진다. 일련의 절제(ablation)를 통해, 더 나은 아키텍처로 unconditional image synthesis을 수행한다. conditional image synthesis을 위해, 분류 지침을 통해, 샘플 품질을 추가적으로 개선한다. -> 분류 지침(clssifier guidance) : 분류기로부터 gradient를 사용하여, 다양성을 교환. 간단하고 효율적 방법 Diffusion Process 1) 원래의 .. 더보기
Generative Model(생성모델) generative model 주어진 학습 데이터를 학습하여 학습 데이터의 분포를 따르는 유사한 데이터를 생성하는 모델 -> 학습 데이터와 유사한 샘플을 뽑아햐 한다. -> 학습 데이터의 분포를 어느 정도 안 상태거나(Explicit) 잘 모름에도 생성(Implicit)함 -> 생성 모델에서 가장 중요한 것 : 학습 데이터의 분포를 학습하는 것 관측값 혹은 data sample x를 알 때, 이런 관측값이 가장 높은 확률로 나올 수 있는 모델 파라미터 θ 혹은 latent vaiable z를 찾는 것 generative model의 분류 큰 범주에서 generative model이 하고자 하는 것은 MLE의 원리를 바탕으로 학습하는 것 ! 어떤 식으로 likelihood를 다루느냐(근사를 할 것이냐 or.. 더보기
역강화학습(1) 역강화학습 기술 동향 1. 개념 정리 강화학습(RL) : 에이전트가 어떤 상태(state)에서 행동(action)을 수행할 때마다 그 성능에 대한 피드백을 제공하는 보상 함수(Reward function)이 주어진다. 이 보상 함수는 최적 정책(optimal policy)를 구하는데 이용된다. [ex] 게임 플레이 에이전트 생성을 위해 RL을 이용하는 경우, 플레이를 통해 얻게 되는 점수 or 승패 결과 or 플레이어 체력 등 에이전트 성능을 평가할 수 있는 보상 요소들이 주어진다. 이를 통해 최대 기대 보상을 획득할 수 있는 최적 정책이 계산된다. 이렇게 계산된 정책에 따라, 게임 플레이 에이전트는 주어진 상태에 대해 최적의 행동을 수행한다. 하지만, 실세계에서 특정 모델에 대한 보상 함수를 구하는 것은 매우 복잡한 문제다.. 더보기
VAE 아래의 세미나 내용과 같은 흐름, 같은 순서로 전개됩니다. 1. Abstract [VAE] 두 가지 contribution이 제시된다. 1) Variational lower bound의 reparametrization [standard stochastic gradient method] 2) lower bound estimator를 통해서 (data point당 연속적인 잠재변수를 갖는) i.i.d datasets에서의 posterior를 효과적으로 fitting할 수 있다. VAE는 생성 모델로써 존재한다. i.i.d datasets의 datapoint당 연속적인 잠재 변수를 갖는다. 따라서 잠재변수로 datapoint를 생성할 수 있고, datapoint로부터 잠재변수를 이끌어낼 수 있다. 2. Int.. 더보기
운영체제(12) Kernel Mode Programming & Device drive 1. Kernel mode and User mode (1) LMSW, SMSW : 현재 프로세서의 머신 상태 워드(machine status word)를 로드/ 저장. (2) MOV DBn, MOV CRn : 디버그 레지스터/ 컨트롤 레지스터를 이동. (3) LSL : 세그먼트 제한값(segment LImit)을 로드. (4) HLT : Halt, 프로세서를 중지. 실행 시 프로세서는 멈추고 대기 상태가 된다. -> 메모리의 모든 위치에 액세스, 수정할 수 있다. -> CPU 및 장치의 모든 레지스터에 액세스하고 수정할 수 있다. -> OS 커널 명령은 커널 모드에서 실행된다. -> CPU는 제한된 명령 집합을 사용한다. -> CPU는 (프로그램을 실행하는) 프로세스에 할당된 메모리 구역만 수정할 수 있.. 더보기

728x90
반응형