본문 바로가기

728x90
반응형

전체 글

생성모델(1) Denoising Diffusion Probabilistic Models(DDPM) 자, 아래에서부터 ddpm에 관한 논문 리뷰가 본격적으로 이루어질 것이다. 그 전에. 신우상 박사님의 세미나를 들은 이후, ddpm에 관해 그리고 생성모델에 관해 깊은 생각을 할 수 있었다. 관련된 생각을 정리해보자. learning이란? criterion을 가지로 거리를 정의하는 것이다. '우리가 대학교 전공을 얼마나 잘 이해하였는가'는 '대학교 시험 점수'라는 criterion(기준)으로 판단할 수 있다. 이처럼, learning을 할 때에는 기준 그리고 기준과의 거리에 대해 생각할 필요가 있다. manifold란 고차원 데이터를 저차원에서도 잘 표현하는 공간을 의미한다. 이를 좀 더 비유적으로 설명해보자. 확률과정 과목에서 배웠듯이 continuous space에서 one point의 확률(연속공간.. 더보기
컴퓨터구조(6) Processor : Pipelined Implementation 1. Introduction to memory hierarchy (1) Review Five classsic components of a computer는 아래와 같은 구조를 지닌다. Input, Output, Memory, Datapath, Control의 5가지 구성요소를 가진다. 참고로 Memory에는 [1] 실행되는 programs, [2] 프로그램 실행에 필요한 data가 보관된 저장 영역이다. 또한 Datapath와 Control을 합쳐서 Processor라고 부른다. (2) Locality 도서관을 예시로 들어보자. 영희가 도서관에서 책을 찾아가며 보고서를 쓸 때, 몇 권의 책을 가져왔다면 영희는 그 책들을 다시 볼 가능성이 높다. (temporal locality) 또한 해당 주제와 관련된.. 더보기
[SRPO] Score Regularized Policy Optimization through Diffusion Behavior 논문 리뷰 논문 : https://arxiv.org/abs/2310.07297 Score Regularized Policy Optimization through Diffusion Behavior Recent developments in offline reinforcement learning have uncovered the immense potential of diffusion modeling, which excels at representing heterogeneous behavior policies. However, sampling from diffusion policies is considerably slow because it necess arxiv.org 0. Abstract Offline RL 분야에서 .. 더보기
[SRPO : simul] Score Regularized Policy Optimization through Diffusion Behavior : simulation * In Linux, I can't use Korean Keyboard.. So I explain [how to do it] with English.. 해당 코드 링크 : https://github.com/thu-ml/SRPO wandb key is (3) 2. Simulation result (1) 코드 실행 결과 사진 (2) 코드 분석 model.py import numpy as np import torch import torch.nn as nn import torch.nn.functional as F # 'embed_dim' 차원의 가우시안 푸리에 투사를 수행 class GaussianFourierProjection(nn.Module): def __init__(self, embed_dim, scal.. 더보기
생성모델(5) conditional generation 1. conditional diffusion models y가 control하고 싶은 signal일 때 reverse를 통해 noise -> image로 가는 와중에 controllable generation을 목표로 할 수 있다. 주황색 term을 바로 못 구하기 때문에 베이즈룰을 사용하여 두 가지 term으로 나눈다. 왼쪽 노란색 term은 score function 그 자체가 되며, 오른쪽 초록 term은 y given x로 더 이상 score function과 상관 없이 별개로 학습된다. 알고리즘은 아래와 같다. score model을 통해 평균을 구하고, 여기다가 추가적으로 classifier의 gradient 값을 더하여 샘플링하면 그 class의 xt를 뽑아낼 수 있다. (s는 스케일링 지수.. 더보기
생성모델(4) Score-based generative models 1. Overview [1] 데이터 공간 상에서 임의의 랜덤한 노이즈(데이터)를 생성한다. [2] 확률 밀도 함수의 기울기를 계산 후, 확률 값이 높아지는 방향으로 데이터를 업데이트한다. [3] 확률값이 높은 곳에 도달하면 샘플링된 데이터와 유사한 데이터를 생성한다. 2. Score-based generative models score란 확률 밀도 함수의 미분이다. 즉, 입력 데이터 x에 대한 미분이다. 입력 데이터와 score의 dimension이 동일하다. [1] 데이터의 분포를 모르지만 Score만 알면 데이터 생성이 가능하다. [2] Score를 데이터로부터 추정한다. (score matching, training) [3] 추정된 score를 바탕으로 새로운 데이터를 sampling한다. (lan.. 더보기
수치해석(14) Splines and Piecewise Interpolation 1. Splines 주어진 데이터 포인트들을 통해 부드러운 곡선을 생성하는 방법이다. 함수나 곡선의 근사치를 구하거나, 주어진 데이터를 부드럽게 연결하는 데 사용된다. 보통 여러 개의 다항식 조각들로 이루어져 있으며, 각 조각은 인접한 데이터 포인트들을 연결하고 부드럽게 이어져야 한다. n개의 점 사이를 interpolation(보간)하기 위해 단일 (n-1)차 다항식을 사용하는 대안적인 접근법은 데이터 포인트의 부분 집합에 부분적인 방식으로 하위 다항식을 적용하는 것이다. 이러한 연결 다항식을 spline functi-on(스플라인 함수)라고 한다. 스플라인은 저차 특성으로 인해 진동을 최소화하고, roundoff error를 줄인다. 스플라인은 모든 점이 아닌, 간격마다 존재하는 점의 하위 집합을 사.. 더보기
수치해석(13) Polynomial Interpolation interpolation, 보간법이란 이산적으로 띄엄띄엄 주어진 데이터들을 적절한 곡선으로 이어서, 주어지지 않은 데이터 값을 가상으로 만들어주는 작업이다. 주어진 데이터를 모두 지나는 '근사 함수'를 구한다고 보자. 1. Polynomial Interpolation (1) Polynomial interpolation 정확한 데이터 지점 간의 중간 값을 추정하는 경우가 자주 발생한다. interpolate(보간)에 사용하는 함수는 실제 데이터 점을 통과해야 하므로 interpolation은 fitting보다 좀 더 제한적인 알고리즘이다. 가장 일반적인 방법은 n개의 데이터 포인트를 통과하는 (n-1)차 다항식을 해결하는 방법이다. Polynomial interpolation(다항식 보간)은 데이터 포인트.. 더보기

728x90
반응형