본문 바로가기

728x90
반응형

전체 글

[Diffusion Q-learning] Diffusion Policies As An Expressive Policy Class For Offline Reinforcement Learning 논문 리뷰 해당 논문 링크 : https://arxiv.org/abs/2208.06193 Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning Offline reinforcement learning (RL), which aims to learn an optimal policy using a previously collected static dataset, is an important paradigm of RL. Standard RL methods often perform poorly in this regime due to the function approximation errors on out- arxiv.org 해당 .. 더보기
[Diffusion Q-learning : modify] Diffusion Policies As An Expressive Policy Class For Offline Reinforcement Learning 논문 코드 modify 1. first try # Copyright 2022 Twitter, Inc and Zhendong Wang. # SPDX-License-Identifier: Apache-2.0 import argparse import gym import numpy as np import os import torch import json import glob import io import base64 from IPython.display import HTML from IPython import display as ipythondisplay from gym.wrappers.record_video import RecordVideo from pyvirtualdisplay import Display from xvfbwrappe.. 더보기
[PINN : simul] Physics-informed Neural Networks-basedModel Predictive Control for Multi-linkManipulators 논문 코드 시뮬레이션 논문 코드 : https://github.com/Jonas-Nicodemus/PINNs-based-MPC 1. Initial settings 가상 환경에 접속한다. 아래 코드를 수행. git clone git@github.com:Jonas-Nicodemus/PINNs-based-MPC cd PINNs-based-MPC pip install -r requirements.txt (1) first error https://gist.github.com/y56/0540d22a1db40dacc7fbbb93c866821e (2) second error my mistake ! hahaha pip install tensorflow pip install matplotlib pip install pyDOE python ma.. 더보기
[PICGAN] A Physics-Informed Generative Car-Following Model for Connected Autonomous Vehicles 논문 리뷰-ing 해당 논문 링크 : https://www.mdpi.com/1099-4300/25/7/1050 0. Abstract 이 논문은 혼합 교통 흐름 시나리오에서 다단계 자동차 추종 모델링(multi-step car-following modeling)을 향상시키기 위해 설계된 PICGAN(physics-informed conditional generative adversarial network)라는 새로운 하이브리드 자동차 추종 모델을 제안한다. 이 하이브리드 모델은 물리 기반 모델과 딥러닝 기반 모델의 장점을 모두 활용한다. PICGAN은 GAN의 고유 구조를 활용함으로써 기존 물리학 기반 및 데이터 기반 모델의 조합에 일반적으로 사용되는 명시적인 가중치 측정기가 필요없다. 제안된 모델의 효과는 NGSIM I-.. 더보기
[PINN] Physics-informed Neural Networks-based Model Predictive Control for Multi-link Manipulators 논문 리뷰 해당 논문 링크 : https://www.sciencedirect.com/science/article/pii/S2405896322013118 해당 논문 코드 : https://github.com/Jonas-Nicodemus/PINNs-based-MPC 0. Abstract 물리학 기반 머신러닝 방법을 통해 다물체 동역학에 대한 비선형 모델 예측 제어(MPC) 설명한다. 즉, 복잡한 기계 시스템인 multi-link manipulator의 tracking 문제를 해결하기 위해 PINNs 기반 MPC를 사용한다. PINNs는 (부분) 미분 방정식의 근사치를 구하는데 유용하지만, 가변 제어 동작이나 가변 초기값을 처리하도록 설계되지 않았기 때문에 원래 형태의 제어 작업에는 적합하지 않다. 따라서 우리는 [1].. 더보기
수치해석(8) Gauss Elimination & LU Factorization 1. Gauss Elimination Ax=b를 풀 것이다. 푸는 방법은 두 가지, [1] x = A\b로 풀거나 [2] x = inv(A)*b로 푸는 것이다. 두 번째의 경우, 행렬 A는 정방행렬이면서도 nonsingular를 만족해야 한다. (1) Graphical method (a)의 경우 no solution이고, (b)의 경우 무한한 해가 존재하며 (c)의 경우 roundoff error와 같은 ill-conditioned 상태다. (2) Determinants D = |A|는 nxn 행렬에 따라 아래와 같은 공식으로 풀면 된다. (3) Cramer's Rule 선형대수 방정식 체계에서 알려지지 않은 각각은 미지수 계수의 열을 상수 b1, b2, ... bn으로 대체함으로써 분모 D와 D에서 얻.. 더보기
수치해석(7) Linear Algebraic Equations and Matrices 1. Special Matrices m = n인 행렬을 정방행렬이라고 한다. 아래는 또다른 다양한 종류의 행렬들이다. 2. Matrix Operations (1) Matrix Multiplication 차원별로 각각 곱해서 더하고 ~~ 하면 된다. (2) Matrix Inverse and Transpose Matrix Inverse는 y = Ax에서 행렬 A가 [1] square matrix면서 [2] nonsingular이어야 한다. 매트랩에선 inv(A)를 사용한다. 다음으로 Matrix Transpose는 mxn이 nxm이 되는 것으로, 매트랩에선 A'라고 표현한다. 3. Representing Linear Algebra 매트랩은 다음의 방정식들을 행렬로 표현한다. 참고로 algebraic eqau.. 더보기
수치해석(6) Optimization 1. Optimization Optimization(최적화)는 하나 이상의 변수에 의존하는 함수의 최대치와 최소치를 찾는 것이다. Machine learning 역시 최적화 기술 중 하나다. f(x) = a1x15 + a2x24 + ... + b에서 AI는 학습으로 a1, a2, .. , b를 찾는다. 즉, Training(학습)은 함수의 수많은 파라미터의 값을 결정하는 과정으로, 학습 데이터를 사용하여 최적의 θ = { a1, a2, .. , b }를 구해야 한다. 학습의 목표는 Loss(오류)를 최소화하는 방향으로 이루어진다. 1차우너 문제에는 단일 종속 변수에 의존하는 함수가 포함된다. f(x)와 같은 예시가 있다. Multidimensional Optimization의 경우, 2개 이상의 종속 변.. 더보기

728x90
반응형