본문 바로가기

728x90
반응형

전체 글

[Day Dreamer] Day Dreamer : World Models for Physical Robot Learning 논문 리뷰 해당 논문 링크 : https://arxiv.org/abs/2206.14176 DayDreamer: World Models for Physical Robot Learning To solve tasks in complex environments, robots need to learn from experience. Deep reinforcement learning is a common approach to robot learning but requires a large amount of trial and error to learn, limiting its deployment in the physical world. As a co arxiv.org 0. Abstract (1) 개요 선배로부터 과제를 할당받았다.. 더보기
제어 이론(10) 관측기[Observer] 1. observer 외부의 output(상태변수) 1개만 가지고, 나머지 state를 모두 추정하는 것. 상태 피드백 제어를 하기 위해선 모든 state에 대한 정보가 필요하다. 일부 state를 구할 수 없는 경우, 우리는 Estimate(추정)을 해야한다. Observer는 이를 도와준다. Observility(observer가 가능한 조건)를 만족한다면, observer를 사용할 수 있다. 2. Observility full rank 상태가 되어야 한다. 3. observer의 block diagram (1) 제일 위 블록 : 실제 시스템, 입력 u에 따른 실제 시스템의 거동 (2) 그 아래 블록 : extimate(추정)한 것, 추정된 시스템의 거동 우리가 피드백 받아야 하는 것은 추정된 시스템.. 더보기
[World Models] World Models 논문 리뷰 해당 논문 링크 : https://arxiv.org/abs/1803.10122 World Models We explore building generative neural network models of popular reinforcement learning environments. Our world model can be trained quickly in an unsupervised manner to learn a compressed spatial and temporal representation of the environment. By using fea arxiv.org 0. Abstract 널리 사용되는 강화 학습 환경의 생성 신경망 모델을 구축하는 방법을 살펴보자. 월드 모델은 비지도 방식으로 빠르.. 더보기
지능제어(1) Introduction 1. Fuzzy theorem 지금까지의 집합(crisp set)은 어느 원소가 집합에 속하는지 아닌지에 대해 확실히 알 수 있다. 그러나 일상에선, 많은 집합들은 구성 요소의 기준이 명확하지 않다. 예를 들어 방 안 온도에 대해 생각해보자. 22도일 때 시원하다고 한다면, 22.1도는 시원하지 않은 것인가? 22도일 때는 시원함의 정도가 10, 26도일 때는 시원함의 정도가 5와 같은 느낌으로 정도를 표현할 수 있다면? 좀 더 납득 가는 결과를 얻을 것이다. 퍼지 집합이란 어떤 원소가 그 집합에 속한 정도까지 나타내는 것을 말한다. 퍼지 이론은 애매모호한 인간의 언어를 컴퓨터 언어로 표현하고자 한 이론이다. (1) Crisp set and Fuzzy set (2) Membership Function 퍼.. 더보기
지능제어(2) 임시 1. Review 퍼지 시스템이란? 입력과 출력이 있는 함수. (1) 퍼지는 '학습'에 이용된다. -> parameter를 업데이트함으로써 이루어진다. (2) 퍼지를 '예측'에 이용할 수 있다. -> 함수를 안다는 것은, 예측을 한다는 것. Data를 가지고 퍼지를 만든다. 이걸 어떻게 구현할 수 있을까. 이것들에 대해 고민해보자. data들이 있다. 이를 가지고 함수를 만들어, 이 함수를 또다른 상황에 적용하여 '의도'에 맞는 결론을 도출하는 것이다. 2. Fuzzy Relations and the Extension Principle 퍼지 관계(Fuzzy relation)란, 수학에서 통상적으로 사용하는 '관계'라는 개념을 퍼지화한 것이다. 예를 들어 'A와 B가 사이가 좋다' 혹은 'A가 B보다 소극.. 더보기
지능제어(2-1) Homework code1 - Truck Backer-Upper Control 1. 문제 Backing up a truck to a loading dock is a nonlinear control problem. Using conventional control approach. We can first develop a mathematical model of the system and then design a controller based on nonlinear control theory. (1) The simulated truck and loading zone are shown in Fig. 12.4. The truck position is determined by three state variables 𝜙, x and y, where 𝜙 is the angle of the tru.. 더보기
지능제어(2-2) Homework code1 - sin func as input 1. 문제 (Question) 입력 값이 sin함수일 경우, 어떻게 할 것인가. 2. 코드 import numpy as np import skfuzzy as fuzz import matplotlib.pyplot as plt # 범위 설정 x = np.arange(0, 6.29, 0.1) y = np.arange(-1, 1, 0.1) # 입출력 설정. membership function 설정 x_lo = fuzz.trimf(x, [0, 1.57, 3.14]) x_hi = fuzz.trimf(x, [3.14, 4.72, 6.28]) y_lo = fuzz.trimf(y, [-1, -0.5, 0]) y_hi = fuzz.trimf(y, [0, 0.5, 1]) fig, (ax0, ax1) = plt.subplot.. 더보기
지능제어(1-1) Example code 환경 세팅은 해당 사이트를 참고하였습니다. 1. 문제 (1) Define the inputs and outputs. There are two inputs : D, the distance between the cars, and v, the velocity of the following car. There is one output: B, the amount of braking to apply to the followin car(force). The inputs and outputs are shown in the figure below. (2) Define the subsets’ intervals. To simplify things, 3 subsetintervals will be chosen for each .. 더보기

728x90
반응형