LAB/RL, IRL 썸네일형 리스트형 DGAIL 코드 분석(DDPG.py) 본 코드는 DDPG(Deep Deterministic Policy Gradient) 알고리즘과 GAIL(Generative Adversarial Imitation Learning) 알고리즘을 조합하여, 강화학습을 수행하는 모델을 구현하였다. import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from utils import ExpertTraj device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") 1. Actor 클래스 class Actor(nn.Module): def __init__(self, state_dim, .. 더보기 역강화학습(1) 역강화학습 기술 동향 1. 개념 정리 강화학습(RL) : 에이전트가 어떤 상태(state)에서 행동(action)을 수행할 때마다 그 성능에 대한 피드백을 제공하는 보상 함수(Reward function)이 주어진다. 이 보상 함수는 최적 정책(optimal policy)를 구하는데 이용된다. [ex] 게임 플레이 에이전트 생성을 위해 RL을 이용하는 경우, 플레이를 통해 얻게 되는 점수 or 승패 결과 or 플레이어 체력 등 에이전트 성능을 평가할 수 있는 보상 요소들이 주어진다. 이를 통해 최대 기대 보상을 획득할 수 있는 최적 정책이 계산된다. 이렇게 계산된 정책에 따라, 게임 플레이 에이전트는 주어진 상태에 대해 최적의 행동을 수행한다. 하지만, 실세계에서 특정 모델에 대한 보상 함수를 구하는 것은 매우 복잡한 문제다.. 더보기 이전 1 2 다음