Gail 썸네일형 리스트형 강화학습(8) GAIL 실행하기 (LINUX) 출처 링크 : https://github.com/hcnoh/gail-pytorch 1. Install dependencies (2023.07 ver) (1) Python3을 설치한다. (2) requirements.txt 안에 Python package를 설치한다. -> requirements.txt가 없는 경우, 아래의 코드 두 줄을 각각 입력한다. pip freeze > requirements.txt pip install -r requirements.txt (3) OpenAI Gym 환경을 실행하기 위해 다른 패키지들을 설치한다. python -m pip install jupyter --user pip install gym==0.21 cd .local/lib/python3.8/site-packages.. 더보기 GAIL 1. Human-Machine Interaction(HMI) 인간과 기계가 협동을 함에 있어서 사람의 의도를 파악하는 것은 중요한 문제다. Task를 수행할 수 있도록 보상함수를 설계하는 과정이 사람의 의도를 반영하는 것과 같다. 2. GAIL의 등장 배경 전문가는 보상함수로부터 얻어지는 보상을 최대로 하는 행동[최적 정책]만 한다고 가정한다. 전문가의 행동을 최대의 보상으로 평가하는 보상함수를 찾으면? 그것이 전문가의 의도. IRL은 Reward function의 구조를 정의하고, weight를 업데이트한다. -> 보상함수가 선형조합이라고 가정하는 제한 3. GANs 생성 모델(G)과 식별 모델(D)로 구성. 두 모델이 적대적인 경쟁적 학습을 통해 실제와 유사한 데이터를 생성하는 것을 목표로 한다. (.. 더보기 이전 1 다음