목록Deep learning/강화학습 (2)
questionet
바닥부터 배우는 강화 학습 Chapter 5 이번 챕터에서는 모델 프리상황에서의 prediction을 하는 2가지 방법에 대해 배운다. = MDP를 모르는 상황에서 임의의 정책이 주어졌을 때 각 상태의 가치를 평가하는 2가지 방법에 대해 배운다. 1. 몬테카를로 학습 2. TD (Temporal Difference) 학습 용어 정리 MDP (Markov Decision Process) 를 모른다는 것의 의미 1. 보상함수(R)를 모른다 = 어떤 상태 s에 도착하게 됐을 때 받게 되는 보상이 뭔지 모른다 2. 전이확률행렬(P)을 모른다 = 현재 상태 s에서 어떤 액션a를 했을 때 가게 될 다음 상태들의 확률분포를 모른다 >>> 둘 다 액션을 해봐야 안다 = MDP를 모르는 상태 = 모델 프리 (모델을 모르..

이 페이지는 '바닥부터 배우는 강화학습'의 내용을 정리한 것이다. 강화학습이란? : 순차적 의사결정 문제에서 누적보상을 최대화하기 위해 시행착오를 거쳐 행동을 교정하는 학습과정. 순차적 의사결정sequential decision making이란? : 달성해야할 목표를 이루기 위해 거쳐야 하는 단계들이 여러가지가 있는 문제의 경우 각 단계에서 내리게 되는 의사결정과정. 이전 단계에서의 결정에 따른 행동은 상황의 변화를 낳고 변한 상황은 다시 다음 단계에서의 행동에 영향을 준다. 순차적 의사결정과정 문제란? : 목표를 달성하고 난 다음 그 목표에 이르기까지의 행동들을 단계별로 돌이켜 보면 순차적일 수밖에 없다. 바꿔 말해 어떤 목표를 달성하기 위해선 매 단계에서 다음단계로 가기 위한 행동이 순차적으로 이뤄져..