'Deep learning/강화학습' 카테고리의 글 목록

Recent Posts

Recent Comments

Link

저의 깃허브입니다

Today

Total

관리 메뉴

목록Deep learning/강화학습 (2)

questionet

MDP를 모를 때 Prediction

바닥부터 배우는 강화 학습 Chapter 5 이번 챕터에서는 모델 프리상황에서의 prediction을 하는 2가지 방법에 대해 배운다. = MDP를 모르는 상황에서 임의의 정책이 주어졌을 때 각 상태의 가치를 평가하는 2가지 방법에 대해 배운다. 1. 몬테카를로 학습 2. TD (Temporal Difference) 학습 용어 정리 MDP (Markov Decision Process) 를 모른다는 것의 의미 1. 보상함수(R)를 모른다 = 어떤 상태 s에 도착하게 됐을 때 받게 되는 보상이 뭔지 모른다 2. 전이확률행렬(P)을 모른다 = 현재 상태 s에서 어떤 액션a를 했을 때 가게 될 다음 상태들의 확률분포를 모른다 >>> 둘 다 액션을 해봐야 안다 = MDP를 모르는 상태 = 모델 프리 (모델을 모르..

Deep learning/강화학습 2021. 5. 4. 20:48

강화학습이란?

이 페이지는 '바닥부터 배우는 강화학습'의 내용을 정리한 것이다. 강화학습이란? : 순차적 의사결정 문제에서 누적보상을 최대화하기 위해 시행착오를 거쳐 행동을 교정하는 학습과정. 순차적 의사결정sequential decision making이란? : 달성해야할 목표를 이루기 위해 거쳐야 하는 단계들이 여러가지가 있는 문제의 경우 각 단계에서 내리게 되는 의사결정과정. 이전 단계에서의 결정에 따른 행동은 상황의 변화를 낳고 변한 상황은 다시 다음 단계에서의 행동에 영향을 준다. 순차적 의사결정과정 문제란? : 목표를 달성하고 난 다음 그 목표에 이르기까지의 행동들을 단계별로 돌이켜 보면 순차적일 수밖에 없다. 바꿔 말해 어떤 목표를 달성하기 위해선 매 단계에서 다음단계로 가기 위한 행동이 순차적으로 이뤄져..

Deep learning/강화학습 2021. 3. 2. 22:14

Prev 1 Next

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

questionet

목록Deep learning/강화학습 (2)

questionet

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역