ㅋㅋ 밑도 끝도 없지만 일단 가봅시다.
Markov Chain은 이산시간 확률 과정이다. 마르코프 연쇄는 시간에 따른 계의 상태의 변화를 나타낸다. 매 시간마다 계는 상태를 바꾸거나 같은 상태를 유지한다. 상태의 변화를 전이라 한다. 마르코프 성질은 과거가 현재 상태가 주어 졌을 때의 미래상태의 조건부 확률 분포가 과거상태와는 독립적으로 현재 상태에 의해서만 결정된다는 것을 뜻한다
마르코프 성질 은 마르코프 확률 과정과 같은 말이고
strong Markov Property은 Markov property에서 현재가 멈춰있는 시간의 임의의 변수라고 정의되는것을 제외하고
'Have Done > Reinforcement Learning' 카테고리의 다른 글
[Markov Decision Process] MDP 가 도대체 뭐시냐 (0) | 2022.06.02 |
---|---|
[강화학습] 완전 바닥 튜토리얼 (0) | 2022.05.24 |
[강화학습] OPEN AI GYM issue (0) | 2022.05.24 |
[강화학습 GYM] env.render() (0) | 2022.05.23 |
[강화학습] CS 234 class 3 & class 4 (0) | 2022.05.02 |
댓글