MDP는 의사 결정 과정을 모델링하는 수학적인 틀을 제공한다. 이때 의사결정의 결과는 의사결정자의 결정에도 좌우되지만, 어느 정도 임의적으로 주어진다. MDP는 동적 계획법과 강화 학습 등의 방법으로 푸는 넓은 범위의 최적화 문제풀이 방법이다. MDP는 이산시간 확률 제어 과정이다. 어떤 시점에, 마르코프 결정 과정은 어떤 상태 s에 존재한다. 의사결정자는 해당 상태 \(s\)에서 어떤 행동 a를 취할 수 있으며, 다음 시점에서 MDP는 확률적으로 새로운 상태 \(s'\)으로 전이(transition)한다. 이때 의사 결정자는 상태 전이에 해당하는 보상 \(R_a(s, s')\)을 받는다. 기존의 상태 \(s\)에서 새로운 상태 \(s'\)로 전이하는 확률은 의사결정자의 행동에 영향을 받는다. 즉, 전이 확률 함수는 \(P_a(s,s')\)와 같이 주어진다. 따라서, 다음 상태 \(s'\)는 현재 상태 \(s\)와 의사결정자의 행동 \(a\)에만 영향을 받으며 이전의 모든 상태와는 확률적으로 독립적이므로, 마르코프 결정 과정의 상태 전이는 마르코프 속성을 만족한다. 마르코프 결정과정은 마르코프 연쇄의 확장된 형태로 볼 수 있다. 마르코프 연쇄와의 차이점은 의사결정자의 선택이 개입된 행동이 존재한다는 것과, 의사결정자에게 동기를 부여하는 보상이 존재한다는 점이다. 바꾸어 말하면, 각 상태에서 오직 한 가지 행동만이 가능하며 모든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다.
위키 피디아에서 긁어온 내용입니다. 참 딱딱하고 어렵죠? 이제 이걸 쉬운 말로 풀어 적어보겠습니다.
MDP는 의사 결정과정을 도와주는 알고리즘이다.
이 결과는 결정하는 사람에 의해 바뀌기도 하지만 어느 정도 랜덤 하다.
MDP는 optimization 문제풀이 알고리즘이고, 이산시간 확률제어 과정이다.
어떤 시점에서 MDP는 어떤 상태 \(s\)에 존재한다.
의사결정자는 해당 상태 \(s\)에서 어떤 행동 \(a\)를 취할 수 있으며, 취하면 새로운 상태 \(s'\)으로 전이되고,
이때 보상 \(R_a(s, s')\)을 받는다.
이때 기존 상태 \(s\)에서 새로운 상태 \(s'\)으로 전이되는 확률은 의사결정자의 행동에 영향을 받는다.
상태의 변화는 확률 함수 \(P_a(s,s')\)를 따른다.
이는 \(s'\)라는 다음상태가 현재상태\(s\)와 행독 \(a\)에만 영향을 받기에,
그 이전의 모든 상태와는 독립적이기 때문에,
MDP의 상태 전이는 마르코프 속성을 만족한다.
MDP는 마르코프 연쇄의 확장된 형태로 볼 수 있다.
마르코프 연쇄와의 차이점은 행동과 보상이 존재한다는 점이다.
다시말해 각 상태에서 오직 한가지 행동만이 가능하며 모든 전이에 대한 보상이 같은 MDP는 마르코프 연쇄와 동일하다.
정도로 풀어 이해할 수 있겠습니다.. 여전히 어렵네요 좀더 체감할수 있는 예시들을 찾아보겠습니다.
'Have Done > Reinforcement Learning' 카테고리의 다른 글
[Markov Chain] 그럼 마르코프 연쇄는 뭔데? (0) | 2022.07.05 |
---|---|
[강화학습] 완전 바닥 튜토리얼 (0) | 2022.05.24 |
[강화학습] OPEN AI GYM issue (0) | 2022.05.24 |
[강화학습 GYM] env.render() (0) | 2022.05.23 |
[강화학습] CS 234 class 3 & class 4 (0) | 2022.05.02 |
댓글