Markov Decision Processes (MDP)
2018. 11. 8. 17:54
Markov Decision Processes (MDP) 미래에 허우적거리고 있을 나를 위해....★ 가장 기초가 되는 개념이지만, 온갖 난무하는 수식들 사이에서 좀 빡세게 느껴진 주제다. 반복만이 살길.....꿈에 나올때까지 계속보자.. 1. 5가지 Markov Property for MDP : MDP는 아래 5가지요소에 의해 정의된다. 1) State 2) Action 3) Transition Probability 4) Reward Function 5) start state distribution (지금부터는 시작점의 prob = 1로 두고 시작할 것이다.) 2. MDP의 목적이 뭐야? a. Reward의 합의 기댓값을 최대로 만든다 b. 이때의 Policy, 즉 Optimal Policy를 찾는다...