'강화학습' 카테고리의 글 목록

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags

더보기

Archives

Visits

Total

Today

Yesterday

Dynamic Programming : Policy Iteration & Value Iteration 2018. 11. 9. 23:04 Dynamic Programming : Policy Iteration & Value Iteration 돌아서면 까먹는 미래의 나를 위해....다시 보아도 바로 이해할 수 있도록 정리한다. MDP가 뭐였지? Markov Decision Processes는 Total Reward를 최대로 만들고, 이때의 Optimal Policy를 찾는 방법이었다.MDP에서 중요한 점은 Model을 알고 있다는 점이다.여기서 Model은 Transition Probability, Reward Function을 말하는데, 보통은 Transition Probability를 의미한다. 즉, 모든 상황(Observation)을 다 알고 있다는 의미다. Agent가 지금 state에서 action을 취했을 때, 다음 state의 확..

Markov Decision Processes (MDP) 2018. 11. 8. 17:54 Markov Decision Processes (MDP) 미래에 허우적거리고 있을 나를 위해....★ 가장 기초가 되는 개념이지만, 온갖 난무하는 수식들 사이에서 좀 빡세게 느껴진 주제다. 반복만이 살길.....꿈에 나올때까지 계속보자.. 1. 5가지 Markov Property for MDP : MDP는 아래 5가지요소에 의해 정의된다. 1) State 2) Action 3) Transition Probability 4) Reward Function 5) start state distribution (지금부터는 시작점의 prob = 1로 두고 시작할 것이다.) 2. MDP의 목적이 뭐야? a. Reward의 합의 기댓값을 최대로 만든다 b. 이때의 Policy, 즉 Optimal Policy를 찾는다...

강화학습 기초 2018. 10. 29. 17:01 강화학습(Reinforcement Learning)? Reinforcement Learning(RL) is an area of machine learning concerned with how software agents ought to take actions in an environment so as to maximize some notion of cumulative reward 즉, 'Agent가 해당 environment에서 어떠한 action을 취해야 reward의 총량이 최대가 될 것인가?' 여기에 관심을 같는 것이 강화학습이라고 할 수 있다. Reinforcement Learning vs Machine Learning RL, 즉 강화학습은 몇가지 Machine learning과는 다른 특징을 같..

이전 1 다음

티스토리툴바