본문 바로가기

머신러닝, 딥러닝/Reinforcement Learning6

강화학습 복습 자료 2: Dummy Q-learning algorithm Q-learning의 기본 식을 이끌어 내기 위해 한 '믿음'을 살펴보자. 1. 먼저 나는 s에 있고 2. action a를 취하면 s'으로 이동하며 reward r을 받는다. 여기서, s'에 Q가 있다고 믿자. s'에 Q가 있다고 믿자는 것의 의미는 아마도 (s에서 a를 취해 변한 state) s'에서 어떤 action을 취해서 받을 reward를 알고 있다고 가정하자는 것인 것 같다. (특정 action이라기 보다 그 어떤 action에 대한 reward라도) 이제 Q(s, a)를 Q(s', a')을 이용해 나타내보면, Q(s, a) = r + max(a') Q(s', a') r은 s에서 a를 취해 즉각적으로 얻은 reward이며 max(a') Q(s', a')은 그 이후 단계에서 얻을 최대 rewa.. 2022. 3. 12.

강화학습 복습 자료 1: Concept of RL 강화학습은 기본적으로, 쥐(Actor 혹은 Agent)가 action을 취하면 그에 따른 reward를 받고, 변화된 state를 관찰하여 다시 action을 취하는 방식이다. Q 함수에 state와 action을 주면, 그에 따른 reward를 리턴한다고 생각하자. (그러한 Q 형님이 있다고 가정하자.) Agent가 알고 싶은 것은 최대 reward를 만드는 action이다. 이 내용을 다음 두 수학적 표기로 나타낼 수 있다. max(a') Q(s, a') : s 라는 state에 a'을 바꾸어 줌으로써 얻을 수 있는 최대 reward값 (Q값) argmax(a') Q(s, a'): (위와 이어지는 상황에서) 최대 Q값을 갖게하는 argument a' Reference: Sung Kim 모두를 위한 R.. 2022. 3. 12.

이전 1 2 다음

티스토리툴바