본문 바로가기

분류 전체보기74

강화학습 복습 자료 5: Stochastic World 지금까지는 의도한대로 행동한 Deterministic world 를 배경으로 논했다. 하지만 현실 세계는 의도한대로 되지 않는 Non-deterministic (Stochastic) world 이다. 예컨대 Frozen lake에서 down 하고자 했는데 (의도) 실제로는 right 되어 (실제) 성공했다면 down 했을 때 성공했다고 정보가 전달되어 Q값이 왜곡될 수 있다는 것이다. Frozen lake에서 이처럼 stochastic 한 환경을 만들기 위해서 slippery 요소를 true로 설정했던 것을 떠올려보자. 이 문제의 솔루션은 실제 멘토의 조언을 들을 때와 유사하다고 설명한다. 즉 하고 싶은 대로 하되, 멘토의 조언은 조금만 반영하라는 것이다. (물론 여기서 멘토의 조언은 Q값을 의미한다.).. 2022. 3. 12.

강화학습 복습 자료 4: Discounted future reward 만약 선택할 수 있는 action이 두 개 이상이라면, 그 중 어느 것을 선택해야 효율적일까? 다음 식을 떠올려보자. Q(s, a) = r + max(a') Q(s', a') r은 s에서 a를 취해 즉각적으로 얻은 reward이며 max(a') Q(s', a')은 그 이후 단계에서 얻을 최대 reward를 뜻함을 앞에서 보았다. 위의 질문의 답은, 즉각적인 reward r에 더 큰 가치를 두는 것이다. 이를 식으로 표현하기 위해 max(a') Q(s', a') 을 discount 시킨다. 즉, Q(s, a) = r + γ max(a') Q(s', a') (γ = 0.9) Reference: Sung Kim 모두를 위한 RL강좌 정리 작성일: 2018. 10. 4. 2022. 3. 12.

강화학습 복습 자료 3: Exploit & Exploration 그렇다면, 이 알고리즘에서 "Select an action a"에서 어떤 action을 선택해야할까? 답은 이다. Exploit은 이미 아는 값을 활용하는 것이고 Exploration은 random하게 모험하는 것이라 할 수 있다. 아는 값을 활용하는 것은 좋지만, 보다 효율적인 해답을 찾기 위해서는 모르는 길로 가 볼 필요성이 있기 때문이다. 첫 번째 방법은 E-greedy 방법이다. 작은 값 e를 설정하고, e의 확률로 Exploration 하며 나머지는 Exploit 한다. # 1-1) E-greedy e = 0.1 if rand < e: a = random else: a = argmax(Q(s, a)) 다만 갈 수록 e값을 작게하여 Exploratio.. 2022. 3. 12.

강화학습 복습 자료 2: Dummy Q-learning algorithm Q-learning의 기본 식을 이끌어 내기 위해 한 '믿음'을 살펴보자. 1. 먼저 나는 s에 있고 2. action a를 취하면 s'으로 이동하며 reward r을 받는다. 여기서, s'에 Q가 있다고 믿자. s'에 Q가 있다고 믿자는 것의 의미는 아마도 (s에서 a를 취해 변한 state) s'에서 어떤 action을 취해서 받을 reward를 알고 있다고 가정하자는 것인 것 같다. (특정 action이라기 보다 그 어떤 action에 대한 reward라도) 이제 Q(s, a)를 Q(s', a')을 이용해 나타내보면, Q(s, a) = r + max(a') Q(s', a') r은 s에서 a를 취해 즉각적으로 얻은 reward이며 max(a') Q(s', a')은 그 이후 단계에서 얻을 최대 rewa.. 2022. 3. 12.

이전 1 2 3 4 5 6 ··· 19 다음

티스토리툴바