본문 바로가기

머신러닝, 딥러닝24

DQN Q-network diverges Q-network는 좋은 알고리즘이지만, 그다지 결과가 좋지 않다. (수렴하지 않음) Google Deepmind에서 그를 고쳐 만들어 낸 것이 DQN이다. 2 Problems 기존 Q-network가 좋은 성과를 낼 수 없던 이유는 다음의 두 가지이다. 1) Correlation between samples - action을 취하면서 environment가 조금씩 바뀌기 때문에 유사함 = sample들이 비슷함 (상관관계가 있음) - 전체적 경향성을 보여줄 수 있는 data들이 아니라 유사한 (붙어있는) data들로 학습을 시키면 제대로 학습되지 않음 2) Non-stationary targets - 즉, "target이 움직임" - pred값을 target값에 가까이.. 2022. 3. 12.

강화학습 복습 자료 5: Stochastic World 지금까지는 의도한대로 행동한 Deterministic world 를 배경으로 논했다. 하지만 현실 세계는 의도한대로 되지 않는 Non-deterministic (Stochastic) world 이다. 예컨대 Frozen lake에서 down 하고자 했는데 (의도) 실제로는 right 되어 (실제) 성공했다면 down 했을 때 성공했다고 정보가 전달되어 Q값이 왜곡될 수 있다는 것이다. Frozen lake에서 이처럼 stochastic 한 환경을 만들기 위해서 slippery 요소를 true로 설정했던 것을 떠올려보자. 이 문제의 솔루션은 실제 멘토의 조언을 들을 때와 유사하다고 설명한다. 즉 하고 싶은 대로 하되, 멘토의 조언은 조금만 반영하라는 것이다. (물론 여기서 멘토의 조언은 Q값을 의미한다.).. 2022. 3. 12.

강화학습 복습 자료 4: Discounted future reward 만약 선택할 수 있는 action이 두 개 이상이라면, 그 중 어느 것을 선택해야 효율적일까? 다음 식을 떠올려보자. Q(s, a) = r + max(a') Q(s', a') r은 s에서 a를 취해 즉각적으로 얻은 reward이며 max(a') Q(s', a')은 그 이후 단계에서 얻을 최대 reward를 뜻함을 앞에서 보았다. 위의 질문의 답은, 즉각적인 reward r에 더 큰 가치를 두는 것이다. 이를 식으로 표현하기 위해 max(a') Q(s', a') 을 discount 시킨다. 즉, Q(s, a) = r + γ max(a') Q(s', a') (γ = 0.9) Reference: Sung Kim 모두를 위한 RL강좌 정리 작성일: 2018. 10. 4. 2022. 3. 12.

강화학습 복습 자료 3: Exploit & Exploration 그렇다면, 이 알고리즘에서 "Select an action a"에서 어떤 action을 선택해야할까? 답은 이다. Exploit은 이미 아는 값을 활용하는 것이고 Exploration은 random하게 모험하는 것이라 할 수 있다. 아는 값을 활용하는 것은 좋지만, 보다 효율적인 해답을 찾기 위해서는 모르는 길로 가 볼 필요성이 있기 때문이다. 첫 번째 방법은 E-greedy 방법이다. 작은 값 e를 설정하고, e의 확률로 Exploration 하며 나머지는 Exploit 한다. # 1-1) E-greedy e = 0.1 if rand < e: a = random else: a = argmax(Q(s, a)) 다만 갈 수록 e값을 작게하여 Exploratio.. 2022. 3. 12.

이전 1 2 3 4 ··· 6 다음

티스토리툴바