λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°
λ¨Έμ‹ λŸ¬λ‹, λ”₯λŸ¬λ‹/Reinforcement Learning

κ°•ν™”ν•™μŠ΅ 볡슡 자료 5: Stochastic World

by 행뱁 2022. 3. 12.

μ§€κΈˆκΉŒμ§€λŠ” μ˜λ„ν•œλŒ€λ‘œ ν–‰λ™ν•œ Deterministic world λ₯Ό 배경으둜 λ…Όν–ˆλ‹€.

ν•˜μ§€λ§Œ ν˜„μ‹€ μ„Έκ³„λŠ” μ˜λ„ν•œλŒ€λ‘œ λ˜μ§€ μ•ŠλŠ” Non-deterministic (Stochastic) world μ΄λ‹€.

 

μ˜ˆμ»¨λŒ€ Frozen lakeμ—μ„œ

down ν•˜κ³ μž ν–ˆλŠ”λ° (μ˜λ„) μ‹€μ œλ‘œλŠ” right λ˜μ–΄ (μ‹€μ œ) μ„±κ³΅ν–ˆλ‹€λ©΄

down ν–ˆμ„ λ•Œ μ„±κ³΅ν–ˆλ‹€κ³  정보가 μ „λ‹¬λ˜μ–΄ Q값이 μ™œκ³‘λ  수 μžˆλ‹€λŠ” 것이닀.

 

Frozen lakeμ—μ„œ 이처럼 stochastic ν•œ ν™˜κ²½μ„ λ§Œλ“€κΈ° μœ„ν•΄μ„œ

slippery μš”μ†Œλ₯Ό true둜 μ„€μ •ν–ˆλ˜ 것을 λ– μ˜¬λ €λ³΄μž.

 

이 문제의 μ†”λ£¨μ…˜μ€ μ‹€μ œ λ©˜ν† μ˜ 쑰언을 듀을 λ•Œμ™€ μœ μ‚¬ν•˜λ‹€κ³  μ„€λͺ…ν•œλ‹€.

즉 ν•˜κ³  싢은 λŒ€λ‘œ ν•˜λ˜, λ©˜ν† μ˜ 쑰언은 쑰금만 λ°˜μ˜ν•˜λΌλŠ” 것이닀.

(λ¬Όλ‘  μ—¬κΈ°μ„œ λ©˜ν† μ˜ 쑰언은 Q값을 μ˜λ―Έν•œλ‹€.)

 

μ§€λ‚œ λ²ˆκΉŒμ§€ Discounted future rewardκΉŒμ§€ λ°˜μ˜ν•œ 식은 λ‹€μŒκ³Ό κ°™μ•˜λ‹€.

Q(s, a) = r + γ max(a') Q(s', a') (γ = 0.9)

 

이 식은 μ΅œμ’… μ‹μ˜ μΌλΆ€λ‘œ λ“±μž₯ν•œλ‹€. μ΅œμ’… 식은 λ‹€μŒκ³Ό κ°™λ‹€.

Q(s, a) ← (1-α) Q(s, a) + α (r + γ max(a') Q(s', a')) (α = 0.1, γ = 0.9)

 

αλŠ” learning rate라고 ν•˜κ³ , 빨리 ν•™μŠ΅ μ‹œν‚€λ €λ©΄ α값을 ν‚€μš°λ©΄ λœλ‹€.

 

μ—¬κΈ°μ„œ μ™Όμͺ½μ˜ Q(s, a)λŠ” μƒˆλ‘œμš΄ κ°’, 였λ₯Έμͺ½μ˜ Q(s, a)λŠ” κΈ°μ‘΄ 값이라고 μƒκ°ν•˜μž.

κ½€ 높은 ν™•λ₯ λ‘œ ν•˜κ³  싢은 λŒ€λ‘œ ν•˜κ²Œ 두고, 쑰언은 쑰금만 λ“€μœΌλΌκ³  ν•œλ‹€λŠ” 것을 μ•Œ 수 μžˆλ‹€.

 

μ΄λ ‡κ²Œ Dummy Q-learning을 μ§€λ‚˜, complete Q-learning algorithmκΉŒμ§€ μ‚΄νŽ΄λ³΄μ•˜λ‹€.

 

 

 

Reference: Sung Kim λͺ¨λ‘λ₯Ό μœ„ν•œ RLκ°•μ’Œ 정리

μž‘μ„±μΌ: 2018. 10. 4.

λŒ“κΈ€