μ§κΈκΉμ§λ μλνλλ‘ νλν Deterministic world λ₯Ό λ°°κ²½μΌλ‘ λ Όνλ€.
νμ§λ§ νμ€ μΈκ³λ μλνλλ‘ λμ§ μλ Non-deterministic (Stochastic) world μ΄λ€.
μ컨λ Frozen lakeμμ
down νκ³ μ νλλ° (μλ) μ€μ λ‘λ right λμ΄ (μ€μ ) μ±κ³΅νλ€λ©΄
down νμ λ μ±κ³΅νλ€κ³ μ λ³΄κ° μ λ¬λμ΄ Qκ°μ΄ μ곑λ μ μλ€λ κ²μ΄λ€.
Frozen lakeμμ μ΄μ²λΌ stochastic ν νκ²½μ λ§λ€κΈ° μν΄μ
slippery μμλ₯Ό trueλ‘ μ€μ νλ κ²μ λ μ¬λ €λ³΄μ.
μ΄ λ¬Έμ μ μ루μ μ μ€μ λ©ν μ μ‘°μΈμ λ€μ λμ μ μ¬νλ€κ³ μ€λͺ νλ€.
μ¦ νκ³ μΆμ λλ‘ νλ, λ©ν μ μ‘°μΈμ μ‘°κΈλ§ λ°μνλΌλ κ²μ΄λ€.
(λ¬Όλ‘ μ¬κΈ°μ λ©ν μ μ‘°μΈμ Qκ°μ μλ―Ένλ€.)
μ§λ λ²κΉμ§ Discounted future rewardκΉμ§ λ°μν μμ λ€μκ³Ό κ°μλ€.
Q(s, a) = r + γ max(a') Q(s', a') (γ = 0.9)
μ΄ μμ μ΅μ’ μμ μΌλΆλ‘ λ±μ₯νλ€. μ΅μ’ μμ λ€μκ³Ό κ°λ€.
Q(s, a) ← (1-α) Q(s, a) + α (r + γ max(a') Q(s', a')) (α = 0.1, γ = 0.9)
αλ learning rateλΌκ³ νκ³ , 빨리 νμ΅ μν€λ €λ©΄ ακ°μ ν€μ°λ©΄ λλ€.
μ¬κΈ°μ μΌμͺ½μ Q(s, a)λ μλ‘μ΄ κ°, μ€λ₯Έμͺ½μ Q(s, a)λ κΈ°μ‘΄ κ°μ΄λΌκ³ μκ°νμ.
κ½€ λμ νλ₯ λ‘ νκ³ μΆμ λλ‘ νκ² λκ³ , μ‘°μΈμ μ‘°κΈλ§ λ€μΌλΌκ³ νλ€λ κ²μ μ μ μλ€.
μ΄λ κ² Dummy Q-learningμ μ§λ, complete Q-learning algorithmκΉμ§ μ΄ν΄λ³΄μλ€.
Reference: Sung Kim λͺ¨λλ₯Ό μν RLκ°μ’ μ 리
μμ±μΌ: 2018. 10. 4.
'λ¨Έμ λ¬λ, λ₯λ¬λ > Reinforcement Learning' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
DQN (0) | 2022.03.12 |
---|---|
κ°ννμ΅ λ³΅μ΅ μλ£ 4: Discounted future reward (0) | 2022.03.12 |
κ°ννμ΅ λ³΅μ΅ μλ£ 3: Exploit & Exploration (0) | 2022.03.12 |
κ°ννμ΅ λ³΅μ΅ μλ£ 2: Dummy Q-learning algorithm (0) | 2022.03.12 |
κ°ννμ΅ λ³΅μ΅ μλ£ 1: Concept of RL (0) | 2022.03.12 |
λκΈ