๋ง์ฝ ์ ํํ ์ ์๋ action์ด ๋ ๊ฐ ์ด์์ด๋ผ๋ฉด, ๊ทธ ์ค ์ด๋ ๊ฒ์ ์ ํํด์ผ ํจ์จ์ ์ผ๊น?
๋ค์ ์์ ๋ ์ฌ๋ ค๋ณด์.
Q(s, a) = r + max(a') Q(s', a')
r์ s์์ a๋ฅผ ์ทจํด ์ฆ๊ฐ์ ์ผ๋ก ์ป์ reward์ด๋ฉฐ
max(a') Q(s', a')์ ๊ทธ ์ดํ ๋จ๊ณ์์ ์ป์ ์ต๋ reward๋ฅผ ๋ปํจ์ ์์์ ๋ณด์๋ค.
์์ ์ง๋ฌธ์ ๋ต์, ์ฆ๊ฐ์ ์ธ reward r์ ๋ ํฐ ๊ฐ์น๋ฅผ ๋๋ ๊ฒ์ด๋ค.
์ด๋ฅผ ์์ผ๋ก ํํํ๊ธฐ ์ํด max(a') Q(s', a') ์ discount ์ํจ๋ค. ์ฆ,
Q(s, a) = r + γ max(a') Q(s', a') (γ = 0.9)
Reference: Sung Kim ๋ชจ๋๋ฅผ ์ํ RL๊ฐ์ข ์ ๋ฆฌ
์์ฑ์ผ: 2018. 10. 4.
'๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ > Reinforcement Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
DQN (0) | 2022.03.12 |
---|---|
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 5: Stochastic World (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 3: Exploit & Exploration (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 2: Dummy Q-learning algorithm (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 1: Concept of RL (0) | 2022.03.12 |
๋๊ธ