Q-learning์ ๊ธฐ๋ณธ ์์ ์ด๋์ด ๋ด๊ธฐ ์ํด ํ '๋ฏฟ์'์ ์ดํด๋ณด์.
1. ๋จผ์ ๋๋ s์ ์๊ณ
2. action a๋ฅผ ์ทจํ๋ฉด s'์ผ๋ก ์ด๋ํ๋ฉฐ reward r์ ๋ฐ๋๋ค.
์ฌ๊ธฐ์, s'์ Q๊ฐ ์๋ค๊ณ ๋ฏฟ์.
s'์ Q๊ฐ ์๋ค๊ณ ๋ฏฟ์๋ ๊ฒ์ ์๋ฏธ๋ ์๋ง๋
(s์์ a๋ฅผ ์ทจํด ๋ณํ state) s'์์ ์ด๋ค action์ ์ทจํด์ ๋ฐ์ reward๋ฅผ ์๊ณ ์๋ค๊ณ ๊ฐ์ ํ์๋ ๊ฒ์ธ ๊ฒ ๊ฐ๋ค.
(ํน์ action์ด๋ผ๊ธฐ ๋ณด๋ค ๊ทธ ์ด๋ค action์ ๋ํ reward๋ผ๋)
์ด์ Q(s, a)๋ฅผ Q(s', a')์ ์ด์ฉํด ๋ํ๋ด๋ณด๋ฉด,
Q(s, a) = r + max(a') Q(s', a')
r์ s์์ a๋ฅผ ์ทจํด ์ฆ๊ฐ์ ์ผ๋ก ์ป์ reward์ด๋ฉฐ
max(a') Q(s', a')์ ๊ทธ ์ดํ ๋จ๊ณ์์ ์ป์ ์ต๋ reward๋ฅผ ๋ปํ๋ค.
์ฆ ์์ '๋ฏฟ์'์ ํตํด '๊ทธ ์ดํ ๋จ๊ณ์์ ์ป์ ์ต๋ reward'๋ฅผ ์ ์ ์๋ค'๋ ์๋ฏธ ํ๋ฆ์ด๋ค.
์ด ๊ณ์ฐ์ ๊ณ์ํด๋๊ฐ๋ค๋ณด๋ฉด ๊ฒฐ๊ตญ Q๊ฐ์ด ํ์ต๋๋ค.
('๋ฏฟ์'์์ ์ ์ ์ค์ ๋ก ๊ทธ๋ ๊ฒ ๋๊ฐ!)
๋ง์ง๋ง์ผ๋ก ์ด ๋ด์ฉ์ ์๊ณ ๋ฆฌ์ฆ ํํ๋ก ์ ๋ฆฌํ ๊ฒ์ ๋ค์๊ณผ ๊ฐ๋ค.
Reference: Sung Kim ๋ชจ๋๋ฅผ ์ํ RL๊ฐ์ข ์ ๋ฆฌ
์์ฑ์ผ: 2018. 10. 3.
'๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ > Reinforcement Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
DQN (0) | 2022.03.12 |
---|---|
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 5: Stochastic World (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 4: Discounted future reward (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 3: Exploit & Exploration (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 1: Concept of RL (0) | 2022.03.12 |
๋๊ธ