๊ฐํํ์ต์ ๊ธฐ๋ณธ์ ์ผ๋ก,
์ฅ(Actor ํน์ Agent)๊ฐ action์ ์ทจํ๋ฉด ๊ทธ์ ๋ฐ๋ฅธ reward๋ฅผ ๋ฐ๊ณ ,
๋ณํ๋ state๋ฅผ ๊ด์ฐฐํ์ฌ ๋ค์ action์ ์ทจํ๋ ๋ฐฉ์์ด๋ค.
Q ํจ์์ state์ action์ ์ฃผ๋ฉด, ๊ทธ์ ๋ฐ๋ฅธ reward๋ฅผ ๋ฆฌํดํ๋ค๊ณ ์๊ฐํ์.
(๊ทธ๋ฌํ Q ํ๋์ด ์๋ค๊ณ ๊ฐ์ ํ์.)
Agent๊ฐ ์๊ณ ์ถ์ ๊ฒ์ ์ต๋ reward๋ฅผ ๋ง๋๋ action์ด๋ค.
์ด ๋ด์ฉ์ ๋ค์ ๋ ์ํ์ ํ๊ธฐ๋ก ๋ํ๋ผ ์ ์๋ค.
max(a') Q(s, a') : s ๋ผ๋ state์ a'์ ๋ฐ๊พธ์ด ์ค์ผ๋ก์จ ์ป์ ์ ์๋ ์ต๋ reward๊ฐ (Q๊ฐ)
argmax(a') Q(s, a'): (์์ ์ด์ด์ง๋ ์ํฉ์์) ์ต๋ Q๊ฐ์ ๊ฐ๊ฒํ๋ argument a'
Reference: Sung Kim ๋ชจ๋๋ฅผ ์ํ RL๊ฐ์ข ์ ๋ฆฌ
์์ฑ์ผ: 2018. 10. 3.
'๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ > Reinforcement Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
DQN (0) | 2022.03.12 |
---|---|
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 5: Stochastic World (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 4: Discounted future reward (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 3: Exploit & Exploration (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 2: Dummy Q-learning algorithm (0) | 2022.03.12 |
๋๊ธ