๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋/Reinforcement Learning6 DQN Q-network diverges Q-network๋ ์ข์ ์๊ณ ๋ฆฌ์ฆ์ด์ง๋ง, ๊ทธ๋ค์ง ๊ฒฐ๊ณผ๊ฐ ์ข์ง ์๋ค. (์๋ ดํ์ง ์์) Google Deepmind์์ ๊ทธ๋ฅผ ๊ณ ์ณ ๋ง๋ค์ด ๋ธ ๊ฒ์ด DQN์ด๋ค. 2 Problems ๊ธฐ์กด Q-network๊ฐ ์ข์ ์ฑ๊ณผ๋ฅผ ๋ผ ์ ์๋ ์ด์ ๋ ๋ค์์ ๋ ๊ฐ์ง์ด๋ค. 1) Correlation between samples - action์ ์ทจํ๋ฉด์ environment๊ฐ ์กฐ๊ธ์ฉ ๋ฐ๋๊ธฐ ๋๋ฌธ์ ์ ์ฌํจ = sample๋ค์ด ๋น์ทํจ (์๊ด๊ด๊ณ๊ฐ ์์) - ์ ์ฒด์ ๊ฒฝํฅ์ฑ์ ๋ณด์ฌ์ค ์ ์๋ data๋ค์ด ์๋๋ผ ์ ์ฌํ (๋ถ์ด์๋) data๋ค๋ก ํ์ต์ ์ํค๋ฉด ์ ๋๋ก ํ์ต๋์ง ์์ 2) Non-stationary targets - ์ฆ, "target์ด ์์ง์" - pred๊ฐ์ target๊ฐ์ ๊ฐ๊น์ด.. 2022. 3. 12. ๊ฐํํ์ต ๋ณต์ต ์๋ฃ 5: Stochastic World ์ง๊ธ๊น์ง๋ ์๋ํ๋๋ก ํ๋ํ Deterministic world ๋ฅผ ๋ฐฐ๊ฒฝ์ผ๋ก ๋ ผํ๋ค. ํ์ง๋ง ํ์ค ์ธ๊ณ๋ ์๋ํ๋๋ก ๋์ง ์๋ Non-deterministic (Stochastic) world ์ด๋ค. ์์ปจ๋ Frozen lake์์ down ํ๊ณ ์ ํ๋๋ฐ (์๋) ์ค์ ๋ก๋ right ๋์ด (์ค์ ) ์ฑ๊ณตํ๋ค๋ฉด down ํ์ ๋ ์ฑ๊ณตํ๋ค๊ณ ์ ๋ณด๊ฐ ์ ๋ฌ๋์ด Q๊ฐ์ด ์๊ณก๋ ์ ์๋ค๋ ๊ฒ์ด๋ค. Frozen lake์์ ์ด์ฒ๋ผ stochastic ํ ํ๊ฒฝ์ ๋ง๋ค๊ธฐ ์ํด์ slippery ์์๋ฅผ true๋ก ์ค์ ํ๋ ๊ฒ์ ๋ ์ฌ๋ ค๋ณด์. ์ด ๋ฌธ์ ์ ์๋ฃจ์ ์ ์ค์ ๋ฉํ ์ ์กฐ์ธ์ ๋ค์ ๋์ ์ ์ฌํ๋ค๊ณ ์ค๋ช ํ๋ค. ์ฆ ํ๊ณ ์ถ์ ๋๋ก ํ๋, ๋ฉํ ์ ์กฐ์ธ์ ์กฐ๊ธ๋ง ๋ฐ์ํ๋ผ๋ ๊ฒ์ด๋ค. (๋ฌผ๋ก ์ฌ๊ธฐ์ ๋ฉํ ์ ์กฐ์ธ์ Q๊ฐ์ ์๋ฏธํ๋ค.).. 2022. 3. 12. ๊ฐํํ์ต ๋ณต์ต ์๋ฃ 4: Discounted future reward ๋ง์ฝ ์ ํํ ์ ์๋ action์ด ๋ ๊ฐ ์ด์์ด๋ผ๋ฉด, ๊ทธ ์ค ์ด๋ ๊ฒ์ ์ ํํด์ผ ํจ์จ์ ์ผ๊น? ๋ค์ ์์ ๋ ์ฌ๋ ค๋ณด์. Q(s, a) = r + max(a') Q(s', a') r์ s์์ a๋ฅผ ์ทจํด ์ฆ๊ฐ์ ์ผ๋ก ์ป์ reward์ด๋ฉฐ max(a') Q(s', a')์ ๊ทธ ์ดํ ๋จ๊ณ์์ ์ป์ ์ต๋ reward๋ฅผ ๋ปํจ์ ์์์ ๋ณด์๋ค. ์์ ์ง๋ฌธ์ ๋ต์, ์ฆ๊ฐ์ ์ธ reward r์ ๋ ํฐ ๊ฐ์น๋ฅผ ๋๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์์ผ๋ก ํํํ๊ธฐ ์ํด max(a') Q(s', a') ์ discount ์ํจ๋ค. ์ฆ, Q(s, a) = r + γ max(a') Q(s', a') (γ = 0.9) Reference: Sung Kim ๋ชจ๋๋ฅผ ์ํ RL๊ฐ์ข ์ ๋ฆฌ ์์ฑ์ผ: 2018. 10. 4. 2022. 3. 12. ๊ฐํํ์ต ๋ณต์ต ์๋ฃ 3: Exploit & Exploration ๊ทธ๋ ๋ค๋ฉด, ์ด ์๊ณ ๋ฆฌ์ฆ์์ "Select an action a"์์ ์ด๋ค action์ ์ ํํด์ผํ ๊น? ๋ต์ ์ด๋ค. Exploit์ ์ด๋ฏธ ์๋ ๊ฐ์ ํ์ฉํ๋ ๊ฒ์ด๊ณ Exploration์ randomํ๊ฒ ๋ชจํํ๋ ๊ฒ์ด๋ผ ํ ์ ์๋ค. ์๋ ๊ฐ์ ํ์ฉํ๋ ๊ฒ์ ์ข์ง๋ง, ๋ณด๋ค ํจ์จ์ ์ธ ํด๋ต์ ์ฐพ๊ธฐ ์ํด์๋ ๋ชจ๋ฅด๋ ๊ธธ๋ก ๊ฐ ๋ณผ ํ์์ฑ์ด ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ์ E-greedy ๋ฐฉ๋ฒ์ด๋ค. ์์ ๊ฐ e๋ฅผ ์ค์ ํ๊ณ , e์ ํ๋ฅ ๋ก Exploration ํ๋ฉฐ ๋๋จธ์ง๋ Exploit ํ๋ค. # 1-1) E-greedy e = 0.1 if rand < e: a = random else: a = argmax(Q(s, a)) ๋ค๋ง ๊ฐ ์๋ก e๊ฐ์ ์๊ฒํ์ฌ Exploratio.. 2022. 3. 12. ์ด์ 1 2 ๋ค์