๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹24

DQN Q-network diverges Q-network๋Š” ์ข‹์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด์ง€๋งŒ, ๊ทธ๋‹ค์ง€ ๊ฒฐ๊ณผ๊ฐ€ ์ข‹์ง€ ์•Š๋‹ค. (์ˆ˜๋ ดํ•˜์ง€ ์•Š์Œ) Google Deepmind์—์„œ ๊ทธ๋ฅผ ๊ณ ์ณ ๋งŒ๋“ค์–ด ๋‚ธ ๊ฒƒ์ด DQN์ด๋‹ค. 2 Problems ๊ธฐ์กด Q-network๊ฐ€ ์ข‹์€ ์„ฑ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์—†๋˜ ์ด์œ ๋Š” ๋‹ค์Œ์˜ ๋‘ ๊ฐ€์ง€์ด๋‹ค. 1) Correlation between samples - action์„ ์ทจํ•˜๋ฉด์„œ environment๊ฐ€ ์กฐ๊ธˆ์”ฉ ๋ฐ”๋€Œ๊ธฐ ๋•Œ๋ฌธ์— ์œ ์‚ฌํ•จ = sample๋“ค์ด ๋น„์Šทํ•จ (์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ์Œ) - ์ „์ฒด์  ๊ฒฝํ–ฅ์„ฑ์„ ๋ณด์—ฌ์ค„ ์ˆ˜ ์žˆ๋Š” data๋“ค์ด ์•„๋‹ˆ๋ผ ์œ ์‚ฌํ•œ (๋ถ™์–ด์žˆ๋Š”) data๋“ค๋กœ ํ•™์Šต์„ ์‹œํ‚ค๋ฉด ์ œ๋Œ€๋กœ ํ•™์Šต๋˜์ง€ ์•Š์Œ 2) Non-stationary targets - ์ฆ‰, "target์ด ์›€์ง์ž„" - pred๊ฐ’์„ target๊ฐ’์— ๊ฐ€๊นŒ์ด.. 2022. 3. 12.
๊ฐ•ํ™”ํ•™์Šต ๋ณต์Šต ์ž๋ฃŒ 5: Stochastic World ์ง€๊ธˆ๊นŒ์ง€๋Š” ์˜๋„ํ•œ๋Œ€๋กœ ํ–‰๋™ํ•œ Deterministic world ๋ฅผ ๋ฐฐ๊ฒฝ์œผ๋กœ ๋…ผํ–ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ˜„์‹ค ์„ธ๊ณ„๋Š” ์˜๋„ํ•œ๋Œ€๋กœ ๋˜์ง€ ์•Š๋Š” Non-deterministic (Stochastic) world ์ด๋‹ค. ์˜ˆ์ปจ๋Œ€ Frozen lake์—์„œ down ํ•˜๊ณ ์ž ํ–ˆ๋Š”๋ฐ (์˜๋„) ์‹ค์ œ๋กœ๋Š” right ๋˜์–ด (์‹ค์ œ) ์„ฑ๊ณตํ–ˆ๋‹ค๋ฉด down ํ–ˆ์„ ๋•Œ ์„ฑ๊ณตํ–ˆ๋‹ค๊ณ  ์ •๋ณด๊ฐ€ ์ „๋‹ฌ๋˜์–ด Q๊ฐ’์ด ์™œ๊ณก๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. Frozen lake์—์„œ ์ด์ฒ˜๋Ÿผ stochastic ํ•œ ํ™˜๊ฒฝ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ slippery ์š”์†Œ๋ฅผ true๋กœ ์„ค์ •ํ–ˆ๋˜ ๊ฒƒ์„ ๋– ์˜ฌ๋ ค๋ณด์ž. ์ด ๋ฌธ์ œ์˜ ์†”๋ฃจ์…˜์€ ์‹ค์ œ ๋ฉ˜ํ† ์˜ ์กฐ์–ธ์„ ๋“ค์„ ๋•Œ์™€ ์œ ์‚ฌํ•˜๋‹ค๊ณ  ์„ค๋ช…ํ•œ๋‹ค. ์ฆ‰ ํ•˜๊ณ  ์‹ถ์€ ๋Œ€๋กœ ํ•˜๋˜, ๋ฉ˜ํ† ์˜ ์กฐ์–ธ์€ ์กฐ๊ธˆ๋งŒ ๋ฐ˜์˜ํ•˜๋ผ๋Š” ๊ฒƒ์ด๋‹ค. (๋ฌผ๋ก  ์—ฌ๊ธฐ์„œ ๋ฉ˜ํ† ์˜ ์กฐ์–ธ์€ Q๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค.).. 2022. 3. 12.
๊ฐ•ํ™”ํ•™์Šต ๋ณต์Šต ์ž๋ฃŒ 4: Discounted future reward ๋งŒ์•ฝ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋Š” action์ด ๋‘ ๊ฐœ ์ด์ƒ์ด๋ผ๋ฉด, ๊ทธ ์ค‘ ์–ด๋Š ๊ฒƒ์„ ์„ ํƒํ•ด์•ผ ํšจ์œจ์ ์ผ๊นŒ? ๋‹ค์Œ ์‹์„ ๋– ์˜ฌ๋ ค๋ณด์ž. Q(s, a) = r + max(a') Q(s', a') r์€ s์—์„œ a๋ฅผ ์ทจํ•ด ์ฆ‰๊ฐ์ ์œผ๋กœ ์–ป์€ reward์ด๋ฉฐ max(a') Q(s', a')์€ ๊ทธ ์ดํ›„ ๋‹จ๊ณ„์—์„œ ์–ป์„ ์ตœ๋Œ€ reward๋ฅผ ๋œปํ•จ์„ ์•ž์—์„œ ๋ณด์•˜๋‹ค. ์œ„์˜ ์งˆ๋ฌธ์˜ ๋‹ต์€, ์ฆ‰๊ฐ์ ์ธ reward r์— ๋” ํฐ ๊ฐ€์น˜๋ฅผ ๋‘๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด max(a') Q(s', a') ์„ discount ์‹œํ‚จ๋‹ค. ์ฆ‰, Q(s, a) = r + ฮณ max(a') Q(s', a') (ฮณ = 0.9) Reference: Sung Kim ๋ชจ๋‘๋ฅผ ์œ„ํ•œ RL๊ฐ•์ขŒ ์ •๋ฆฌ ์ž‘์„ฑ์ผ: 2018. 10. 4. 2022. 3. 12.
๊ฐ•ํ™”ํ•™์Šต ๋ณต์Šต ์ž๋ฃŒ 3: Exploit & Exploration ๊ทธ๋ ‡๋‹ค๋ฉด, ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ "Select an action a"์—์„œ ์–ด๋–ค action์„ ์„ ํƒํ•ด์•ผํ• ๊นŒ? ๋‹ต์€ ์ด๋‹ค. Exploit์€ ์ด๋ฏธ ์•„๋Š” ๊ฐ’์„ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด๊ณ  Exploration์€ randomํ•˜๊ฒŒ ๋ชจํ—˜ํ•˜๋Š” ๊ฒƒ์ด๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์•„๋Š” ๊ฐ’์„ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์€ ์ข‹์ง€๋งŒ, ๋ณด๋‹ค ํšจ์œจ์ ์ธ ํ•ด๋‹ต์„ ์ฐพ๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ชจ๋ฅด๋Š” ๊ธธ๋กœ ๊ฐ€ ๋ณผ ํ•„์š”์„ฑ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์€ E-greedy ๋ฐฉ๋ฒ•์ด๋‹ค. ์ž‘์€ ๊ฐ’ e๋ฅผ ์„ค์ •ํ•˜๊ณ , e์˜ ํ™•๋ฅ ๋กœ Exploration ํ•˜๋ฉฐ ๋‚˜๋จธ์ง€๋Š” Exploit ํ•œ๋‹ค. # 1-1) E-greedy e = 0.1 if rand < e: a = random else: a = argmax(Q(s, a)) ๋‹ค๋งŒ ๊ฐˆ ์ˆ˜๋ก e๊ฐ’์„ ์ž‘๊ฒŒํ•˜์—ฌ Exploratio.. 2022. 3. 12.