๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹/Reinforcement Learning

๊ฐ•ํ™”ํ•™์Šต ๋ณต์Šต ์ž๋ฃŒ 2: Dummy Q-learning algorithm

by ํ–‰๋ฑ 2022. 3. 12.

Q-learning์˜ ๊ธฐ๋ณธ ์‹์„ ์ด๋Œ์–ด ๋‚ด๊ธฐ ์œ„ํ•ด ํ•œ '๋ฏฟ์Œ'์„ ์‚ดํŽด๋ณด์ž.

 

1. ๋จผ์ € ๋‚˜๋Š” s์— ์žˆ๊ณ 

2. action a๋ฅผ ์ทจํ•˜๋ฉด s'์œผ๋กœ ์ด๋™ํ•˜๋ฉฐ reward r์„ ๋ฐ›๋Š”๋‹ค.

์—ฌ๊ธฐ์„œ, s'์— Q๊ฐ€ ์žˆ๋‹ค๊ณ  ๋ฏฟ์ž.

 

s'์— Q๊ฐ€ ์žˆ๋‹ค๊ณ  ๋ฏฟ์ž๋Š” ๊ฒƒ์˜ ์˜๋ฏธ๋Š” ์•„๋งˆ๋„

(s์—์„œ a๋ฅผ ์ทจํ•ด ๋ณ€ํ•œ state) s'์—์„œ ์–ด๋–ค action์„ ์ทจํ•ด์„œ ๋ฐ›์„ reward๋ฅผ ์•Œ๊ณ  ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž๋Š” ๊ฒƒ์ธ ๊ฒƒ ๊ฐ™๋‹ค.

(ํŠน์ • action์ด๋ผ๊ธฐ ๋ณด๋‹ค ๊ทธ ์–ด๋–ค action์— ๋Œ€ํ•œ reward๋ผ๋„)

 

์ด์ œ Q(s, a)๋ฅผ Q(s', a')์„ ์ด์šฉํ•ด ๋‚˜ํƒ€๋‚ด๋ณด๋ฉด,

Q(s, a) = r + max(a') Q(s', a')

 

r์€ s์—์„œ a๋ฅผ ์ทจํ•ด ์ฆ‰๊ฐ์ ์œผ๋กœ ์–ป์€ reward์ด๋ฉฐ

max(a') Q(s', a')์€ ๊ทธ ์ดํ›„ ๋‹จ๊ณ„์—์„œ ์–ป์„ ์ตœ๋Œ€ reward๋ฅผ ๋œปํ•œ๋‹ค.

์ฆ‰ ์œ„์˜ '๋ฏฟ์Œ'์„ ํ†ตํ•ด '๊ทธ ์ดํ›„ ๋‹จ๊ณ„์—์„œ ์–ป์„ ์ตœ๋Œ€ reward'๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋‹ค'๋Š” ์˜๋ฏธ ํ๋ฆ„์ด๋‹ค.

 

์ด ๊ณ„์‚ฐ์„ ๊ณ„์†ํ•ด๋‚˜๊ฐ€๋‹ค๋ณด๋ฉด ๊ฒฐ๊ตญ Q๊ฐ’์ด ํ•™์Šต๋œ๋‹ค.

('๋ฏฟ์Œ'์—์„œ ์ ์  ์‹ค์ œ๋กœ ๊ทธ๋ ‡๊ฒŒ ๋˜๊ฐ!)

 

๋งˆ์ง€๋ง‰์œผ๋กœ ์ด ๋‚ด์šฉ์„ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ˜•ํƒœ๋กœ ์ •๋ฆฌํ•œ ๊ฒƒ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

Dummy Q-learning algorithm

 

 

Reference: Sung Kim ๋ชจ๋‘๋ฅผ ์œ„ํ•œ RL๊ฐ•์ขŒ ์ •๋ฆฌ

์ž‘์„ฑ์ผ: 2018. 10. 3.

 

๋Œ“๊ธ€