๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹/Reinforcement Learning

๊ฐ•ํ™”ํ•™์Šต ๋ณต์Šต ์ž๋ฃŒ 4: Discounted future reward

by ํ–‰๋ฑ 2022. 3. 12.

๋งŒ์•ฝ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋Š” action์ด ๋‘ ๊ฐœ ์ด์ƒ์ด๋ผ๋ฉด, ๊ทธ ์ค‘ ์–ด๋Š ๊ฒƒ์„ ์„ ํƒํ•ด์•ผ ํšจ์œจ์ ์ผ๊นŒ?

๋‹ค์Œ ์‹์„ ๋– ์˜ฌ๋ ค๋ณด์ž.

 

Q(s, a) = r + max(a') Q(s', a')

 

r์€ s์—์„œ a๋ฅผ ์ทจํ•ด ์ฆ‰๊ฐ์ ์œผ๋กœ ์–ป์€ reward์ด๋ฉฐ

max(a') Q(s', a')์€ ๊ทธ ์ดํ›„ ๋‹จ๊ณ„์—์„œ ์–ป์„ ์ตœ๋Œ€ reward๋ฅผ ๋œปํ•จ์„ ์•ž์—์„œ ๋ณด์•˜๋‹ค.

 

์œ„์˜ ์งˆ๋ฌธ์˜ ๋‹ต์€, ์ฆ‰๊ฐ์ ์ธ reward r์— ๋” ํฐ ๊ฐ€์น˜๋ฅผ ๋‘๋Š” ๊ฒƒ์ด๋‹ค.

์ด๋ฅผ ์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด max(a') Q(s', a') ์„ discount ์‹œํ‚จ๋‹ค. ์ฆ‰,

 

Q(s, a) = r + γ max(a') Q(s', a') (γ = 0.9)

 

 

 

Reference: Sung Kim ๋ชจ๋‘๋ฅผ ์œ„ํ•œ RL๊ฐ•์ขŒ ์ •๋ฆฌ

์ž‘์„ฑ์ผ: 2018. 10. 4.

๋Œ“๊ธ€