๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹/Reinforcement Learning

๊ฐ•ํ™”ํ•™์Šต ๋ณต์Šต ์ž๋ฃŒ 1: Concept of RL

by ํ–‰๋ฑ 2022. 3. 12.

 

 

 

 

๊ฐ•ํ™”ํ•™์Šต์€ ๊ธฐ๋ณธ์ ์œผ๋กœ,

์ฅ(Actor ํ˜น์€ Agent)๊ฐ€ action์„ ์ทจํ•˜๋ฉด ๊ทธ์— ๋”ฐ๋ฅธ reward๋ฅผ ๋ฐ›๊ณ ,

๋ณ€ํ™”๋œ state๋ฅผ ๊ด€์ฐฐํ•˜์—ฌ ๋‹ค์‹œ action์„ ์ทจํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

 

Q ํ•จ์ˆ˜์— state์™€ action์„ ์ฃผ๋ฉด, ๊ทธ์— ๋”ฐ๋ฅธ reward๋ฅผ ๋ฆฌํ„ดํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•˜์ž.

(๊ทธ๋Ÿฌํ•œ Q ํ˜•๋‹˜์ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž.)

Agent๊ฐ€ ์•Œ๊ณ  ์‹ถ์€ ๊ฒƒ์€ ์ตœ๋Œ€ reward๋ฅผ ๋งŒ๋“œ๋Š” action์ด๋‹ค.

์ด ๋‚ด์šฉ์„ ๋‹ค์Œ ๋‘ ์ˆ˜ํ•™์  ํ‘œ๊ธฐ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

 

max(a') Q(s, a') : s ๋ผ๋Š” state์— a'์„ ๋ฐ”๊พธ์–ด ์คŒ์œผ๋กœ์จ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ตœ๋Œ€ reward๊ฐ’ (Q๊ฐ’)

argmax(a') Q(s, a'): (์œ„์™€ ์ด์–ด์ง€๋Š” ์ƒํ™ฉ์—์„œ) ์ตœ๋Œ€ Q๊ฐ’์„ ๊ฐ–๊ฒŒํ•˜๋Š” argument a'

 

 

Reference: Sung Kim ๋ชจ๋‘๋ฅผ ์œ„ํ•œ RL๊ฐ•์ขŒ ์ •๋ฆฌ

์ž‘์„ฑ์ผ: 2018. 10. 3.

๋Œ“๊ธ€