๊ทธ๋ ๋ค๋ฉด, ์ด ์๊ณ ๋ฆฌ์ฆ์์ "Select an action a"์์ ์ด๋ค action์ ์ ํํด์ผํ ๊น?
๋ต์ < Exploit & Exploration > ์ด๋ค.
Exploit์ ์ด๋ฏธ ์๋ ๊ฐ์ ํ์ฉํ๋ ๊ฒ์ด๊ณ
Exploration์ randomํ๊ฒ ๋ชจํํ๋ ๊ฒ์ด๋ผ ํ ์ ์๋ค.
์๋ ๊ฐ์ ํ์ฉํ๋ ๊ฒ์ ์ข์ง๋ง,
๋ณด๋ค ํจ์จ์ ์ธ ํด๋ต์ ์ฐพ๊ธฐ ์ํด์๋ ๋ชจ๋ฅด๋ ๊ธธ๋ก ๊ฐ ๋ณผ ํ์์ฑ์ด ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ์ E-greedy ๋ฐฉ๋ฒ์ด๋ค.
์์ ๊ฐ e๋ฅผ ์ค์ ํ๊ณ , e์ ํ๋ฅ ๋ก Exploration ํ๋ฉฐ ๋๋จธ์ง๋ Exploit ํ๋ค.
# 1-1) E-greedy
e = 0.1
if rand < e:
a = random
else:
a = argmax(Q(s, a))
๋ค๋ง ๊ฐ ์๋ก e๊ฐ์ ์๊ฒํ์ฌ Explorationํ๋ ํ์๋ฅผ ์ค์ผ ์ ์๋ค.
์ด๋ฅผ Decaying E-greedy ๋ฐฉ๋ฒ์ด๋ผ๊ณ ํ๋ค.
# 1-2) Decaying E-greedy
for i in range(1000):
e = 0.1 / (i+1)
if rand < e:
a = random
else:
a = argmax(Q(s, a))
๋ ๋ฒ์งธ ๋ฐฉ๋ฒ์ Add random noise ์ด๋ค.
๊น์ฑํ ๊ต์๋์ '์ ์ฌ ๋ฉ๋ด ๊ณ ๋ฅด๊ธฐ' ๋น์ ๋ฅผ ๊ธฐ์ตํ์.
# 2-1) Add random noise
a = argmax(Q(s, a) + random_values)
์ด ๋ฐฉ๋ฒ์๋ decaying์ ์ ์ฉํ ์ ์๋ค.
# 2-2) Add decaying random noise
for i in range(1000):
a = argmax(Q(s, a) + random_values / (i+1))
E-greedy๊ฐ ์ ์ ํ๋ฅ ๋ก ์์ ํ randomํ action์ ๊ณ ๋ฅธ๋ค๋ฉด,
Add random noise๋
randomํ ๊ฐ์ด Q(s, a)์ ๋ํด์ง๊ธฐ ๋๋ฌธ์ ์์ ํ random์ด๋ผ๊ธฐ ๋ณด๋ค๋
๋น๊ต์ ๊ฐ์ด ๋์ 2๋ฒ์งธ, 3๋ฒ์งธ ๋์ ๊ฐ์ด ์ ์ ์ ๋๋ค.
Reference: Sung Kim ๋ชจ๋๋ฅผ ์ํ RL๊ฐ์ข ์ ๋ฆฌ
์์ฑ์ผ: 2018. 10. 4.
'๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ > Reinforcement Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
DQN (0) | 2022.03.12 |
---|---|
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 5: Stochastic World (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 4: Discounted future reward (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 2: Dummy Q-learning algorithm (0) | 2022.03.12 |
๊ฐํํ์ต ๋ณต์ต ์๋ฃ 1: Concept of RL (0) | 2022.03.12 |
๋๊ธ