강화학습 복습 자료 3: Exploit & Exploration

그렇다면, 이 알고리즘에서 "Select an action a"에서 어떤 action을 선택해야할까?

답은 < Exploit & Exploration > 이다.

Exploit은 이미 아는 값을 활용하는 것이고

Exploration은 random하게 모험하는 것이라 할 수 있다.

아는 값을 활용하는 것은 좋지만,

보다 효율적인 해답을 찾기 위해서는 모르는 길로 가 볼 필요성이 있기 때문이다.

첫 번째 방법은 E-greedy 방법이다.

작은 값 e를 설정하고, e의 확률로 Exploration 하며 나머지는 Exploit 한다.

# 1-1) E-greedy
e = 0.1
if rand < e:
   a = random
else:
   a = argmax(Q(s, a))

다만 갈 수록 e값을 작게하여 Exploration하는 횟수를 줄일 수 있다.

이를 Decaying E-greedy 방법이라고 한다.

# 1-2) Decaying E-greedy
for i in range(1000):
   e = 0.1 / (i+1)
   if rand < e:
      a = random
   else:
      a = argmax(Q(s, a))

두 번째 방법은 Add random noise 이다.

김성훈 교수님의 '점심 메뉴 고르기' 비유를 기억하자.

# 2-1) Add random noise
a = argmax(Q(s, a) + random_values)

이 방법에도 decaying을 적용할 수 있다.

# 2-2) Add decaying random noise
for i in range(1000):
   a = argmax(Q(s, a) + random_values / (i+1))

E-greedy가 적은 확률로 완전히 random한 action을 고른다면,

Add random noise는

random한 값이 Q(s, a)에 더해지기 때문에 완전히 random이라기 보다는

비교적 값이 높은 2번째, 3번째 높은 값이 잘 선정된다.

Reference: Sung Kim 모두를 위한 RL강좌 정리

작성일: 2018. 10. 4.

DQN (0)	2022.03.12
강화학습 복습 자료 5: Stochastic World (0)	2022.03.12
강화학습 복습 자료 4: Discounted future reward (0)	2022.03.12
강화학습 복습 자료 2: Dummy Q-learning algorithm (0)	2022.03.12
강화학습 복습 자료 1: Concept of RL (0)	2022.03.12

IT 찢는 뱁새 🐣