탐험(Exploration) vs 이용(Exploitation)

40 P
QUESTION 03 #355
새로운 길을 찾아볼지(탐험), 아는 길로만 갈지(이용) 결정하는 엡실론-그리디(E-Greedy) 전략의 로직을 완성하세요.
main.py
import random

def choose_action(epsilon):
    # 0~1 사이의 랜덤값이 엡실론보다 작으면 탐험(새로운 시도)
    if  < :
        return "새로운 길 탐험"
    else:
        return "기존 최적 경로 이용"

# 20%의 확률로 새로운 도전을 함
action = choose_action(0.2)
print(f"에이전트의 선택: {action}")
실행 결과 예시
random.random(), epsilon
INTERACTIVE SHELL Shift + Enter 로 즉시 실행

🧭 탐험과 이용의 딜레마

  • 이용(Exploitation): 지금까지의 경험 중 가장 점수가 좋았던 행동만 반복합니다. (안전하지만 더 좋은 길을 못 찾을 수 있음)
  • 탐험(Exploration): 가보지 않은 길을 무작위로 시도합니다. (위험하지만 잭팟을 터뜨릴 가능성이 있음)

강화학습의 초기에는 탐험을 많이 하여 정보를 수집하고, 학습이 진행될수록 점차 이용의 비중을 높이는 것이 일반적인 전략입니다.