PROGRESS
3 / 7
단원
데이터 구조화: AI 전처리 17
데이터의 규칙: 예측 로직 14
옷의 시너스: 판단 로직 1
예와 아니오: 판단 로직 6
닮은꼴 찾기: 관계 로직 7
최적의 경로: 강화 로직 7
층층이 지능: 신경망 로직 7
전체 목록
QUESTION 03 #355
새로운 길을 찾아볼지(탐험), 아는 길로만 갈지(이용) 결정하는 엡실론-그리디(E-Greedy) 전략의 로직을 완성하세요.
main.py
import random
def choose_action(epsilon):
# 0~1 사이의 랜덤값이 엡실론보다 작으면 탐험(새로운 시도)
if < :
return "새로운 길 탐험"
else:
return "기존 최적 경로 이용"
# 20%의 확률로 새로운 도전을 함
action = choose_action(0.2)
print(f"에이전트의 선택: {action}")
HINT
랜덤 함수 호출부와 비교 기준이 되는 변수명을 입력하세요.
실행 결과 예시
random.random(), epsilon
INTERACTIVE SHELL
Shift + Enter 로 즉시 실행
🧭 탐험과 이용의 딜레마
- 이용(Exploitation): 지금까지의 경험 중 가장 점수가 좋았던 행동만 반복합니다. (안전하지만 더 좋은 길을 못 찾을 수 있음)
- 탐험(Exploration): 가보지 않은 길을 무작위로 시도합니다. (위험하지만 잭팟을 터뜨릴 가능성이 있음)
강화학습의 초기에는 탐험을 많이 하여 정보를 수집하고, 학습이 진행될수록 점차 이용의 비중을 높이는 것이 일반적인 전략입니다.