파이온 - Python Online Learning

AI/머신러닝 기초 과정

PROGRESS

3 / 7

단원 데이터 구조화: AI 전처리 17 데이터의 규칙: 예측 로직 14 옷의 시너스: 판단 로직 1 예와 아니오: 판단 로직 6 닮은꼴 찾기: 관계 로직 7 최적의 경로: 강화 로직 7 층층이 지능: 신경망 로직 7 전체 목록

이전 문제 다음 문제

탐험(Exploration) vs 이용(Exploitation)

40 P

QUESTION 03 #355

새로운 길을 찾아볼지(탐험), 아는 길로만 갈지(이용) 결정하는 엡실론-그리디(E-Greedy) 전략의 로직을 완성하세요.

main.py

import random

def choose_action(epsilon):
    # 0~1 사이의 랜덤값이 엡실론보다 작으면 탐험(새로운 시도)
    if  < :
        return "새로운 길 탐험"
    else:
        return "기존 최적 경로 이용"

# 20%의 확률로 새로운 도전을 함
action = choose_action(0.2)
print(f"에이전트의 선택: {action}")

HINT

랜덤 함수 호출부와 비교 기준이 되는 변수명을 입력하세요.

실행 결과 예시

random.random(), epsilon

INTERACTIVE SHELL Shift + Enter 로 즉시 실행

🧭 탐험과 이용의 딜레마

이용(Exploitation): 지금까지의 경험 중 가장 점수가 좋았던 행동만 반복합니다. (안전하지만 더 좋은 길을 못 찾을 수 있음)
탐험(Exploration): 가보지 않은 길을 무작위로 시도합니다. (위험하지만 잭팟을 터뜨릴 가능성이 있음)

강화학습의 초기에는 탐험을 많이 하여 정보를 수집하고, 학습이 진행될수록 점차 이용의 비중을 높이는 것이 일반적인 전략입니다.

탐험(Exploration) vs 이용(Exploitation)

🧭 탐험과 이용의 딜레마

용어사전