파이온 - Python Online Learning

AI/머신러닝 기초 과정

PROGRESS

5 / 7

단원 데이터 구조화: AI 전처리 17 데이터의 규칙: 예측 로직 14 옷의 시너스: 판단 로직 1 예와 아니오: 판단 로직 6 닮은꼴 찾기: 관계 로직 7 최적의 경로: 강화 로직 7 층층이 지능: 신경망 로직 7 전체 목록

이전 문제 다음 문제

할인율(Discount Factor)의 역할

40 P

QUESTION 05 #357

미래의 보상을 현재의 가치로 환산할 때 사용하는 할인율(Gamma)의 개념을 코드로 이해해 보세요.

main.py

def calculate_future_reward(reward, gamma, steps):
    # 미래의 보상은 단계(steps)가 지날수록 감쇠합니다.
    return reward * (  steps)

# 100점의 보상을 3단계 뒤에 받는다면? (할인율 0.9)
future_val = calculate_future_reward(100, 0.9, 3)
print(f"3단계 뒤 100점의 현재 가치: {future_val:.2f}") # 결과: 72.90

HINT

할인율 변수명과 거듭제곱 연산자를 입력하세요.

실행 결과 예시

gamma, **

INTERACTIVE SHELL Shift + Enter 로 즉시 실행

⏳ 지금의 사과 vs 내일의 사과

인공지능에게 "미래의 보상"을 얼마나 중요하게 여길지 가르치는 것이 할인율($\gamma$)입니다.

$\gamma \approx 1$: 미래의 보상을 현재와 거의 동일하게 중요하게 여깁니다. (장기적인 전략가)
$\gamma \approx 0$: 당장 눈앞의 보상에만 집착합니다. (근시안적 에이전트)

이 수치를 조절하여 인공지능이 눈앞의 이득을 포기하더라도 나중의 더 큰 성공을 기다릴 줄 알게 만들 수 있습니다.

할인율(Discount Factor)의 역할

⏳ 지금의 사과 vs 내일의 사과

용어사전