할인율(Discount Factor)의 역할

40 P
QUESTION 05 #357
미래의 보상을 현재의 가치로 환산할 때 사용하는 할인율(Gamma)의 개념을 코드로 이해해 보세요.
main.py
def calculate_future_reward(reward, gamma, steps):
    # 미래의 보상은 단계(steps)가 지날수록 감쇠합니다.
    return reward * (  steps)

# 100점의 보상을 3단계 뒤에 받는다면? (할인율 0.9)
future_val = calculate_future_reward(100, 0.9, 3)
print(f"3단계 뒤 100점의 현재 가치: {future_val:.2f}") # 결과: 72.90
실행 결과 예시
gamma, **
INTERACTIVE SHELL Shift + Enter 로 즉시 실행

⏳ 지금의 사과 vs 내일의 사과

인공지능에게 "미래의 보상"을 얼마나 중요하게 여길지 가르치는 것이 할인율($\gamma$)입니다.

  • $\gamma \approx 1$: 미래의 보상을 현재와 거의 동일하게 중요하게 여깁니다. (장기적인 전략가)
  • $\gamma \approx 0$: 당장 눈앞의 보상에만 집착합니다. (근시안적 에이전트)

이 수치를 조절하여 인공지능이 눈앞의 이득을 포기하더라도 나중의 더 큰 성공을 기다릴 줄 알게 만들 수 있습니다.