PROGRESS
5 / 7
단원
데이터 구조화: AI 전처리 17
데이터의 규칙: 예측 로직 14
옷의 시너스: 판단 로직 1
예와 아니오: 판단 로직 6
닮은꼴 찾기: 관계 로직 7
최적의 경로: 강화 로직 7
층층이 지능: 신경망 로직 7
전체 목록
QUESTION 05 #357
미래의 보상을 현재의 가치로 환산할 때 사용하는 할인율(Gamma)의 개념을 코드로 이해해 보세요.
main.py
def calculate_future_reward(reward, gamma, steps):
# 미래의 보상은 단계(steps)가 지날수록 감쇠합니다.
return reward * ( steps)
# 100점의 보상을 3단계 뒤에 받는다면? (할인율 0.9)
future_val = calculate_future_reward(100, 0.9, 3)
print(f"3단계 뒤 100점의 현재 가치: {future_val:.2f}") # 결과: 72.90
HINT
할인율 변수명과 거듭제곱 연산자를 입력하세요.
실행 결과 예시
gamma, **
INTERACTIVE SHELL
Shift + Enter 로 즉시 실행
⏳ 지금의 사과 vs 내일의 사과
인공지능에게 "미래의 보상"을 얼마나 중요하게 여길지 가르치는 것이 할인율($\gamma$)입니다.
- $\gamma \approx 1$: 미래의 보상을 현재와 거의 동일하게 중요하게 여깁니다. (장기적인 전략가)
- $\gamma \approx 0$: 당장 눈앞의 보상에만 집착합니다. (근시안적 에이전트)
이 수치를 조절하여 인공지능이 눈앞의 이득을 포기하더라도 나중의 더 큰 성공을 기다릴 줄 알게 만들 수 있습니다.