정책(Policy)과 최적 행동 선택

40 P
QUESTION 07 #359
학습된 정보를 바탕으로 특정 상태에서 어떤 행동을 할지 결정하는 기준인 정책(Policy)을 구현해 보세요.
main.py
import numpy as np

# 각 상태별 행동(상, 하, 좌, 우)의 Q값
q_values = {"방 1": [10, 50, 20, 5]}

def get_best_action(state):
    # 해당 상태에서 Q값이 가장 높은 인덱스를 반환
    actions = q_values[state]
    return np.(actions)

# "방 1"에서 인공지능이 선택할 최선의 방향은?
best_idx = get_best_action("방 1")
print(f"최적 행동 인덱스: {best_idx}") # 결과: 1 (즉, '하' 방향)
실행 결과 예시
argmax
INTERACTIVE SHELL Shift + Enter 로 즉시 실행

🗺️ 정책(Policy): 인공지능의 판단 기준

정책($\pi$)은 지도학습의 '모델'과 같은 개념으로, 인공지능의 에 해당합니다.

  • 결정론적 정책: 특정 상태에서 항상 최고의 Q값을 가진 행동 하나만 선택합니다.
  • 확률적 정책: 각 행동에 대해 확률을 부여하여 선택합니다.

강화학습의 최종 목적은 수많은 시행착오를 거쳐 어떤 상황에서도 보상을 극대화할 수 있는 최적 정책(Optimal Policy)을 찾아내는 것입니다. 이제 여러분의 인공지능은 미로의 가장 빠른 탈출 경로를 스스로 말할 수 있게 되었습니다.