PROGRESS
7 / 7
단원
데이터 구조화: AI 전처리 17
데이터의 규칙: 예측 로직 14
옷의 시너스: 판단 로직 1
예와 아니오: 판단 로직 6
닮은꼴 찾기: 관계 로직 7
최적의 경로: 강화 로직 7
층층이 지능: 신경망 로직 7
전체 목록
정책(Policy)과 최적 행동 선택
40 P
QUESTION 07 #359
학습된 정보를 바탕으로 특정 상태에서 어떤 행동을 할지 결정하는 기준인 정책(Policy)을 구현해 보세요.
main.py
import numpy as np
# 각 상태별 행동(상, 하, 좌, 우)의 Q값
q_values = {"방 1": [10, 50, 20, 5]}
def get_best_action(state):
# 해당 상태에서 Q값이 가장 높은 인덱스를 반환
actions = q_values[state]
return np.(actions)
# "방 1"에서 인공지능이 선택할 최선의 방향은?
best_idx = get_best_action("방 1")
print(f"최적 행동 인덱스: {best_idx}") # 결과: 1 (즉, '하' 방향)
HINT
가장 큰 값의 인덱스를 찾는 numpy 함수명을 입력하세요.
실행 결과 예시
argmax
INTERACTIVE SHELL
Shift + Enter 로 즉시 실행
🗺️ 정책(Policy): 인공지능의 판단 기준
정책($\pi$)은 지도학습의 '모델'과 같은 개념으로, 인공지능의 뇌에 해당합니다.
- 결정론적 정책: 특정 상태에서 항상 최고의 Q값을 가진 행동 하나만 선택합니다.
- 확률적 정책: 각 행동에 대해 확률을 부여하여 선택합니다.
강화학습의 최종 목적은 수많은 시행착오를 거쳐 어떤 상황에서도 보상을 극대화할 수 있는 최적 정책(Optimal Policy)을 찾아내는 것입니다. 이제 여러분의 인공지능은 미로의 가장 빠른 탈출 경로를 스스로 말할 수 있게 되었습니다.