파이온 - Python Online Learning

AI/머신러닝 기초 과정

PROGRESS

7 / 7

단원 데이터 구조화: AI 전처리 17 데이터의 규칙: 예측 로직 14 옷의 시너스: 판단 로직 1 예와 아니오: 판단 로직 6 닮은꼴 찾기: 관계 로직 7 최적의 경로: 강화 로직 7 층층이 지능: 신경망 로직 7 전체 목록

이전 문제

정책(Policy)과 최적 행동 선택

40 P

QUESTION 07 #359

학습된 정보를 바탕으로 특정 상태에서 어떤 행동을 할지 결정하는 기준인 정책(Policy)을 구현해 보세요.

main.py

import numpy as np

# 각 상태별 행동(상, 하, 좌, 우)의 Q값
q_values = {"방 1": [10, 50, 20, 5]}

def get_best_action(state):
    # 해당 상태에서 Q값이 가장 높은 인덱스를 반환
    actions = q_values[state]
    return np.(actions)

# "방 1"에서 인공지능이 선택할 최선의 방향은?
best_idx = get_best_action("방 1")
print(f"최적 행동 인덱스: {best_idx}") # 결과: 1 (즉, '하' 방향)

HINT

가장 큰 값의 인덱스를 찾는 numpy 함수명을 입력하세요.

실행 결과 예시

argmax

INTERACTIVE SHELL Shift + Enter 로 즉시 실행

🗺️ 정책(Policy): 인공지능의 판단 기준

정책($\pi$)은 지도학습의 '모델'과 같은 개념으로, 인공지능의 뇌에 해당합니다.

결정론적 정책: 특정 상태에서 항상 최고의 Q값을 가진 행동 하나만 선택합니다.
확률적 정책: 각 행동에 대해 확률을 부여하여 선택합니다.

강화학습의 최종 목적은 수많은 시행착오를 거쳐 어떤 상황에서도 보상을 극대화할 수 있는 최적 정책(Optimal Policy)을 찾아내는 것입니다. 이제 여러분의 인공지능은 미로의 가장 빠른 탈출 경로를 스스로 말할 수 있게 되었습니다.

정책(Policy)과 최적 행동 선택

🗺️ 정책(Policy): 인공지능의 판단 기준

용어사전