파이온 - Python Online Learning

AI/머신러닝 기초 과정

PROGRESS

2 / 7

단원 데이터 구조화: AI 전처리 17 데이터의 규칙: 예측 로직 14 옷의 시너스: 판단 로직 1 예와 아니오: 판단 로직 6 닮은꼴 찾기: 관계 로직 7 최적의 경로: 강화 로직 7 층층이 지능: 신경망 로직 7 전체 목록

이전 문제 다음 문제

강화학습의 4대 구성 요소

40 P

QUESTION 02 #354

강화학습에서 주인공(에이전트)이 상태에 따라 내리는 결정과 그에 따른 피드백을 뜻하는 용어를 빈칸에 채우세요.

main.py

class MazeGame:
    def __init__(self):
        self.state = "시작 지점"

    # 1. 에이전트가 내리는 결정: 
    # 2. 결과에 따른 피드백: 
    def step(self, action):
        if action == "탈출구":
            return "성공", 100 # 보상 부여
        else:
            return "벽", -1 # 벌점 부여

game = MazeGame()
next_state, score = game.step("탈출구")
print(f"상태: {next_state}, 보상: {score}")

HINT

에이전트의 행동과 보상을 뜻하는 영단어를 입력하세요.

실행 결과 예시

Action, Reward

INTERACTIVE SHELL Shift + Enter 로 즉시 실행

🎮 강화학습의 세계관

강화학습은 정답지가 없는 상태에서 시행착오(Trial and Error)를 통해 배웁니다.

에이전트(Agent): 학습 주체 (예: 미로를 찾는 쥐)
상태(State): 에이전트가 처한 상황 (예: 현재 좌표)
행동(Action): 에이전트가 하는 일 (예: 상/하/좌/우 이동)
보상(Reward): 행동의 결과에 대한 점수 (예: 치즈를 먹으면 +1, 함정에 빠지면 -1)

인공지능은 수많은 반복을 통해 "어떤 상황(State)에서 어떤 행동(Action)을 해야 가장 큰 보상(Reward)을 얻는가"를 스스로 깨우칩니다.

강화학습의 4대 구성 요소

🎮 강화학습의 세계관

용어사전