강화학습의 4대 구성 요소

40 P
QUESTION 02 #354
강화학습에서 주인공(에이전트)이 상태에 따라 내리는 결정과 그에 따른 피드백을 뜻하는 용어를 빈칸에 채우세요.
main.py
class MazeGame:
    def __init__(self):
        self.state = "시작 지점"

    # 1. 에이전트가 내리는 결정: 
    # 2. 결과에 따른 피드백: 
    def step(self, action):
        if action == "탈출구":
            return "성공", 100 # 보상 부여
        else:
            return "벽", -1 # 벌점 부여

game = MazeGame()
next_state, score = game.step("탈출구")
print(f"상태: {next_state}, 보상: {score}")
실행 결과 예시
Action, Reward
INTERACTIVE SHELL Shift + Enter 로 즉시 실행

🎮 강화학습의 세계관

강화학습은 정답지가 없는 상태에서 시행착오(Trial and Error)를 통해 배웁니다.

  • 에이전트(Agent): 학습 주체 (예: 미로를 찾는 쥐)
  • 상태(State): 에이전트가 처한 상황 (예: 현재 좌표)
  • 행동(Action): 에이전트가 하는 일 (예: 상/하/좌/우 이동)
  • 보상(Reward): 행동의 결과에 대한 점수 (예: 치즈를 먹으면 +1, 함정에 빠지면 -1)

인공지능은 수많은 반복을 통해 "어떤 상황(State)에서 어떤 행동(Action)을 해야 가장 큰 보상(Reward)을 얻는가"를 스스로 깨우칩니다.