PROGRESS
2 / 7
단원
데이터 구조화: AI 전처리 17
데이터의 규칙: 예측 로직 14
옷의 시너스: 판단 로직 1
예와 아니오: 판단 로직 6
닮은꼴 찾기: 관계 로직 7
최적의 경로: 강화 로직 7
층층이 지능: 신경망 로직 7
전체 목록
QUESTION 02 #354
강화학습에서 주인공(에이전트)이 상태에 따라 내리는 결정과 그에 따른 피드백을 뜻하는 용어를 빈칸에 채우세요.
main.py
class MazeGame:
def __init__(self):
self.state = "시작 지점"
# 1. 에이전트가 내리는 결정:
# 2. 결과에 따른 피드백:
def step(self, action):
if action == "탈출구":
return "성공", 100 # 보상 부여
else:
return "벽", -1 # 벌점 부여
game = MazeGame()
next_state, score = game.step("탈출구")
print(f"상태: {next_state}, 보상: {score}")
HINT
에이전트의 행동과 보상을 뜻하는 영단어를 입력하세요.
실행 결과 예시
Action, Reward
INTERACTIVE SHELL
Shift + Enter 로 즉시 실행
🎮 강화학습의 세계관
강화학습은 정답지가 없는 상태에서 시행착오(Trial and Error)를 통해 배웁니다.
- 에이전트(Agent): 학습 주체 (예: 미로를 찾는 쥐)
- 상태(State): 에이전트가 처한 상황 (예: 현재 좌표)
- 행동(Action): 에이전트가 하는 일 (예: 상/하/좌/우 이동)
- 보상(Reward): 행동의 결과에 대한 점수 (예: 치즈를 먹으면 +1, 함정에 빠지면 -1)
인공지능은 수많은 반복을 통해 "어떤 상황(State)에서 어떤 행동(Action)을 해야 가장 큰 보상(Reward)을 얻는가"를 스스로 깨우칩니다.