PROGRESS
6 / 7
단원
데이터 구조화: AI 전처리 17
데이터의 규칙: 예측 로직 14
옷의 시너스: 판단 로직 1
예와 아니오: 판단 로직 6
닮은꼴 찾기: 관계 로직 7
최적의 경로: 강화 로직 7
층층이 지능: 신경망 로직 7
전체 목록
QUESTION 06 #358
에이전트가 목표를 달성할 때까지 한 주기의 학습(에피소드)을 수행하는 표준 루프를 완성하세요.
main.py
env = MazeGame() # 미로 환경
done = False
while :
action = "오른쪽" # 실제로는 AI가 선택
# 환경과 상호작용하여 다음 상태와 보상, 종료 여부를 받아옴
next_state, reward, done = env.(action)
print(f"현재 상태: {next_state}")
print("에피소드 종료!")
HINT
반복문 지속 조건과 환경 상호작용 메서드명을 입력하세요.
실행 결과 예시
not done, step
INTERACTIVE SHELL
Shift + Enter 로 즉시 실행
🔄 에피소드(Episode)란?
강화학습에서 게임 시작부터 끝(성공 혹은 실패)까지의 한 판을 에피소드라고 부릅니다.
- 반복의 힘: 인공지능은 수만 번의 에피소드를 반복하면서 각 상황에서의 최적의 행동을 Q-Table에 업데이트합니다.
- 데이터의 특징: 학습 데이터가 미리 준비되어 있는 것이 아니라, 에이전트가 직접 움직이며 생성한 경험 데이터를 즉석에서 사용한다는 점이 강화학습의 가장 큰 차이점입니다.