에피소드와 반복 학습 루프

40 P
QUESTION 06 #358
에이전트가 목표를 달성할 때까지 한 주기의 학습(에피소드)을 수행하는 표준 루프를 완성하세요.
main.py
env = MazeGame() # 미로 환경
done = False

while :
    action = "오른쪽" # 실제로는 AI가 선택
    # 환경과 상호작용하여 다음 상태와 보상, 종료 여부를 받아옴
    next_state, reward, done = env.(action)
    
    print(f"현재 상태: {next_state}")

print("에피소드 종료!")
실행 결과 예시
not done, step
INTERACTIVE SHELL Shift + Enter 로 즉시 실행

🔄 에피소드(Episode)란?

강화학습에서 게임 시작부터 끝(성공 혹은 실패)까지의 한 판을 에피소드라고 부릅니다.

  • 반복의 힘: 인공지능은 수만 번의 에피소드를 반복하면서 각 상황에서의 최적의 행동을 Q-Table에 업데이트합니다.
  • 데이터의 특징: 학습 데이터가 미리 준비되어 있는 것이 아니라, 에이전트가 직접 움직이며 생성한 경험 데이터를 즉석에서 사용한다는 점이 강화학습의 가장 큰 차이점입니다.