파이온 - Python Online Learning

AI/머신러닝 기초 과정

PROGRESS

6 / 7

단원 데이터 구조화: AI 전처리 17 데이터의 규칙: 예측 로직 14 옷의 시너스: 판단 로직 1 예와 아니오: 판단 로직 6 닮은꼴 찾기: 관계 로직 7 최적의 경로: 강화 로직 7 층층이 지능: 신경망 로직 7 전체 목록

이전 문제 다음 문제

에피소드와 반복 학습 루프

40 P

QUESTION 06 #358

에이전트가 목표를 달성할 때까지 한 주기의 학습(에피소드)을 수행하는 표준 루프를 완성하세요.

main.py

env = MazeGame() # 미로 환경
done = False

while :
    action = "오른쪽" # 실제로는 AI가 선택
    # 환경과 상호작용하여 다음 상태와 보상, 종료 여부를 받아옴
    next_state, reward, done = env.(action)
    
    print(f"현재 상태: {next_state}")

print("에피소드 종료!")

HINT

반복문 지속 조건과 환경 상호작용 메서드명을 입력하세요.

실행 결과 예시

not done, step

INTERACTIVE SHELL Shift + Enter 로 즉시 실행

🔄 에피소드(Episode)란?

강화학습에서 게임 시작부터 끝(성공 혹은 실패)까지의 한 판을 에피소드라고 부릅니다.

반복의 힘: 인공지능은 수만 번의 에피소드를 반복하면서 각 상황에서의 최적의 행동을 Q-Table에 업데이트합니다.
데이터의 특징: 학습 데이터가 미리 준비되어 있는 것이 아니라, 에이전트가 직접 움직이며 생성한 경험 데이터를 즉석에서 사용한다는 점이 강화학습의 가장 큰 차이점입니다.

에피소드와 반복 학습 루프

🔄 에피소드(Episode)란?

용어사전