거리 기반 모델의 필수 과정: 스케일링

40 P
QUESTION 06 #352
데이터의 단위가 다르면 거리 계산에 오류가 생깁니다. 모든 값을 0~1 사이로 맞추는 Min-Max 스케일링 공식을 완성하세요.
main.py
def min_max_scale(data):
    min_val = min(data)
    max_val = max(data)
    
    # (현재값 - 최소값) / (최대값 - 최소값)
    scaled = [(x - ) / (max_val - ) for x in data]
    return scaled

raw_data = [10, 20, 30, 40, 50]
scaled_data = min_max_scale(raw_data)

print(f"스케일링 결과: {scaled_data}")
실행 결과 예시
min_val, min_val
INTERACTIVE SHELL Shift + Enter 로 즉시 실행

⚖️ 왜 단위를 맞춰야 하나요? (Feature Scaling)

예를 들어 사용자의 나이(0~100)연봉(0~1억)이라는 두 특징이 있다고 가정해 봅시다.

  • 단위를 맞추지 않으면, 연봉의 숫자가 훨씬 크기 때문에 거리 계산 시 나이 차이는 거의 무시되고 연봉 차이만 반영됩니다.
  • 정규화(Normalization): 모든 특징의 영향력을 공평하게 만들기 위해 숫자의 범위를 통일하는 필수 전처리 과정입니다.

"데이터 사이의 관계"를 정확히 측정하려면 반드시 공정한 저울(Scaling)이 필요합니다.