파이온 - Python Online Learning

import pandas as pd import numpy as np df = pd.DataFrame({ '이름': ['민수', '영희', '지우'], '포인트': [100, np.nan, 150] }) # 결측치(NaN)를 0으로 채워 데이터의 누락을 방지합니다. df['포인트'] = df['포인트'].(0) print(df)

fillna()로 결측값 채우기

실제 데이터에는 빈 칸(결측값, NaN)이 자주 존재합니다. 이를 적절한 값으로 채우는 것이 결측값 처리입니다.

NaN이란?

NaN은 "Not a Number"의 약자로, 데이터가 비어있음을 나타내는 특수한 값입니다.

import numpy as np
df = pd.DataFrame({
    '이름': ['민수', '서희', '지연'],
    '포인트': [100, np.nan, 150]
})

   이름   포인트
0  민수  100.0
1  서희    NaN   ← 빈 칸 (결측값)
2  지연  150.0

fillna() 사용법

df['포인트'] = df['포인트'].fillna(0)

채우기 전:          채우기 후:
   이름   포인트       이름   포인트
0  민수  100.0     0  민수  100.0
1  서희    NaN  →  1  서희    0.0  ← 0으로 채워짐
2  지연  150.0     2  지연  150.0

다양한 채우기 방법

코드	설명
`df.fillna(0)`	모든 NaN을 0으로
`df['점수'].fillna(df['점수'].mean())`	해당 열의 평균으로
`df.fillna(method='ffill')`	바로 위의 값으로
`df.fillna(method='bfill')`	바로 아래의 값으로

NaN이 위험한 이유

# NaN이 있으면 계산 결과도 NaN!
100 + np.nan  →  nan
np.nan > 0    →  False

NaN이 포함된 데이터로 합계나 평균을 구하면 결과가 왜곡될 수 있습니다. 그래서 분석 전에 반드시 결측값을 처리해야 합니다.

💡 핵심: 결측값 처리는 데이터 분석의 첫 번째 단계입니다. fillna()로 채우거나 dropna()로 제거하세요.

NumPy란?
NumPy(넘파이)는 'Numerical Python'의 약자로, 파이썬에서 수치 계산을 쉽고 빠르게 할 수 있도록 돕는 가장 핵심적인 라이브러리입니다.

Pandas가 '표(Table)' 데이터를 다루는 데 특화되어 있다면, NumPy는 그 표의 밑바탕이 되는 '숫자 배열(Array)' 자체를 효율적으로 처리하는 역할을 합니다.

NaN 데이터 형: nan은 데이터가 비어있음을 뜻하며, 그대로 두면 연산 시 오류가 발생할 수 있습니다.
np.nan은 파이썬의 기본 데이터 형이 아니라 NumPy(또는 Pandas)에서 정의한 특수한 데이터 값입니다.

빈 칸 채우기:
df['포인트'].fillna(0): "포인트" 열에서 비어있는 칸, np.nan을 모두 0으로 채워줍니다.

빈 칸 채우기 : fillna()

fillna()로 결측값 채우기

NaN이란?

fillna() 사용법

다양한 채우기 방법

NaN이 위험한 이유

용어사전