새싹(SeSAC) | 전Z전능 데이터분석가/#3 Python 실무 프로젝트

[성동3기 전Z전능 데이터 분석가] DAY 20 _ 파이썬 교육 _ 데이터 정제 (결측치, 이상치, 극단치)

mindata1 2025. 1. 20. 17:03

데이터 정제

결측치 정제

 

 

결측치 확인하기 pd.isna( )

 

 

결측치 제거하기 df.dropna(subset = [ ])

 

 

결측치 대체하기

 

 

혼자서 해보기

 

 

이상치 정제

 

 

존재할 수 없는 값 처리

 

 

이상치 확인

 

 

결측 처리

 

 

결측치 제거 후 분석

 

 

 

📌 np.where( ) : 문자와 NaN 함께 반환은 불가하다.

 

 

📌 문자와 NaN 을 함께 표시하고 싶을 때 아래와 같은 순서로 부여한다.
  1. 결측치로 만들고 싶은 값에 임의 문자 부여
  2. df.replace( ) 를 이용해 결측치로 만들고 싶은 문자 np.nan 로 변환

 

 

극단치(outlier)

 

 

Box plot

 

대표적으로 하위 25%, 75% 간 차이인 IQR(사분위범위) 값을 기준으로 상한, 하한값을 통해 극단치 경계값을 확인하여 그 값을 벗어나는 데이터들을 이상치로 분류한다.

 

 

이를 토대로 극단치 결측 처리를 위해 np.where( ) 함수를 사용한다.

 

 

혼자서 해보기

 

 

알게된 점
  • 결측치 제거 전에도 연산에는 지장 없다.
  • np.where( ) : 문자와 NaN 함께 반환은 불가하다.
    • 필요시 df.replace( ) 활용

 

Reflection

 

오늘따라 월요병이 지독히 왔다. 피곤한 가운데 곧 진행할 파이썬 프로젝트의 기반을 닦기 위해 이해가 될 때까지 반복해서 읽고 실습을 하였다. 마침 개인적으로 rough 하게 프로젝트를 진행중인데, 수집한 데이터를 가지고 결측치, 이상치를 구분해 정제해보아야겠다.