데이터 정제
결측치 정제
결측치 확인하기 pd.isna( )
결측치 제거하기 df.dropna(subset = [ ])
결측치 대체하기
혼자서 해보기
이상치 정제
존재할 수 없는 값 처리
이상치 확인
결측 처리
결측치 제거 후 분석
📌 np.where( ) : 문자와 NaN 함께 반환은 불가하다.
📌 문자와 NaN 을 함께 표시하고 싶을 때 아래와 같은 순서로 부여한다.
- 결측치로 만들고 싶은 값에 임의 문자 부여
- df.replace( ) 를 이용해 결측치로 만들고 싶은 문자 np.nan 로 변환
극단치(outlier)
Box plot
대표적으로 하위 25%, 75% 간 차이인 IQR(사분위범위) 값을 기준으로 상한, 하한값을 통해 극단치 경계값을 확인하여 그 값을 벗어나는 데이터들을 이상치로 분류한다.
이를 토대로 극단치 결측 처리를 위해 np.where( ) 함수를 사용한다.
혼자서 해보기
알게된 점
- 결측치 제거 전에도 연산에는 지장 없다.
- np.where( ) : 문자와 NaN 함께 반환은 불가하다.
- 필요시 df.replace( ) 활용
Reflection
오늘따라 월요병이 지독히 왔다. 피곤한 가운데 곧 진행할 파이썬 프로젝트의 기반을 닦기 위해 이해가 될 때까지 반복해서 읽고 실습을 하였다. 마침 개인적으로 rough 하게 프로젝트를 진행중인데, 수집한 데이터를 가지고 결측치, 이상치를 구분해 정제해보아야겠다.