[복습] Python | 분석 | 결측치 처리
- 결측치: NA, nan, ., ?, -, 공백 등으로 들어오는 데이터로, 정의되지 않은값, 잘못된 값 - 결측치 처리 1) 삭제 - 결측치를 포함한 행 삭제 - 결측치 비율이 높은 컬럼 삭제(30~40% 이상) 2) 대치 *** - 단순 대치: 한 번 대치 방법 1) 평균, 최빈값, 최대, 최소, 중앙값 등으로 대치 방법 2) 머신러닝 모델을 사용한 대치(knn imputer가 대표적. 편하기 때문에 사용하는 것이나 사용할 때 주의해야 할 점들이 있음) - 다중 대치: 여러 번 대치 ** knn imputer 대중성이 강한 방식이나 결측치의 끝판왕이 될 수늰 없음 knn 이라는 머신러닝 기법을 사용하여 NA를 예측하는 것으로, 적어도 knn 모델로 결측치를 대치하려면 knn의 특성을 알아야 함. kn..