[복습] Python | 분석 | 연관분석(1) + 하루끝(20240214)
연관분석 - 비지도학습 - 장바구니 분석 = 서열 분석 - 각 장바구니 상품 간의 연관 규칙을 발견하는 모델링 기법 - 조건과 반응의 관계를 확률적으로 설명하는 기법 - 활용: 번들 상품, 진열 변경, 할인 쿠폰 발급, 추천 상품 노출 연관분석 데이터 셋(변경 전) 구매번호 상품명 수량 1 맥주 1 오징어 1 치즈 2 소주 2 맥주 2 라면 ↓ 코드로 연관분석 데이터 셋(변경 후) vlist = [['맥주', '오징어', '치즈'], ['소주', '맥주', '라면'], ['맥주', '오징어'], ['라면', '김치', '계란'], ['맥주', '소세지']] 평가 지표 1. 지지도(support) - 추천 연관 강도를 얼마나 지지할 수 있는 지에 대한 척도 - 너무 소수를 위한 추천 정책은 하지 않을 때 ..
[복습] Python | 분석 | 결측치 처리
- 결측치: NA, nan, ., ?, -, 공백 등으로 들어오는 데이터로, 정의되지 않은값, 잘못된 값 - 결측치 처리 1) 삭제 - 결측치를 포함한 행 삭제 - 결측치 비율이 높은 컬럼 삭제(30~40% 이상) 2) 대치 *** - 단순 대치: 한 번 대치 방법 1) 평균, 최빈값, 최대, 최소, 중앙값 등으로 대치 방법 2) 머신러닝 모델을 사용한 대치(knn imputer가 대표적. 편하기 때문에 사용하는 것이나 사용할 때 주의해야 할 점들이 있음) - 다중 대치: 여러 번 대치 ** knn imputer 대중성이 강한 방식이나 결측치의 끝판왕이 될 수늰 없음 knn 이라는 머신러닝 기법을 사용하여 NA를 예측하는 것으로, 적어도 knn 모델로 결측치를 대치하려면 knn의 특성을 알아야 함. kn..