본문 바로가기

728x90
반응형

전체 글

(304)
[복습] Python | 분석 | 회귀분석(2) - (전통)회귀분석 총정리 + 하루끝(20240215) 1. 데이터 로딩 2. EDA(Exploratory Data Anlaysis) 1) corr corr은 음의 값이 커져도 값이 유의미해지므로 절대값을 씌워서 해석해보는 것도 좋음. 다만 절대값을 씌우면 음의 상관관계는 알 수 없음에 주의할 것. 2) 분포 시각화 → 스케일링 고려가 필요한지 분포 시각화로 확인 pd에서 제공해주는 scatter는 dataframe을 받는다. 자기 자신에 대한 상관계수는 1이므로, 자기 자신에 대한 분포가 출력된다(대각선). time 변수가 정규성에 위배되어보이기는 하나, 문제가 되지는 않을 듯 하다. 회귀분석에서 선형성, 등분산성, 독립성, 정규성 등은 잔차의 정규성을 따라야 한다. 그런데 time은 잔차에 대한 그래프가 아니므로 문제가 되지 않는 것이다. 변수 분포를 보..
[복습] Python | 분석 | 연관분석(2) 연관분석 연습문제 데이터 로딩 방법 1) order id가 1번인 경우 결합 시도 모든 order_id 에 대해 반복 방법 2) 방법 3) [ 연습 문제 ] 품질검사원 A의 과거 기록을 분석한 결과 적합품(양품)을 부적합품(불량품)으로 판정하는 비율은 2%, 부적합품(불량품)을 적합품(양품)으로 판정하는 비율은 1%이었다. 이 공장의 부적합품(불량품) 생산 비율은 1%이다. 검사원 A가 어떤 제품을 부적합품(불량)으로 판정하였을 경우 실제로 부적합품(불량)일 확률은? P(실제부적합|부적합예측) 정답 : 0.33 [ 연습 문제 풀이 ] P(부적합예측|실제적합) = 0.02 P(적합예측|실제적합) = 0.98 P(적합예측|실제부적합) = 0.01 P(부적합예측|실제부적합) = 0.99 P(실제부적합) = 0..
[복습] Python | 분석 | 연관분석(1) + 하루끝(20240214) 연관분석 - 비지도학습 - 장바구니 분석 = 서열 분석 - 각 장바구니 상품 간의 연관 규칙을 발견하는 모델링 기법 - 조건과 반응의 관계를 확률적으로 설명하는 기법 - 활용: 번들 상품, 진열 변경, 할인 쿠폰 발급, 추천 상품 노출 연관분석 데이터 셋(변경 전) 구매번호 상품명 수량 1 맥주 1 오징어 1 치즈 2 소주 2 맥주 2 라면 ↓ 코드로 연관분석 데이터 셋(변경 후) vlist = [['맥주', '오징어', '치즈'], ['소주', '맥주', '라면'], ['맥주', '오징어'], ['라면', '김치', '계란'], ['맥주', '소세지']] 평가 지표 1. 지지도(support) - 추천 연관 강도를 얼마나 지지할 수 있는 지에 대한 척도 - 너무 소수를 위한 추천 정책은 하지 않을 때 ..

728x90
반응형