본문 바로가기

728x90
반응형

전체 글

(315)
[복습] Python | 분석 | 군집분석(2) 군집분석 - 거리 기반 모델 - 비지도 학습(Y 없음) - 여러 변수를 사용하여 각 데이터들끼리의 유사도를 거리로 측정하여 유사성이 높은 데이터들끼리 하나의 군집으로 묶는 과정 - 거리를 사용하여 유사성을 측정 ** 주의 1) 이상치에 민감 2) 스케일링에 민감 3) 변수 조합에 영향을 많이 받음 4) 변수의 형태에 영향을 많이 받음(범주형 보다는 수치형이 유리) 명목형일 때에는 일치도로 거리를 계산, 즉 변수의 형태에 영향을 받는다는 의미 1. 종류 1) 계층형 군집 분석 - 거리가 가장 가까운 데이터들끼리 순차적으로 그룹을 형성하는 과정(항상 동일한 결과 리턴) - 군집의 수가 정해져 있지 않아도 수행 가능 - 군집과의 거리를 정의해야 함(single, complete, average, centroi..
[복습] Python | 분석 | 회귀분석(2) - (전통)회귀분석 총정리 + 하루끝(20240215) 1. 데이터 로딩 2. EDA(Exploratory Data Anlaysis) 1) corr corr은 음의 값이 커져도 값이 유의미해지므로 절대값을 씌워서 해석해보는 것도 좋음. 다만 절대값을 씌우면 음의 상관관계는 알 수 없음에 주의할 것. 2) 분포 시각화 → 스케일링 고려가 필요한지 분포 시각화로 확인 pd에서 제공해주는 scatter는 dataframe을 받는다. 자기 자신에 대한 상관계수는 1이므로, 자기 자신에 대한 분포가 출력된다(대각선). time 변수가 정규성에 위배되어보이기는 하나, 문제가 되지는 않을 듯 하다. 회귀분석에서 선형성, 등분산성, 독립성, 정규성 등은 잔차의 정규성을 따라야 한다. 그런데 time은 잔차에 대한 그래프가 아니므로 문제가 되지 않는 것이다. 변수 분포를 보..
[복습] Python | 분석 | 연관분석(2) 연관분석 연습문제 데이터 로딩 방법 1) order id가 1번인 경우 결합 시도 모든 order_id 에 대해 반복 방법 2) 방법 3) [ 연습 문제 ] 품질검사원 A의 과거 기록을 분석한 결과 적합품(양품)을 부적합품(불량품)으로 판정하는 비율은 2%, 부적합품(불량품)을 적합품(양품)으로 판정하는 비율은 1%이었다. 이 공장의 부적합품(불량품) 생산 비율은 1%이다. 검사원 A가 어떤 제품을 부적합품(불량)으로 판정하였을 경우 실제로 부적합품(불량)일 확률은? P(실제부적합|부적합예측) 정답 : 0.33 [ 연습 문제 풀이 ] P(부적합예측|실제적합) = 0.02 P(적합예측|실제적합) = 0.98 P(적합예측|실제부적합) = 0.01 P(부적합예측|실제부적합) = 0.99 P(실제부적합) = 0..
[제품후기] 레이저 블랙위도우 V4 75% 화이트 에디션 (RAZER BLACKWIDOW V4 75% WHITE EDITION) 키보드 5일 사용후기 너무 스트레스 받는 날이었다. 시험도 코앞이고 집중도 되지 않는다. 작업실에서 빨리 집으로 돌아와 기분 전환을 하기 위해 외출을 하였다. 일렉트로마트에서 기분 전환을 하고 돌아왔을 때 손에 들려 있던 것이 바로 새 키보드이다. 개봉 이 키보드를 고른 이유는 단순히 키보드 타건 소리 때문이었다. 요즘에는 게임도 즐겨 하지 않기 때문에 게이밍 키보드를 살 이유는 딱히 없었으나 75% 사이즈를 써보고 싶기도 했기 때문이다. 오픈하자마자 보이는 모습이다. 플라스틱의 키보드 덮개 정도는 있을 줄 알았으나 비닐에 쌓여 있다. 287,000원 하는 제품인데 생각보다 단순하게 들어있구나하는 생각이 들었다. 키보드를 들어냈을 때의 모습이다. 아마 저 검은색 종이가 설명서일 것이다. 나는 설명서를 잘 보지 않는 편이다. ..
[복습] Python | 분석 | 연관분석(1) + 하루끝(20240214) 연관분석 - 비지도학습 - 장바구니 분석 = 서열 분석 - 각 장바구니 상품 간의 연관 규칙을 발견하는 모델링 기법 - 조건과 반응의 관계를 확률적으로 설명하는 기법 - 활용: 번들 상품, 진열 변경, 할인 쿠폰 발급, 추천 상품 노출 연관분석 데이터 셋(변경 전) 구매번호 상품명 수량 1 맥주 1 오징어 1 치즈 2 소주 2 맥주 2 라면 ↓ 코드로 연관분석 데이터 셋(변경 후) vlist = [['맥주', '오징어', '치즈'], ['소주', '맥주', '라면'], ['맥주', '오징어'], ['라면', '김치', '계란'], ['맥주', '소세지']] 평가 지표 1. 지지도(support) - 추천 연관 강도를 얼마나 지지할 수 있는 지에 대한 척도 - 너무 소수를 위한 추천 정책은 하지 않을 때 ..

728x90
반응형