본문 바로가기

728x90
반응형

분류 전체보기

(315)
[복습] Python | 분석 | 군집분석(2) 군집분석 - 거리 기반 모델 - 비지도 학습(Y 없음) - 여러 변수를 사용하여 각 데이터들끼리의 유사도를 거리로 측정하여 유사성이 높은 데이터들끼리 하나의 군집으로 묶는 과정 - 거리를 사용하여 유사성을 측정 ** 주의 1) 이상치에 민감 2) 스케일링에 민감 3) 변수 조합에 영향을 많이 받음 4) 변수의 형태에 영향을 많이 받음(범주형 보다는 수치형이 유리) 명목형일 때에는 일치도로 거리를 계산, 즉 변수의 형태에 영향을 받는다는 의미 1. 종류 1) 계층형 군집 분석 - 거리가 가장 가까운 데이터들끼리 순차적으로 그룹을 형성하는 과정(항상 동일한 결과 리턴) - 군집의 수가 정해져 있지 않아도 수행 가능 - 군집과의 거리를 정의해야 함(single, complete, average, centroi..
[복습] Python | 분석 | 회귀분석(2) - (전통)회귀분석 총정리 + 하루끝(20240215) 1. 데이터 로딩 2. EDA(Exploratory Data Anlaysis) 1) corr corr은 음의 값이 커져도 값이 유의미해지므로 절대값을 씌워서 해석해보는 것도 좋음. 다만 절대값을 씌우면 음의 상관관계는 알 수 없음에 주의할 것. 2) 분포 시각화 → 스케일링 고려가 필요한지 분포 시각화로 확인 pd에서 제공해주는 scatter는 dataframe을 받는다. 자기 자신에 대한 상관계수는 1이므로, 자기 자신에 대한 분포가 출력된다(대각선). time 변수가 정규성에 위배되어보이기는 하나, 문제가 되지는 않을 듯 하다. 회귀분석에서 선형성, 등분산성, 독립성, 정규성 등은 잔차의 정규성을 따라야 한다. 그런데 time은 잔차에 대한 그래프가 아니므로 문제가 되지 않는 것이다. 변수 분포를 보..
[복습] Python | 분석 | 연관분석(2) 연관분석 연습문제 데이터 로딩 방법 1) order id가 1번인 경우 결합 시도 모든 order_id 에 대해 반복 방법 2) 방법 3) [ 연습 문제 ] 품질검사원 A의 과거 기록을 분석한 결과 적합품(양품)을 부적합품(불량품)으로 판정하는 비율은 2%, 부적합품(불량품)을 적합품(양품)으로 판정하는 비율은 1%이었다. 이 공장의 부적합품(불량품) 생산 비율은 1%이다. 검사원 A가 어떤 제품을 부적합품(불량)으로 판정하였을 경우 실제로 부적합품(불량)일 확률은? P(실제부적합|부적합예측) 정답 : 0.33 [ 연습 문제 풀이 ] P(부적합예측|실제적합) = 0.02 P(적합예측|실제적합) = 0.98 P(적합예측|실제부적합) = 0.01 P(부적합예측|실제부적합) = 0.99 P(실제부적합) = 0..
[제품후기] 레이저 블랙위도우 V4 75% 화이트 에디션 (RAZER BLACKWIDOW V4 75% WHITE EDITION) 키보드 5일 사용후기 너무 스트레스 받는 날이었다. 시험도 코앞이고 집중도 되지 않는다. 작업실에서 빨리 집으로 돌아와 기분 전환을 하기 위해 외출을 하였다. 일렉트로마트에서 기분 전환을 하고 돌아왔을 때 손에 들려 있던 것이 바로 새 키보드이다. 개봉 이 키보드를 고른 이유는 단순히 키보드 타건 소리 때문이었다. 요즘에는 게임도 즐겨 하지 않기 때문에 게이밍 키보드를 살 이유는 딱히 없었으나 75% 사이즈를 써보고 싶기도 했기 때문이다. 오픈하자마자 보이는 모습이다. 플라스틱의 키보드 덮개 정도는 있을 줄 알았으나 비닐에 쌓여 있다. 287,000원 하는 제품인데 생각보다 단순하게 들어있구나하는 생각이 들었다. 키보드를 들어냈을 때의 모습이다. 아마 저 검은색 종이가 설명서일 것이다. 나는 설명서를 잘 보지 않는 편이다. ..
[복습] Python | 분석 | 연관분석(1) + 하루끝(20240214) 연관분석 - 비지도학습 - 장바구니 분석 = 서열 분석 - 각 장바구니 상품 간의 연관 규칙을 발견하는 모델링 기법 - 조건과 반응의 관계를 확률적으로 설명하는 기법 - 활용: 번들 상품, 진열 변경, 할인 쿠폰 발급, 추천 상품 노출 연관분석 데이터 셋(변경 전) 구매번호 상품명 수량 1 맥주 1 오징어 1 치즈 2 소주 2 맥주 2 라면 ↓ 코드로 연관분석 데이터 셋(변경 후) vlist = [['맥주', '오징어', '치즈'], ['소주', '맥주', '라면'], ['맥주', '오징어'], ['라면', '김치', '계란'], ['맥주', '소세지']] 평가 지표 1. 지지도(support) - 추천 연관 강도를 얼마나 지지할 수 있는 지에 대한 척도 - 너무 소수를 위한 추천 정책은 하지 않을 때 ..
[Python] imblearn 로딩 에러 sklearn과 imblearn 버전 호환 문제로 imblearn로딩시 에러 발생 1. sklearn 버전만 낮추기 pip uninstall scikit-learn -y pip uninstall scikit-learn -y #위 설치 에러나는 경우 한번 더 pip install scikit-learn==1.2.2 IDE 재시작 후 로딩 확인 import sklearn import imblearn 2. 둘 다 downgrade pip uninstall scikit-learn -y pip uninstall scikit-learn -y # 위 설치 에러나는 경우 한번 더 pip uninstall imbalanced-learn -y pip install scikit-learn==1.2.2 pip install ..
[복습] Python | 분석 | 상호작용(=교호작용, interaction effect) + 하루끝(20240213) - 설명변수들끼리의 교차곱 상태의 새로운 파생 변수 생성 기법 - 변수가 각각 종속변수에 영향을 주지는 않지만 두 개 이상의 변수가 교차곱 형태로 종속변수에 영향을 줄 수 있음 - 유효한 교호작용을 모를 경우 발생 가능한 모든 교호 작용을 출력 → 변수 중요도 확인(y가 factor) 또는 유의성 검정(y가 수치) 수행 - 스케일링 조정 후 변수 변환 필요 - 수치형 설명변수들에 대해 교차곱 생성이 의미를 가짐 예) y = x1 x2 x3 .... x10 x1^2 x2^2 ... x10^2 x1*x2 x1*x3 .... x1*x10 x1^3 x2^3 ... x10^3 x1*x2*x3 .... x1*x2*x10 예제 - iris data에서의 유의미한 interaction effect 찾기 1. 데이터 로..
[복습] Python | 분석 | 데이터 불균형(클래스 불균형) - 클래스 불균형: 분류 분석 시 각 클래스의 빈도 차이가 심한 경우 - 클래스 불균형이 심한 경우 다음의 문제 발생 1) 정확한 결정경계 생성이 어려움 → 과적합 발생 2) 예측 점수 신뢰도가 떨어짐 예) 100명 중 97명이 불합격, 3명이 합격인 경우 100명 모두 불합격이라고 해도 accuracy는 97%가 됨(실질적으로는 소수 클래스를 전혀 예측하지 못함 → 소수 클래스 accuracy 0%) - 다양한 측면에서의 분류 평가 지표를 확인할 필요가 있음. - 클래스 불균형일 경우 다수, 소수 클래스의 데이터를 조작하는 방식(언더, 오버 샘플링) 고려 가능 - 임계값 이동을 통해 소수 클래스 예측 비율을 조절하는 방식 고려 가능 - 기타 앙상블 기법이나 딥러닝 기법을 통해 클래스 불균형 문제를 해소..
[Python] 파이썬에서의 얕은 복사, 깊은 복사 파이썬은 객체 복사 시 얕은 복사와 깊은 복사 개념이 있음 파이썬의 객체 복사 유형 1) 얕은 복사(default) - 완전한 객체 복사가 이루어지지 않음 - 메모리를 공유하고 이름만 여러 개를 갖는 형태 2) 깊은 복사 - 완전히 물리적으로 분리된 객체 복사의 형태 - 객체 타입이 변경되거나 값이 재정의 될 때에는 깊은 복사가 수행됨 예) 리스트의 복사 메모리 주소값 확인 얕은 복사를 한 두 리스트의 주소 값이 같다. 같은 위치에 있다는 의미이다. shadow copy는 oracle에서 뷰와 같은 느낌이다. 즉, 물리적으로 분리되어 있지 않다. 물리적으로 분리하는 방법 deep copy 데이터프레임에서의 복사 emp_bak 파일도 바뀐 것을 확인할 수 있다.
[복습] Python | 분석 | 결측치 처리 - 결측치: NA, nan, ., ?, -, 공백 등으로 들어오는 데이터로, 정의되지 않은값, 잘못된 값 - 결측치 처리 1) 삭제 - 결측치를 포함한 행 삭제 - 결측치 비율이 높은 컬럼 삭제(30~40% 이상) 2) 대치 *** - 단순 대치: 한 번 대치 방법 1) 평균, 최빈값, 최대, 최소, 중앙값 등으로 대치 방법 2) 머신러닝 모델을 사용한 대치(knn imputer가 대표적. 편하기 때문에 사용하는 것이나 사용할 때 주의해야 할 점들이 있음) - 다중 대치: 여러 번 대치 ** knn imputer 대중성이 강한 방식이나 결측치의 끝판왕이 될 수늰 없음 knn 이라는 머신러닝 기법을 사용하여 NA를 예측하는 것으로, 적어도 knn 모델로 결측치를 대치하려면 knn의 특성을 알아야 함. kn..

728x90
반응형