본문 바로가기

728x90
반응형

배우기/복습노트[Python과 분석]

(107)
[복습] Python | 분석 | 시계열 분석(2) 시계열 분석 중 LSTM은 분석 시 업데이트를 수행함. 이 말의 의미는, 시계열 모형이 가지고 있는 단점부터 파악해보자면 바로 직전 데이터로 다음 관찰 일을 예측하는 것이다. 그 다음 STEP은 예측값을 가지고 예측을 하게 된다. 그 다음 STEP은 또 예측한 가상의 값으로 예측을 수행하게 된다. 따라서 시간이 지날 수록 의미가 감소하는 것이다. 그러므로 업데이트라고 하는 것은, 예측한 값이 예측을 하는 행위를 막는 방법이다. 처음 설정된 train data로 다음 값을 예측하는 것은 의미가 있다. 그러나 predict value가 predict value를 예측 하는 것은 오차가 있으므로, 예측한 predict을 train으로 합쳐서 다시 그 다음을 예측하게 되는 것이다. 위 그림처럼 예측한 값이 다시..
[복습] Python | 분석 | 군집분석(5) 군집분석 - 거리기반 모델 - 설명변수가 수치형일수록 좋음 (범주형 → 범주형 거리 계산도 가능함) - 중요하든 중요하지 않든 같은 가중치를 주는 게 거리기반 모델의 단점 1. 거리 2. 모델링 1) 계층: 밀집한 데이터의 군집 형성에 효과적 2) 비계층: 밀집한 데이터의 군집 형성에 효과적. 초기 seed 값을 어디에 위치해도 결과적으로 군집은 잘 형성됨. 가장 안정적인 군집 분석(kmeans) 3) 혼합분호: 밀집한 데이터든 밀집하지 않은 데이터든 효과적으로 군집을 형성해줌. 즉, 밀집한 데이터일때에도 각 집합의 분포를 고려한 방식으로 군집을 형성함 4) DBSCAN: 기하학적 분포에 유리 5) SOM: 밀집한 데이터에 대해서 오히려 군집 형성에 효과적이지 않음. 군집간의 거리가 먼 데이터일 때 효과..
[복습] Python | 분석 | 군집분석(2) 군집분석 - 거리 기반 모델 - 비지도 학습(Y 없음) - 여러 변수를 사용하여 각 데이터들끼리의 유사도를 거리로 측정하여 유사성이 높은 데이터들끼리 하나의 군집으로 묶는 과정 - 거리를 사용하여 유사성을 측정 ** 주의 1) 이상치에 민감 2) 스케일링에 민감 3) 변수 조합에 영향을 많이 받음 4) 변수의 형태에 영향을 많이 받음(범주형 보다는 수치형이 유리) 명목형일 때에는 일치도로 거리를 계산, 즉 변수의 형태에 영향을 받는다는 의미 1. 종류 1) 계층형 군집 분석 - 거리가 가장 가까운 데이터들끼리 순차적으로 그룹을 형성하는 과정(항상 동일한 결과 리턴) - 군집의 수가 정해져 있지 않아도 수행 가능 - 군집과의 거리를 정의해야 함(single, complete, average, centroi..
[복습] Python | 분석 | 회귀분석(2) - (전통)회귀분석 총정리 + 하루끝(20240215) 1. 데이터 로딩 2. EDA(Exploratory Data Anlaysis) 1) corr corr은 음의 값이 커져도 값이 유의미해지므로 절대값을 씌워서 해석해보는 것도 좋음. 다만 절대값을 씌우면 음의 상관관계는 알 수 없음에 주의할 것. 2) 분포 시각화 → 스케일링 고려가 필요한지 분포 시각화로 확인 pd에서 제공해주는 scatter는 dataframe을 받는다. 자기 자신에 대한 상관계수는 1이므로, 자기 자신에 대한 분포가 출력된다(대각선). time 변수가 정규성에 위배되어보이기는 하나, 문제가 되지는 않을 듯 하다. 회귀분석에서 선형성, 등분산성, 독립성, 정규성 등은 잔차의 정규성을 따라야 한다. 그런데 time은 잔차에 대한 그래프가 아니므로 문제가 되지 않는 것이다. 변수 분포를 보..
[복습] Python | 분석 | 연관분석(2) 연관분석 연습문제 데이터 로딩 방법 1) order id가 1번인 경우 결합 시도 모든 order_id 에 대해 반복 방법 2) 방법 3) [ 연습 문제 ] 품질검사원 A의 과거 기록을 분석한 결과 적합품(양품)을 부적합품(불량품)으로 판정하는 비율은 2%, 부적합품(불량품)을 적합품(양품)으로 판정하는 비율은 1%이었다. 이 공장의 부적합품(불량품) 생산 비율은 1%이다. 검사원 A가 어떤 제품을 부적합품(불량)으로 판정하였을 경우 실제로 부적합품(불량)일 확률은? P(실제부적합|부적합예측) 정답 : 0.33 [ 연습 문제 풀이 ] P(부적합예측|실제적합) = 0.02 P(적합예측|실제적합) = 0.98 P(적합예측|실제부적합) = 0.01 P(부적합예측|실제부적합) = 0.99 P(실제부적합) = 0..
[복습] Python | 분석 | 연관분석(1) + 하루끝(20240214) 연관분석 - 비지도학습 - 장바구니 분석 = 서열 분석 - 각 장바구니 상품 간의 연관 규칙을 발견하는 모델링 기법 - 조건과 반응의 관계를 확률적으로 설명하는 기법 - 활용: 번들 상품, 진열 변경, 할인 쿠폰 발급, 추천 상품 노출 연관분석 데이터 셋(변경 전) 구매번호 상품명 수량 1 맥주 1 오징어 1 치즈 2 소주 2 맥주 2 라면 ↓ 코드로 연관분석 데이터 셋(변경 후) vlist = [['맥주', '오징어', '치즈'], ['소주', '맥주', '라면'], ['맥주', '오징어'], ['라면', '김치', '계란'], ['맥주', '소세지']] 평가 지표 1. 지지도(support) - 추천 연관 강도를 얼마나 지지할 수 있는 지에 대한 척도 - 너무 소수를 위한 추천 정책은 하지 않을 때 ..
[복습] Python | 분석 | 상호작용(=교호작용, interaction effect) + 하루끝(20240213) - 설명변수들끼리의 교차곱 상태의 새로운 파생 변수 생성 기법 - 변수가 각각 종속변수에 영향을 주지는 않지만 두 개 이상의 변수가 교차곱 형태로 종속변수에 영향을 줄 수 있음 - 유효한 교호작용을 모를 경우 발생 가능한 모든 교호 작용을 출력 → 변수 중요도 확인(y가 factor) 또는 유의성 검정(y가 수치) 수행 - 스케일링 조정 후 변수 변환 필요 - 수치형 설명변수들에 대해 교차곱 생성이 의미를 가짐 예) y = x1 x2 x3 .... x10 x1^2 x2^2 ... x10^2 x1*x2 x1*x3 .... x1*x10 x1^3 x2^3 ... x10^3 x1*x2*x3 .... x1*x2*x10 예제 - iris data에서의 유의미한 interaction effect 찾기 1. 데이터 로..
[복습] Python | 분석 | 데이터 불균형(클래스 불균형) - 클래스 불균형: 분류 분석 시 각 클래스의 빈도 차이가 심한 경우 - 클래스 불균형이 심한 경우 다음의 문제 발생 1) 정확한 결정경계 생성이 어려움 → 과적합 발생 2) 예측 점수 신뢰도가 떨어짐 예) 100명 중 97명이 불합격, 3명이 합격인 경우 100명 모두 불합격이라고 해도 accuracy는 97%가 됨(실질적으로는 소수 클래스를 전혀 예측하지 못함 → 소수 클래스 accuracy 0%) - 다양한 측면에서의 분류 평가 지표를 확인할 필요가 있음. - 클래스 불균형일 경우 다수, 소수 클래스의 데이터를 조작하는 방식(언더, 오버 샘플링) 고려 가능 - 임계값 이동을 통해 소수 클래스 예측 비율을 조절하는 방식 고려 가능 - 기타 앙상블 기법이나 딥러닝 기법을 통해 클래스 불균형 문제를 해소..
[복습] Python | 분석 | 결측치 처리 - 결측치: NA, nan, ., ?, -, 공백 등으로 들어오는 데이터로, 정의되지 않은값, 잘못된 값 - 결측치 처리 1) 삭제 - 결측치를 포함한 행 삭제 - 결측치 비율이 높은 컬럼 삭제(30~40% 이상) 2) 대치 *** - 단순 대치: 한 번 대치 방법 1) 평균, 최빈값, 최대, 최소, 중앙값 등으로 대치 방법 2) 머신러닝 모델을 사용한 대치(knn imputer가 대표적. 편하기 때문에 사용하는 것이나 사용할 때 주의해야 할 점들이 있음) - 다중 대치: 여러 번 대치 ** knn imputer 대중성이 강한 방식이나 결측치의 끝판왕이 될 수늰 없음 knn 이라는 머신러닝 기법을 사용하여 NA를 예측하는 것으로, 적어도 knn 모델로 결측치를 대치하려면 knn의 특성을 알아야 함. kn..
[복습] Python | 분석 | 부스팅 이론(2) 지난 시간 cancer data로 GB, RF의 트리의 수렴 구간 확인(elbow point 확인) 1. 데이터 로딩 1) RF 2) GB

728x90
반응형