본문 바로가기

728x90
반응형

전체 글

(304)
[복습] Python | 분석 | 차원축소(PCA, MDS) (1) + 하루끝(20240202) 차원축소(변수 결합으로 새로운 인공변수를 유도하는 방식) 1. 정의: 기존 변수들의 선형 결합으로 고차원 데이터를 저차원 데이터로 매핑(평탄화) 2. 활용: 시각화, 변수 결합, 차원축소(단순한 모델로 만들기 위한 방법 중 하나) 종류 1. PCA - 기존 데이터가 가지고 있는 분산은 최대한 유지하면서 차원 축소 - 분산 설명력으로 차원에 대한 최종 결정(몇 차원으로 선정할 지 결정) 변수들에 가중치를 부여해서 결합하는 방식을 가중합(=선형결합)이라고 한다. C1 = a1X1 + a2X2 + a3X3 + a4X4 이 때 기존 변수의 선형결합으로 차원을 축소하는 방법은 비지도학습이다. 변수의 변형이기 때문이다. 이에 따라 변수 스케일링도 비지도 학습이다. y가 불필요한 변수변환 기법이기 때문이다. 그래서 ..
[복습] Python | 분석 | SVM(Support Vector Machine) (4) (암의 양성 여부 예측) cancer.csv 파일을 사용한 암의 양성 여부 예측 SVM은 변수 조합이 중요한 모형이다. 따라서 사전에 변수를 선택(feature selection)하여야 한다. 일변량 분석의 경우 Y와 X 하나와의 관계를 의미한다. cancer data에서 Y는 두 개 class를 갖고, X는 수치 자료인 경우 ttest를 수행하게 된다. 그런데 다변량분석의 경우, 다른 변수들이랑 같이 고려가 되어야 할 때 변수들의 중요도가 어떻게 될 지는 변수들끼리 경쟁을 해보아야 한다. 이번 분석에서는 다변량 분석을 수행하여보자. 변수 중요도는 DT를 수행하여 출력을 할 것이다. 1) 변수 중요도 기준 상위 10개 컬럼 확인(전체 데이터 셋 훈련 결과) 2) 위 변수들로 SVM 모델링 수행(스케일링 필요) STEP 1) 스케..
[복습] Python | 분석 | 스케일링(scaling) + 하루끝(20240201) SVM, KNN, KMEANS 등 모델은 스케일링에 민감하다. 또한 회귀 분석 시, 회귀계수를 비교해야 할 때에는 스케일링이 반드시 선행되어야 한다. 딥러닝의 경우는 전부 스케일링이 되어야 한다. 즉, 거리기반 모델(KNN, KMEANS), (회귀 자체는 문제가 없으나) 회귀 계수를 구할 시, SVM, 딥러닝 시 필수 1. standard scale - 음수 출력 - 평균은 0, 표준편차는 1 (표준화 작업) (X - X.mean()) / X.std() 2. min_max_scale - 0 ~ 1사이에 분포 (X - X.min()) / (X.max() - X.min()) 3. robust scale - 사분위수를 사용한 스케일링 (X - q2) / (q3 - q1) 예제) iris data set을 사용..

728x90
반응형