728x90
반응형
cancer.csv 파일을 읽고 적절한 인공변수 수를 파악하여라.
1. 데이터 로딩
2. 변수 스케일링
3. 차원축소(2, 3차원)
3) 시각화
3-1) 2차원
3-2) 3차원
4. 차원축소의 차원 수 결정
1) PCA
2) MDS
kruskal stress 결과로 0.05 이하면 좋기 때문에 6 이상에는 큰 의미가 없을 것으로 보여진다. 그러나 30개의 변수 중 인공변수를 5개 선택하는 것이 너무 적다고 생각이 든다면 15로 올리는 것도 괜찮다. 사용자의 입장에서 해석 후에 인공변수를 선택하면 된다. 여기서는 5개의 인공변수를 선택하도록 하겠다.
5. 활용(유도된 인공변수로 모델링)
STEP 1) 인공변수 유도
STEP 2) 분리
STEP 3) 모델링
STEP 4) 평가
차원축소는 변수를 탈락시키는 것과는 다르다. 기존 변수를 최대한 유지하며 차원을 낮추는 것이다. 모델을 단순화 할 때 많이 사용하는 기법이다.
회귀분석에서 다중공선성의 문제가 생기면 회귀계수를 신뢰할 수 없다. 여러 해결 방법 중 PCA 방법이 있는 것이다. 유도된 인공변수로 다시 회귀분석을 fitting 하면, PCA로 유도된 변수들은 서로 독립적이므로 독립변수들의 상관성이 해결이 된다. 이 유도변수로 회귀식에 다시 fitting 하면 된다.
728x90
반응형
'배우기 > 복습노트[Python과 분석]' 카테고리의 다른 글
[복습] Python | 분석 | 교차검증(CV, Cross Validation) (0) | 2024.02.11 |
---|---|
[복습] Python | 분석 | knn(거리기반 모델) (0) | 2024.02.11 |
[복습] Python | 분석 | 차원축소(PCA, MDS) (1) + 하루끝(20240202) (0) | 2024.02.09 |
[복습] Python | 분석 | SVM(Support Vector Machine) (4) (암의 양성 여부 예측) (0) | 2024.02.09 |
[복습] Python | 분석 | 스케일링(scaling) + 하루끝(20240201) (0) | 2024.02.08 |