군집분석
- 거리기반 모델
- 설명변수가 수치형일수록 좋음 (범주형 → 범주형 거리 계산도 가능함)
- 중요하든 중요하지 않든 같은 가중치를 주는 게 거리기반 모델의 단점
1. 거리
2. 모델링
1) 계층: 밀집한 데이터의 군집 형성에 효과적
2) 비계층: 밀집한 데이터의 군집 형성에 효과적. 초기 seed 값을 어디에 위치해도 결과적으로 군집은 잘 형성됨. 가장 안정적인 군집 분석(kmeans)
3) 혼합분호: 밀집한 데이터든 밀집하지 않은 데이터든 효과적으로 군집을 형성해줌. 즉, 밀집한 데이터일때에도 각 집합의 분포를 고려한 방식으로 군집을 형성함
4) DBSCAN: 기하학적 분포에 유리
5) SOM: 밀집한 데이터에 대해서 오히려 군집 형성에 효과적이지 않음. 군집간의 거리가 먼 데이터일 때 효과적임. 즉, 군집간 거리가 멀 때 군집형성 효과적
3. 평가 대상
1) 군집의 수
2) 모델링 종류
4. 평가 지표
1) 변동량(분산)
- SSB/SST : 좋은 군집일수록 커짐
- SSW/SST : 좋은 군집일수록 작아짐
- SSB/SSW : 좋은 군집일수록 커짐. 1)보다 수치 변동 폭이 큼. 확실한 차이를 벌릴 때 사용.
2) 실루엣 계수(거리 기반)
3) Dunn Index
예제 - 기하학 분포의 특성을 갖는 데이터의 군집 형성 과정 비교(kmeans VS. DBSCAN)
1. 데이터 로딩
균등하게 두 집단이분리됨.
2. 스케일링
3. 모델링
1) kmeans
2) DBSCAN
4. 비교 시각화
'배우기 > 복습노트[Python과 분석]' 카테고리의 다른 글
[복습] Python | 분석 | 딥러닝(ANN) (0) | 2024.04.01 |
---|---|
[복습] Python | 분석 | 시계열 분석(2) (0) | 2024.03.10 |
[복습] Python | 분석 | 군집분석(2) (0) | 2024.03.05 |
[복습] Python | 분석 | 회귀분석(2) - (전통)회귀분석 총정리 + 하루끝(20240215) (0) | 2024.03.04 |
[복습] Python | 분석 | 연관분석(2) (0) | 2024.03.04 |