[복습] Python | 분석 | 군집분석(5)

728x90

군집분석

- 거리기반 모델

- 설명변수가 수치형일수록 좋음 (범주형 → 범주형 거리 계산도 가능함)

- 중요하든 중요하지 않든 같은 가중치를 주는 게 거리기반 모델의 단점

1. 거리

2. 모델링

1) 계층: 밀집한 데이터의 군집 형성에 효과적

2) 비계층: 밀집한 데이터의 군집 형성에 효과적. 초기 seed 값을 어디에 위치해도 결과적으로 군집은 잘 형성됨. 가장 안정적인 군집 분석(kmeans)

3) 혼합분호: 밀집한 데이터든 밀집하지 않은 데이터든 효과적으로 군집을 형성해줌. 즉, 밀집한 데이터일때에도 각 집합의 분포를 고려한 방식으로 군집을 형성함

4) DBSCAN: 기하학적 분포에 유리

5) SOM: 밀집한 데이터에 대해서 오히려 군집 형성에 효과적이지 않음. 군집간의 거리가 먼 데이터일 때 효과적임. 즉, 군집간 거리가 멀 때 군집형성 효과적

3. 평가 대상

1) 군집의 수

2) 모델링 종류

4. 평가 지표

1) 변동량(분산)

- SSB/SST : 좋은 군집일수록 커짐

- SSW/SST : 좋은 군집일수록 작아짐

- SSB/SSW : 좋은 군집일수록 커짐. 1)보다 수치 변동 폭이 큼. 확실한 차이를 벌릴 때 사용.

2) 실루엣 계수(거리 기반)

3) Dunn Index

예제 - 기하학 분포의 특성을 갖는 데이터의 군집 형성 과정 비교(kmeans VS. DBSCAN)

1. 데이터 로딩

균등하게 두 집단이분리됨.

2. 스케일링

3. 모델링

1) kmeans

2) DBSCAN

4. 비교 시각화

728x90

[복습] Python \| 분석 \| 딥러닝(ANN) (0)	2024.04.01
[복습] Python \| 분석 \| 시계열 분석(2) (0)	2024.03.10
[복습] Python \| 분석 \| 군집분석(2) (0)	2024.03.05
[복습] Python \| 분석 \| 회귀분석(2) - (전통)회귀분석 총정리 + 하루끝(20240215) (0)	2024.03.04
[복습] Python \| 분석 \| 연관분석(2) (0)	2024.03.04

개발새발