본문 바로가기

배우기/복습노트[Python과 분석]

[복습] Python | 분석 | 군집분석(5)

728x90
반응형

군집분석

 - 거리기반 모델

 - 설명변수가 수치형일수록 좋음 (범주형 → 범주형 거리 계산도 가능함)

 - 중요하든 중요하지 않든 같은 가중치를 주는 게 거리기반 모델의 단점

 

1. 거리

 

2. 모델링

 1) 계층: 밀집한 데이터의 군집 형성에 효과적

 2) 비계층: 밀집한 데이터의 군집 형성에 효과적. 초기 seed 값을 어디에 위치해도 결과적으로 군집은 잘 형성됨. 가장 안정적인 군집 분석(kmeans)

 3) 혼합분호: 밀집한 데이터든 밀집하지 않은 데이터든 효과적으로 군집을 형성해줌. 즉, 밀집한 데이터일때에도 각 집합의 분포를 고려한 방식으로 군집을 형성함

 4) DBSCAN: 기하학적 분포에 유리

 5) SOM: 밀집한 데이터에 대해서 오히려 군집 형성에 효과적이지 않음. 군집간의 거리가 먼 데이터일 때 효과적임. 즉, 군집간 거리가 멀 때 군집형성 효과적

 

3. 평가 대상

 1) 군집의 수

 2) 모델링 종류

 

4. 평가 지표

 1) 변동량(분산)

 - SSB/SST : 좋은 군집일수록 커짐

 - SSW/SST : 좋은 군집일수록 작아짐

 - SSB/SSW : 좋은 군집일수록 커짐. 1)보다 수치 변동 폭이 큼. 확실한 차이를 벌릴 때 사용.

 2) 실루엣 계수(거리 기반)

 3) Dunn Index

 

 

 

예제 - 기하학 분포의 특성을 갖는 데이터의 군집 형성 과정 비교(kmeans VS. DBSCAN)

 

1. 데이터 로딩

균등하게 두 집단이분리됨.

 

 

 

 

2. 스케일링

 

 

 

3. 모델링

1) kmeans

 

 

2) DBSCAN

 

 

 

4. 비교 시각화

 

 

728x90
반응형