본문 바로가기

728x90
반응형

전체 글

(304)
[복습] Python 또 다른 형태의 교차표 생성(pd.crosstab, pivot, pivot_table) 1. crosstab - pd.crosstab 함수(cross table을 만들어주는 함수) - 범주형 자료 분석을 위한 빈도수에 대한 교차표 리턴시 주로 사용 - 요약 기능 가짐 적합도 검정, 동질성 검정, 독립성 검정 중 cross table을 만들겠다는 것은 독립성 검정을 위한 것이다. (일원 분할표는 동질성 검정) 예) 부서별로 JOB에 대한 배치가 다른지 확인 → DEPTNO, JOB에 대한 cross table이 필요하다는 의미 나중에 범주형 자료분석 할 때 빈도수를 쉽게 구할 수 있는 방법이기 때문에 많이 사용할 함수이다. 2. pivot / pivot_table (후자를 더 많이 사용함) 1) pivot - 이미 요약되어 있는 데이터를 교차표 형태로 만들어줌(요약 기능 → 평균, 총합 등의..
[복습] Python long data ↔ wide data 변환(stack, unstack) in R) stack / unstack, reshape2::melt(long data로 만들기), dcast(wide data로 만들기) ** long data / wide data 차이 1. long data - join 연산 가능 - group 연산 용이 - DBMS에 저장되는 형식 2. wide data - 교차표 - 요약정보(가독성이 좋음) - 행별, 열별 연산이 용이 - join 불가 ★ - 시각화, 범주형 분석 시 필요 1. unstack: long data → wide data df1.unstack(level = -1, # unstack 처리할 level (-1이 디폴트, 맨 마지막 레벨) fill_value) 예) 일반적인 unstack 처리 위 데이터를 unstack 처리를 하여보자. 파..
[복습] Python | 분석 | 불순도 + 하루끝(20240129) 불순도 1. 정의와 활용 - 정의: 범주형 자료의 클래스끼리 혼합되어있는 정도 - 활용: 분류모델에서의 변수 선택(변수 중요도 계산) 시 사용 2. 종류 1) Gini index: 한 노드의 불순도를 측정하는 척도 G = 1 - (p1^2 + p2^2 + ...) 2진 클래스의 불순도의 최고 → 반반 섞일 때 2진 클래스의 불순도의 최저 → 0 즉, 2진 클래스일 때 불순도 최고는 반반 섞일 때이므로 0.5, 가장 낮다는 것은 하나로만 구성된 것이므로 0 ** 그러므로 2진 클래스일 경우 p=0.5일 때 불순도 최대(G=0.5) p = 1 or 0 일때 불순도 최저(G=0) ** 클 수록 혼합되어있음을 나타낸다. 2) Entrophy index: 열역학에서 가져온 개념으로, 혼합 정도를 나타내는 척도. ..

728x90
반응형