본문 바로가기

728x90
반응형

전체 글

(315)
[복습] Python 시계열 데이터(datetime, strptime, strftime, pd.to_datetime, timedelta, pd.DateOffset) (1) 시계열 데이터 파이썬은 날짜가 어렵다. 나중에 시계열 분석할 때 파이썬으로 핸들링 하게 될 때 어려움을 겪을 수 있으니 잘 이해해두면 좋겠다. 아래의 모듈을 로드한다. from datetime import datetime import time 1. 오늘 날짜 오늘 날짜는 datetime.now() 로 리턴하며, 연, 월, 일, 시, 분, 초, 나노세컨드 까지 출력된다. datetime.today()로도 똑같은 결과를 리턴할 수 있다. d1의 type를 확인해보면 datetime이라는 타입이 출력된다. 2. 날짜 파싱 1) strptime - 벡터 연산 불가 in R) as.Date(), strptime 예) 문자열(scalar)의 날짜 파싱 '2024/01/30' + 1 이 방법은 연산이 불가하다 → 날..
[복습] Python multi-index(2) https://metime.tistory.com/278 [복습] Python multi-index(1) 파이썬은 여러 레벨의 index, column 설정이 가능 가장 상위 레벨부터 0, 1, 2, ... 레벨 숫자 부여하여 지정 레벨 별로 정렬하며 그룹핑이 가능하고 삭제 또한 가능 1. 생성 멀티 인덱스는 아래와 같은 metime.tistory.com 지난 시간에 multi-index에 대해서 공부하였다. 오늘 이어서 마무리를 하려고 한다. 1. sort_index() - level을 전달하여 특정 level에 대한 순서대로 정렬 가능 2. groupby - level별 그룹핑 가능 3. drop - 특정 level 값을 삭제 여기까지 정리했었고, 이어서 공부해보겠다. 4. swaplevel - lev..
[복습] Python 또 다른 형태의 교차표 생성(pd.crosstab, pivot, pivot_table) 1. crosstab - pd.crosstab 함수(cross table을 만들어주는 함수) - 범주형 자료 분석을 위한 빈도수에 대한 교차표 리턴시 주로 사용 - 요약 기능 가짐 적합도 검정, 동질성 검정, 독립성 검정 중 cross table을 만들겠다는 것은 독립성 검정을 위한 것이다. (일원 분할표는 동질성 검정) 예) 부서별로 JOB에 대한 배치가 다른지 확인 → DEPTNO, JOB에 대한 cross table이 필요하다는 의미 나중에 범주형 자료분석 할 때 빈도수를 쉽게 구할 수 있는 방법이기 때문에 많이 사용할 함수이다. 2. pivot / pivot_table (후자를 더 많이 사용함) 1) pivot - 이미 요약되어 있는 데이터를 교차표 형태로 만들어줌(요약 기능 → 평균, 총합 등의..
[복습] Python long data ↔ wide data 변환(stack, unstack) in R) stack / unstack, reshape2::melt(long data로 만들기), dcast(wide data로 만들기) ** long data / wide data 차이 1. long data - join 연산 가능 - group 연산 용이 - DBMS에 저장되는 형식 2. wide data - 교차표 - 요약정보(가독성이 좋음) - 행별, 열별 연산이 용이 - join 불가 ★ - 시각화, 범주형 분석 시 필요 1. unstack: long data → wide data df1.unstack(level = -1, # unstack 처리할 level (-1이 디폴트, 맨 마지막 레벨) fill_value) 예) 일반적인 unstack 처리 위 데이터를 unstack 처리를 하여보자. 파..
[복습] Python | 분석 | 불순도 + 하루끝(20240129) 불순도 1. 정의와 활용 - 정의: 범주형 자료의 클래스끼리 혼합되어있는 정도 - 활용: 분류모델에서의 변수 선택(변수 중요도 계산) 시 사용 2. 종류 1) Gini index: 한 노드의 불순도를 측정하는 척도 G = 1 - (p1^2 + p2^2 + ...) 2진 클래스의 불순도의 최고 → 반반 섞일 때 2진 클래스의 불순도의 최저 → 0 즉, 2진 클래스일 때 불순도 최고는 반반 섞일 때이므로 0.5, 가장 낮다는 것은 하나로만 구성된 것이므로 0 ** 그러므로 2진 클래스일 경우 p=0.5일 때 불순도 최대(G=0.5) p = 1 or 0 일때 불순도 최저(G=0) ** 클 수록 혼합되어있음을 나타낸다. 2) Entrophy index: 열역학에서 가져온 개념으로, 혼합 정도를 나타내는 척도. ..

728x90
반응형