본문 바로가기

728x90
반응형

배우기

(265)
[복습] Python 시각화(4) 산점도(scatter) - x축, y축 좌표 전달(수치형) - 두 변수의 상관관계 파악 가능 - 분류과제일 때(y가 factor일 때), y의 값 별로 색을 표현하여 종속변수 예측의 중요도가 높은 변수 식별 목적 plt.plot('scatter')로 표현한다. 예) iris data 산점도 그리기(colorbar 표현) STEP 1) 데이터 로딩 STEP 2) 화면 분할 예) iris data 산점도 그리기(y색 표현) 1) 컬러 자동 결정 2) 컬러맵 사용 3) 사용자 정의 색 지정
[복습] Python 시각화(3) plot의 세부옵션 등 plot의 세부 옵션 1) plot 내 옵션 전달 df3.plot(data, x, y, kind, ....) 2) plot 박에서 옵션 전달 → plt 내 함수식으로 사용 dir(plt) # plt 함수 목록 확인 plt.xticks? # xticks 만의 메뉴얼 확인 가능 x축 눈금 라벨 설정 plt.xticks(ticks, # 각 눈금 위치 labels. # 각 눈금 이름 rotation) # 회전 각도 눈금 세부 설정 plt.tick.params(axis = 'both', # 이게 default, 적용 대상 direction, length, # 눈금 길이 width, # 눈금 너비 color, # 눈금 색 pad, # 눈금과 눈금 라벨 사이 간격 labelsize, # 라벨 크기 labelcolor..
[복습] Python | 분석 | SVM(Support Vector Machine) (2) + 하루끝(20240131) 연습문제 iris 데이터를 사용하여 SVC 모형으로 비선형성을 강화시키면서 결정경계를 시각화 하여라. 단, iris의 setosa 클래스는 제외하며 petal 변수들만 고려하여 fitting 할 것. 1. 데이터 불러오기 2. 분포 형태 시각화 3. MinMax Scaling svm은 스케일링을 필요로 하는 모형이므로 변수 스케일링을 진행한다. MInMax Scaling 공식은 (X - Xmin()) / (Xmax() - Xmin()) 만일 standard scaling 을 사용하고 싶다면, f_standard = lambda x: (x - x.mean()) / s.std() 공식을 사용하여, DataFrame(X).apply(f_standard, axis = 0).values 로 진행하면 되겠다. 4...
[복습] Python 시각화(2) 선그래프 선그래프 호출방법 1) 객체 호출 방식 - 객체가 가진 정보가 시각화에 그대로 반영 s1 = Series([1, 7, 10, 11, 15, 26]) s1.plot() 2) subplot 호출 방식 ax1.plot(s1) 3) 함수 호출 방식 plt.plot(s1) 1. Series 에서의 plot - index가 x축 눈금으로 전달(index를 설정하는 것이 중요함) - index 이름이 x축 이름으로 전달됨(index 이름 설정 또한 중요함) 예) card_history.csv 파일을 살펴보자. 여기서 식료품만 추출(Series)하여 plot을 그려보겠다. 2. DataFrame 에서의 시각화 - wide data 일 때 각 컬럼별로 서로 다른 선 그래프 출력 - index가 x축 눈금으로 전달 - i..
[복습] Python 시각화(1) - matplotlib 패키지를 사용한 시각화 처리(seaborn, potly 등 여러 패키지가 있음) 1. spyder 에서는 옵션 설정 최초 1회 하고, 2. iPython 에서 접속할 때에도 시각화 옵션을 줘야 시각화가 가능하다. iPython 콘솔 실행 시, ipython --pylab 이라고 실행하여야 한다. 이런 식으로 그래프를 그릴 수 있다. figure, subplot - figure : 그래프가 출력되는 화면 - subplot : 실제 그래프가 그려지는 공간 - 그래프 출력 실행 시 자동으로 figure, subplot이 할당됨 하나의 figure에 여러 개의 subplot이 가능하다(4분할 등). 1. figure, subplot 직접 하나씩 할당 - figure, subplot 이름 ..
[복습] Python 시계열 데이터(2) https://metime.tistory.com/328 [복습] Python 시계열 데이터(datetime, strptime, strftime, pd.to_datetime, timedelta, pd.DateOffset) (1) 시계열 데이터 파이썬은 날짜가 어렵다. 나중에 시계열 분석할 때 파이썬으로 핸들링 하게 될 때 어려움을 겪을 수 있으니 잘 이해해두면 좋겠다. 아래의 모듈을 로드한다. from datetime import datetim metime.tistory.com 위 게시글에 이어서 시계열 데이터를 확인해보자. 6. 날짜 연속 출력 pd.date_range(start, # 시작 날짜 end, # 끝 날짜 periods, # 끝 날짜가 정해져있지 않은 경우 시작날짜로부터 몇 기간을 지정할 것인..
[복습] Python | 분석 | 랜덤포레스트(Random Forest, RF)(2) 마무리 https://metime.tistory.com/320 [복습] Python | 분석 | 랜덤포레스트(Random Forest, RF)(1) + 하루끝(20240126) - 대표적인 트리기반 모델 - 앙상블 모형(동일한, 혹은 서로 다른 모형을 결합하여 최종 결론을 내는 방식) - 모델링 목적: 서로 다른 트리를 구성하는 것 1) 부트스트랩(bootstrap): 학습 데이터와 동 metime.tistory.com 랜덤포레스트 마무리 게시글이다. from sklearn.ensemble import RandomForesetClassifier 랜덤포레스트 초매개변수 튜닝은 궁극적으로 tree의 depth를 조절하는 것이다. ** 초매개변수(hyper parameter) - n_estimators: 트리의 수 ..
[복습] Python 시계열 데이터(datetime, strptime, strftime, pd.to_datetime, timedelta, pd.DateOffset) (1) 시계열 데이터 파이썬은 날짜가 어렵다. 나중에 시계열 분석할 때 파이썬으로 핸들링 하게 될 때 어려움을 겪을 수 있으니 잘 이해해두면 좋겠다. 아래의 모듈을 로드한다. from datetime import datetime import time 1. 오늘 날짜 오늘 날짜는 datetime.now() 로 리턴하며, 연, 월, 일, 시, 분, 초, 나노세컨드 까지 출력된다. datetime.today()로도 똑같은 결과를 리턴할 수 있다. d1의 type를 확인해보면 datetime이라는 타입이 출력된다. 2. 날짜 파싱 1) strptime - 벡터 연산 불가 in R) as.Date(), strptime 예) 문자열(scalar)의 날짜 파싱 '2024/01/30' + 1 이 방법은 연산이 불가하다 → 날..
[복습] Python multi-index(2) https://metime.tistory.com/278 [복습] Python multi-index(1) 파이썬은 여러 레벨의 index, column 설정이 가능 가장 상위 레벨부터 0, 1, 2, ... 레벨 숫자 부여하여 지정 레벨 별로 정렬하며 그룹핑이 가능하고 삭제 또한 가능 1. 생성 멀티 인덱스는 아래와 같은 metime.tistory.com 지난 시간에 multi-index에 대해서 공부하였다. 오늘 이어서 마무리를 하려고 한다. 1. sort_index() - level을 전달하여 특정 level에 대한 순서대로 정렬 가능 2. groupby - level별 그룹핑 가능 3. drop - 특정 level 값을 삭제 여기까지 정리했었고, 이어서 공부해보겠다. 4. swaplevel - lev..
[복습] Python 또 다른 형태의 교차표 생성(pd.crosstab, pivot, pivot_table) 1. crosstab - pd.crosstab 함수(cross table을 만들어주는 함수) - 범주형 자료 분석을 위한 빈도수에 대한 교차표 리턴시 주로 사용 - 요약 기능 가짐 적합도 검정, 동질성 검정, 독립성 검정 중 cross table을 만들겠다는 것은 독립성 검정을 위한 것이다. (일원 분할표는 동질성 검정) 예) 부서별로 JOB에 대한 배치가 다른지 확인 → DEPTNO, JOB에 대한 cross table이 필요하다는 의미 나중에 범주형 자료분석 할 때 빈도수를 쉽게 구할 수 있는 방법이기 때문에 많이 사용할 함수이다. 2. pivot / pivot_table (후자를 더 많이 사용함) 1) pivot - 이미 요약되어 있는 데이터를 교차표 형태로 만들어줌(요약 기능 → 평균, 총합 등의..

728x90
반응형