본문 바로가기

728x90
반응형

배우기/복습노트[R과 분석]

(59)
[복습] 분석 / 모델의 저장 모델을 수행하였다면 해당 모델을 저장하려면 다음과 같이 수행히면 된다. 예) Decision Tree 모델 수행 후 저장 library(rpart) m1
[복습] 분석 / 데이터 분석 과정과 데이터 전처리 + 하루끝(20231215) 데이터 분석 과정 데이터 수집 → 데이터 처리 및 가공(전처리: 결측치 처리, 이상치 처리, 품질을 높이기 위한 정제 과정) → 모델링 → 평가 → 결론 데이터 전처리 1. 변수 선택(매우 중요): 변수 선택을 도와주는 모델이 있으나(트리기반모델, 딥러닝), 일부 모델만 그러하다. 2. 변수 스케일링: 표준화 되지 않은 자료를 표준화 하는 것 3. 결측치 처리 4. 이상치 처리 5. 파생변수 생성: 파생변수란 분석가 입장에서 심혈을 기울여 만드는 변수로 이미 학습된, 이미 알려진 정보를 토대로 새로운 의미를 갖는 변수를 창출하는 기법. 창출된 변수. 6. 데이터의 불균형 처리 .... 의사결정나무, 랜덤포레스트 등 데이터 분석에 대한 내용도 정리하였으나, 배포를 금하는 선생님의 수업 자료를 사용하였기에,..
[복습] 분석 / 회귀분석 회귀분석이란 인과관계를 밝히는 분석 Y가 연속형이지만 간혹 이산형으로 분석하기도 함. 즉, 수치형이라고 보면 됨. 단순 회귀분석은 x가 하나, 다중 회귀분석은 x가 여러 개로 y를 분석하는 것. 상관분석과 회귀분석은 엄밀히 말해 다른 분석. 상관분석은 원인과 결과 상관 없이 상관성이 있어 보이는가에 대한 분석 상관계수는 피어슨 correlation 로 측정을 함 연속형 수치일 때에 의미가 있음. 산점도를 그려보면 상관분석을 할 수가 있음. 회귀분석은 인과관계 분석에 초점이 되어야 함. 회귀분석에 중요한 규칙이 있는데, 회귀분석을 돌릴 때에는 독립변수와 종속변수가 등간척도 또는 비율척도로 구성되어야 함. 회귀분석 모델링을 잘못 설명하는 이유 중 하나는 x들이 factor가 많은 경우임. factor를 수치..
[실습문제] 2023. 12. 13.(수) (4문제) 1. 보스턴 데이터(boston.csv) 범죄율 컬럼(CRIM) top 10 중 10번째 범죄율 값으로 1~10위의 범죄율 값을 변경 후 AGE 변수 80 이상의 범죄율 평균을 산출하여라. STEP 2의 Line 9와 11 중 앞으로는 Line 9와 같은 문법을 사용하라고 하셨다. 파이썬에서는 Line 11과 같은 문법이 먹히지 않기 때문이다. 2. 주어진 housing.csv 데이터 첫 번째 행부터 순서대로 80%까지의 데이터를 추출 후 'total_bedrooms' 변수의 결측값(NA)을 'total_bedrooms' 변수의 중앙값으로 대체하고 대체 전 표준편차와 대체 후의 표준편차 차이(양수)를 출력하여라. 3. insurance.csv 파일을 읽고 데이터의 특정 컬럼(bmi, charges)의 이..
[복습] 분석 / 데이터마이닝과 예측모델링, 지도학습과 비지도학습 + 하루끝(20231213) 데이터 마이닝: 방대한 데이터에서 유의미한 정보를 추출하는 모든 행위( != 예측모델링) 즉, 유의미한 데이터를 찾아가는 과정으로, 의문을 가지고 거기에 맞게끔 데이터를 찾아가는 과정임. 예측모델링은 기계학습이나 데이터 마이닝은 기계학습이 아님. 기계학습(machine learning): 데이터를 한 건씩 모델(기계 = 학습기 = 알고리즘)에 학습시켜 유의미한 패턴을 발견하도록 유도하는 분석 기법 기계학습의 분류(Y의 유무/형태에 따라) 1) 지도학습(supervised learning): 예측값 존재, 분석기사 실기 유형임 - 회귀분석: Y가 연속형 정확히 맞춘다는 개념이 없음, 그래서 회귀분석을 분류분석처럼 검증하면 안됨 / 실제값과의 gap으로 비교함. 이것이 오차 또는 잔차임(모집단에서는 오차, ..
[복습] R(programming language) 시각화(5) 시각화 기타 옵션 R의 시각화 마지막 게시글이다. 1. 화면분할: facet_grid Line 16과 Line 19의 차이점은 화면 분할을 1X3으로 했는가, 아니면 3X1로 했는가이다. 분석할 때에는 저 둘의 차이도 중요하다. 먼저 두 그림을 살펴보자. 상 하의 그래프를 살펴보면, 같은 그래프지만 해석하기로는 두 번째 그래프가 용이하다. 왜냐하면 세 그래프 모두 같은 x축을 공유하고 있기 때문에 x축을 같은 선상에 둔다면 좀 더 보기 좋은 시각화가 될 것이다. 이것은 정답이 아니라 분석마다 다른 것이다. Line 19처럼 구를 행의 위치에 둘 때에는 formular의 물결 오른쪽(열 위치)에는 .을 찍는다. 열 부분은 생략될 수 없다고 한다. 2. 테마 변경: theme~ theme_bw(), theme_void(), ..
[복습] R(programming language) 시각화(4) (ggplot2를 이용한 산점도, 선그래프, 막대그래프, 상자그림, 히스토그램, 확률밀도함수(KDE) 및 여러 옵션) 어제 ggplot2로 선그래프를 출력하여보았고 (아래 링크 참고) https://metime.tistory.com/174 [복습] R(programming language) 시각화(3) (box plot, histogram, polygon, ggplot2) + 하루끝(20231212) 지난 시간에 이어 시각화를 계속 학습하였다. 내일 시각화가 마무리 될 예정이다. 이제까지 배운 내용에 대한 복습 겸 오늘 배운 내용을 쭉 나열해보도록 하겠다. 설명이 없는 것은 지난 링크를 metime.tistory.com 오늘은 ggplot2로 여러 그래프를 표현하여보았다. 산점도 geom_point를 이용하여 점에 대한 옵션을 줄 수 있다. 현재는 점 크기(size)만 조정한 상태이다. 선그래프 geom_line 옵션으..
[실습문제] 2023. 12. 12.(화) (2문제) 1. delivery.csv 파일을 읽고 업종별로 시간대별 배달 현황의 흐름을 비교하는 선그래프를 출력하여라 2. x_train.csv, y_train.csv 파일을 읽고 총구매액과 최대구매액의 상관관계를 표현하는 산점도를 출력하여라. (단, 성별에 따른 점의 색 구분) 총구매액과 최대구매액의 상관계수를 구해보면 (cor(df_data$총구매액, df_data$최대구매액)) 0.7000803 이 나온다.
[복습] R(programming language) 시각화(3) (box plot, histogram, polygon, ggplot2) + 하루끝(20231212) 지난 시간에 이어 시각화를 계속 학습하였다. 내일 시각화가 마무리 될 예정이다. 이제까지 배운 내용에 대한 복습 겸 오늘 배운 내용을 쭉 나열해보도록 하겠다. 설명이 없는 것은 지난 링크를 확인하면 되겠다. https://metime.tistory.com/169 [복습] R(programming language) 시각화(1)(선그래프) + 하루끝(20231208) 시각화에는 기본 시각화 함수와 ggplot2 패키지가 있다. 우선 기본 시각화 함수로 여러 그래프를 출력해보도록 하겠다. 1. 선 그래프(산점도): 분포를 확인하거나 x축과 y축의 상관관계를 시각화하 metime.tistory.com https://metime.tistory.com/172 [복습] R(programming language) 시각..
[실습문제] 2023. 12. 11.(월) (2문제) 1. 병원현황.csv 파일을 읽고 연평균 병원수 기준 각 상위 5개 표시과목에 대해 연도별로 표시과목에 대한 비교 막대그래프를 출력하시오(같은 연도끼리 비교). 2. taxi_call.csv 파일을 읽고 택시 콜 수가 많은 상위 5개 시군구에 대해 각 시군구별 택시 콜 수의 시간대별 변화를 확인할 수 있는 선 그래프를 출력하여라

728x90
반응형