회귀분석이란 인과관계를 밝히는 분석
Y가 연속형이지만 간혹 이산형으로 분석하기도 함.
즉, 수치형이라고 보면 됨.
단순 회귀분석은 x가 하나, 다중 회귀분석은 x가 여러 개로 y를 분석하는 것.
상관분석과 회귀분석은 엄밀히 말해 다른 분석.
상관분석은 원인과 결과 상관 없이 상관성이 있어 보이는가에 대한 분석
상관계수는 피어슨 correlation 로 측정을 함
연속형 수치일 때에 의미가 있음.
산점도를 그려보면 상관분석을 할 수가 있음.
회귀분석은 인과관계 분석에 초점이 되어야 함.
회귀분석에 중요한 규칙이 있는데, 회귀분석을 돌릴 때에는 독립변수와 종속변수가 등간척도 또는 비율척도로 구성되어야 함.
회귀분석 모델링을 잘못 설명하는 이유 중 하나는 x들이 factor가 많은 경우임. factor를 수치로 바꿨다 하더라도 설명변수에 많이 들어갈수록 회귀분석 결과가 나아지지 않음.
선형회귀(이론적 회귀분석과정): 회귀변수가 1차원이어야 함. y = ax+b. 여기서 a가 회귀계수.
회귀식의 조건 ★
MSE, MAE 척도들로 회귀식을 추정하는 것을 오차 제곱이 가장 최소화되는 회귀식을 추정한다라고 하여 최소제곱법에 의한 회귀식의 추정이라고 함.
오차와 기울기와의 관계를 표현하면 오차를 최소화시키는 특정 수렴 기간이 있을 것임. 2차함수 그래프가 됨. 오차가 최소화되는 구간의 순간 기울기는 0이 되어야 하는데 이 부분은 미분으로 구해야 함. 오차를 최소화시키는 기울기를 추정하는 과정.
회귀분석의 기본 가정
- 이론적 분석 기법: 이론적 분석 과정은 수식이 정해져 있는 상황임. 경험적 분석은 수식 없이 한 건 한 건을 학습시켜 오차가 나오면 오차와의 관계를 파악하여 내부적으로 얼마만큼 학습시켰는지에 따라 오차를 최소화하는 시점을 찾아서 기울기를 찾는 것임(딥러닝)
- 회귀분석은 regression 이라는 회귀분석 기법임(회귀분석은 이중적 기법인데, 첫 번째 기법으로는 y가 존재하는 지도학습 기법을 회귀분석이라고 하며, 두 번째 기법은 회귀분석을 돌릴 때 regressor 모델링 기법을 돌리는 것, 여기서는 후자를 의미함, 전통 회귀분석(전자)는 기본 가정을 충족하여야 함)
- 선형성, 정규성, 독립성, 등분산성, 다중공선성을 체크하여야 함.
다중회귀분석을 할 때에 신경써야 할 부분이 다중공선성
회귀계수의 의미는 x가 1씩 증가함에 따라 y가 얼마만큼 증가할 것이냐를 측정한 것으로, 모든 변수가 유의미하다는 가정 하에 각 x마다 회귀계수가 존재함. 그런데 x1이 증가할 때 x2도 증가하게 되면 x2의 회귀계수는 x1과 x2 둘 다에게서 연관성이 있는 것임. 이것이 다중공선성의 문제이며, 다중공선성 진단을 하여야 함.
'배우기 > 복습노트[R과 분석]' 카테고리의 다른 글
[복습] 분석 / 모델의 저장 (0) | 2024.01.26 |
---|---|
[복습] 분석 / 데이터 분석 과정과 데이터 전처리 + 하루끝(20231215) (0) | 2023.12.15 |
[실습문제] 2023. 12. 13.(수) (4문제) (0) | 2023.12.14 |
[복습] 분석 / 데이터마이닝과 예측모델링, 지도학습과 비지도학습 + 하루끝(20231213) (0) | 2023.12.13 |
[복습] R(programming language) 시각화(5) 시각화 기타 옵션 (0) | 2023.12.13 |