본문 바로가기

배우기/복습노트[R과 분석]

[복습] 분석 / 데이터마이닝과 예측모델링, 지도학습과 비지도학습 + 하루끝(20231213)

728x90
반응형

데이터 마이닝: 방대한 데이터에서 유의미한 정보를 추출하는 모든 행위( != 예측모델링)

즉, 유의미한 데이터를 찾아가는 과정으로, 의문을 가지고 거기에 맞게끔 데이터를 찾아가는 과정임.

 

예측모델링은 기계학습이나 데이터 마이닝은 기계학습이 아님.

 

기계학습(machine learning): 데이터를 한 건씩 모델(기계 = 학습기 = 알고리즘)에 학습시켜 유의미한 패턴을 발견하도록 유도하는 분석 기법

 

 

기계학습의 분류(Y의 유무/형태에 따라)

1) 지도학습(supervised learning): 예측값 존재, 분석기사 실기 유형임

  - 회귀분석: Y가 연속형

정확히 맞춘다는 개념이 없음, 그래서 회귀분석을 분류분석처럼 검증하면 안됨 / 실제값과의 gap으로 비교함. 이것이 오차 또는 잔차임(모집단에서는 오차, 표본에서는 잔차라는 용어를 사용하며 굳이 비교하지는 않으나 분석에서는 잔차가 올바른 개념이 되겠음). 

그런데 오차에는  +와 -가 있음. 이들이 합쳐지면 정확한 오차를 계산할 수 없음. 그래서 오차에 절대값을 씌우거나 제곱합을 사용함. 그것이 SSE(Sum of Squared Error, 오차 제곱합, 잔차 제곱합). 그런데 표본의 개수가 다르면 오차의 제곱 합의 크기 비교에도 오류가 생김. 그래서 평균을 하게 되어서 MSE(Mean Squared Error, 평균제곱합)가 필요함.  그런데 주택 가격 등에 대한 MSE를 구하는데 주택 가격은 키(height, cm)와는 다르게 자릿수가 커서 루트를 씌우게 됨. 그게 바로 RMSE(Root Mean Square Error)임.

즉, 회귀분석은 SSE, MSE, RMSE로 평가

 

  - 분류분석: Y가 factor형

accuracy(정답을 맞출 확률)로 평가

 

 

2) 비지도학습(un supervised learning): 예측값 비존재

 

 

지도학습의 평가과정

적절한 비율로 학습 dataset과 평가 dataset으로 나눈 후 → 학습 데이터를 학습시켜 적절한 모델 생성 → 해당 모델을 통해 dataset을 예측(predict) → predict value(=예측값, fitted value, 적합값) 추출 → predict value와 실제값을 비교

 

 

위의 지도학습과 비지도학습을 다시 정리하면,

지도학습: 인간 개입에 의한 분석 방법

 - 종속변수 존재(입력 데이터에 정답 포함)

 - 분석방법: 가설검정(확률/통계)

 - 분석 유형: 회귀, 분류, 시계열 분석 → 추론통계 기반

 

비지도학습: 컴퓨터 기계학습에 의한 분석 방법

 - 종속변수(y) 없음(입력 데이터에 정답 없음)

 - 분석 방법: 규칙(패턴분석)

 - 분석 유형: 연관분석, 군집분석 → 데이터마이닝 기반

 

 

 

지도학습 중 분석유형에 시계열 분석이 있는데 시계열 분석에는 y가 어디 있을까?

 

예를 들어 다음의 주가 데이터가 있다고 가정하자.

2023/01/01/   50,000원

2023/01/02    49,000원

2023/01/03    48,000원

2023/01/04    49,500원

2023/01/05    50,500원

시계열 분석은 주기를 설정하는데, 위의 데이터까지만 수집되었다고 가정한다면 미래는 2023/01/06 이다.

결론부터 말하자면 시계열은 과거 데이터가 x가 되고 미래 데이터가 y가 된다.

3주기라고 하면 3주기가 x가 되고 그 다음주기가 y가 된다.

즉, 1열로 된 벡터자료가 되는 것이다.

x1은 49,000, x2은 48,000, x3은49,500이라면 y는 50,500이 되는 것이다.

위처럼 5개 자료로 3주기 분석을 수행하면 두 번 해석이 가능하다.

즉 1월 1일~3일까지 분석하면 4일을 y로 사용하고,

1월 2일~4일까지 분석하면 5일을 y로 사용하는 것이다.

1월 3일~5일을 분석하면 6일자료는 없기 때문에 학습결과를 비교할 y가 없다.

그렇기 때문에 시계열 자료는 주기 설정이 중요하다.

많은 주기를 설정하고나 너무 짧은 주기를 설정하면 예측이 안될 수도 있다.

정리하자면 시계열 분석의 가정은 과거로부터 미래를 예측하는 것이며, 이상탐지, 조기감지 등이 시계열분석이 되겠다.

 

 

 

* 회귀분석: 인과관계 예측

회귀분석이라고 하면 무조건 인과관계를 파악해야 함을 기억하여야 한다.

인과관계가 높으면 상관관계가 있고 이에 다라 회귀분석에 의미가 있다.

여기서 주의할 점이 있는데, 예를 들어 주택 가격을 예측하는 데에 있어 해당 지역의 평균 주택 가격을 넣는 것에 대한 점이다. 당연히 해당 지역의 평균 주택 가격이 올라가면 주택 가격이 상승하는 데에 영향은 있으나 평균 주택 가격으로 인하여 주택 가격이 상승하는 것은 아니다. 이 점에 유의하여야 한다.

인과관계는 원인-결과 이기 때문에 원인변수와 결과변수를 정의하는 것이 중요하다.

다른 회귀분석의 오류를 살펴보자. 아이스크림 판매량이 있는데 익사사고수와 높은 상관관계가 밝혀졌다. 그렇다면 아이스크림 판매량을 높이기 위해서는 익사사고수를 올려야 하는 것이 아닌데 여기서의 오류가 바로 인과관계인 것이다.

익사사고수로 인하여 아이스크림 판매량이 올라가는 것이 아니기 때문이다. 이는 계절적 요인으로 분석된다.

기온이 들어갈 수는 있으나 기온은 시계열자료로 미래 아이스크림 판매량을 예측하기 위해서는 기온 자료 또한 예측이 되어야 하는 단점이 있다. 그러나 안되는 것은 아니다. 모델 안에 모델이 들어가게 되는 것이다.

 

 

오늘은 지도학습 중 회귀분석에 대하여 중점적으로 설명해주셨고 내일부터는 분석과 통계 수업으로 들어갈 것이다.

728x90
반응형