본문 바로가기

배우기/기록의 중요성

예측모델링 이해한대로 작성하기(빅데이터 분석기사 시험장에서는?)

728x90
반응형

쉽게 말하여 결과에 영향을 미치는 원인변수가 있다고 하자(하나에서 두 개 이상). 이 원인변수로 y를 예측하고자 하는 것이 예측모델링이다.

 

의료 기록들로 생존률, 사망률을 예측하고자 한다. 사망, 생존을 factor라고 한다. y가 factor인 경우(범주형), 분류분석이라고 하며  y가 연속형인 경우(수치형)를 회귀분석이라고 한다.

 

이렇게 y가 존재하는 학습을 지도학습이라고 하며 여기서 y가 연속적이면 회귀분석, y가 factor이면 분류분석이라고 하는 것이다. 

 

y가 존재하지 않는 것도 있는데 이를 비지도 학습이라고 한다.

비지도 학습에서는 장바구니 분석(우유를 사는 사람이 빵도 구매할 확률) 등이 있으며, y가 없으면 주관적일 수밖에 없기 때문에 비지도 학습은 빅데이터 분석기사 시험에 나오기 어렵다. 그래서 회귀분석과 분류분석 위주로 공부하면 될 듯하다.

 

지도학습을 하려면 y가 실존하여야 하는데, 시험장에서는 y가 있는 데이터가 존재한다.(train x, train y가 주어짐. 학습용 데이터). 

자료의 패턴을 기계가 학습을 하게 되며, 내부 로직에 따라 학습하여 의미있는 패턴을 추출한다. 의미있는 패턴이 추출되면 예측 가능한 모델이 된다.

그 다음에  y가 없는 x를 준다(test x).

정답에 얼마나 가까운 예측을 하는지 답변을 제출하면 되는 것이다.

 

 

728x90
반응형