본문 바로가기

배우기/복습노트[Python과 분석]

[복습] Python | 분석 | 데이터 분석 들어가기

728x90
반응형

데이터 분석

 

1. 기계학습(machine learning)

머신에 데이터를 주고 한 건 한 건 학습을 한다. 데이터의 특성을 사용자가 스스로 파악할 수 없으므로 기계가 패턴을 발견해주는 것이다.

 

 

Y의 유무에 따라

1) 지도학습(supervised learning): Y가 있는 경우(예측모델링)

  1-1) 회귀분석: Y가 수치형(설명변수는 수치형이든 factor이든 상관 없음)

    예) sales 예측, 주택 가격 예측

  1-2) 분류분석: Y가 범주형(설명변수는 상관 없음)

    예) iris, titanic(y가 생존, 사망).  

        참고로 성별과 사망/생존은 범주 대 범주의 상관관계이므로 카이제곱검정을 하게 된다.

  2) 비지도학습(unsupervised learning): Y가 없는 경우

  2-1) 군집분석(클러스터링): 여러 개의 데이터를 소분류하고 싶을 때(큰 집합을 작은 집합으로 소분류하고자 할 때), 데이터 축소 테크닉이다.

    예) 전체 학생을 3개의 집단으로 구성하여 class 운영

  2-2) 연관분석: 데이터가 가지고 있는 연관규칙을 발견하고자 할 때(=장바구니 분석)

    예) 편의점 영수증 데이터 분석 결과 불닭볶음면을 사면 90% 이상이 치즈스트링을 구매.

      영수증 한 장이 매번 구매할 때마다의 하나의 장바구니가 된다. 상품들끼리의 연관성이 무엇인지를 보는 것이다. 그 사람이 무엇을 구매할지 예측하는 것이 아니다.

 

 

 

학습 기법에 따른 기계학습(ML) 분류

1. 회귀기반

2. 트리기반

3. 거리기반

4. 통계기반

5. 신경망기반(뉴럴 네트워크): 발전이 많이 되어 새로운 분석 학문인 것처럼 발전한 것이 딥러닝

 

머신러닝은 3차원 학습이 불가하나 딥러닝은 3차원 학습이 가능하다.(비정형데이터, 영상, 음성, 텍스트, 이미지)

 

 

 

2. 데이터 마이닝

각각의 데이터를 한 건 한 건 학습시키는 과정이 아닌 데이터 전반적으로 가지고 있는 정보를 찾아내는 과정이다.

  예) 호황일 때 빨간색 립스틱 판매량 확인 VS. 불황일 때 빨간 립스틱 판매량 확인

  → 경제가 어려울 수록 빨간 립스틱 판매가 늘어남

이러한 연구 결과를 증명하기 위해서는 결과로 나오는 수치가 유의미한지에 대하여 통계분석이 들어가는 것이다. 

 

독립적인 두 집단의 평균으로 접근하므로 T-TEST를 하면 되겠다.

 

H0: 호황일 때 빨간 립스틱 판매량 - 불황일 때 빨간 립스틱 판매량 = 0

H1: 호황일 때 빨간 립스틱 판매량 - 불황일 때 빨간 립스틱 판매량 < 0

통계는 이런식으로 응용하는 것이다.

 

즉 데이터마이닝은 인간이 직접 데이터 패턴을 확인하는 것이다.

 

마케팅 부서나 경영 전략팀, 이런 곳에서는 남들이 발견하지 못하는 특징을 발견할 필요가 있다. 

신사업 등 발굴 필요가 있을 때 데이터 마이닝을 한다.

 

728x90
반응형