데이터 분석
1. 기계학습(machine learning)
머신에 데이터를 주고 한 건 한 건 학습을 한다. 데이터의 특성을 사용자가 스스로 파악할 수 없으므로 기계가 패턴을 발견해주는 것이다.
Y의 유무에 따라
1) 지도학습(supervised learning): Y가 있는 경우(예측모델링)
1-1) 회귀분석: Y가 수치형(설명변수는 수치형이든 factor이든 상관 없음)
예) sales 예측, 주택 가격 예측
1-2) 분류분석: Y가 범주형(설명변수는 상관 없음)
예) iris, titanic(y가 생존, 사망).
참고로 성별과 사망/생존은 범주 대 범주의 상관관계이므로 카이제곱검정을 하게 된다.
2) 비지도학습(unsupervised learning): Y가 없는 경우
2-1) 군집분석(클러스터링): 여러 개의 데이터를 소분류하고 싶을 때(큰 집합을 작은 집합으로 소분류하고자 할 때), 데이터 축소 테크닉이다.
예) 전체 학생을 3개의 집단으로 구성하여 class 운영
2-2) 연관분석: 데이터가 가지고 있는 연관규칙을 발견하고자 할 때(=장바구니 분석)
예) 편의점 영수증 데이터 분석 결과 불닭볶음면을 사면 90% 이상이 치즈스트링을 구매.
영수증 한 장이 매번 구매할 때마다의 하나의 장바구니가 된다. 상품들끼리의 연관성이 무엇인지를 보는 것이다. 그 사람이 무엇을 구매할지 예측하는 것이 아니다.
학습 기법에 따른 기계학습(ML) 분류
1. 회귀기반
2. 트리기반
3. 거리기반
4. 통계기반
5. 신경망기반(뉴럴 네트워크): 발전이 많이 되어 새로운 분석 학문인 것처럼 발전한 것이 딥러닝
머신러닝은 3차원 학습이 불가하나 딥러닝은 3차원 학습이 가능하다.(비정형데이터, 영상, 음성, 텍스트, 이미지)
2. 데이터 마이닝
각각의 데이터를 한 건 한 건 학습시키는 과정이 아닌 데이터 전반적으로 가지고 있는 정보를 찾아내는 과정이다.
예) 호황일 때 빨간색 립스틱 판매량 확인 VS. 불황일 때 빨간 립스틱 판매량 확인
→ 경제가 어려울 수록 빨간 립스틱 판매가 늘어남
이러한 연구 결과를 증명하기 위해서는 결과로 나오는 수치가 유의미한지에 대하여 통계분석이 들어가는 것이다.
독립적인 두 집단의 평균으로 접근하므로 T-TEST를 하면 되겠다.
H0: 호황일 때 빨간 립스틱 판매량 - 불황일 때 빨간 립스틱 판매량 = 0
H1: 호황일 때 빨간 립스틱 판매량 - 불황일 때 빨간 립스틱 판매량 < 0
통계는 이런식으로 응용하는 것이다.
즉 데이터마이닝은 인간이 직접 데이터 패턴을 확인하는 것이다.
마케팅 부서나 경영 전략팀, 이런 곳에서는 남들이 발견하지 못하는 특징을 발견할 필요가 있다.
신사업 등 발굴 필요가 있을 때 데이터 마이닝을 한다.
'배우기 > 복습노트[Python과 분석]' 카테고리의 다른 글
[실습문제] 2024. 1. 24.(수) (1문제) (0) | 2024.01.26 |
---|---|
[복습] Python | 분석 | 의사결정나무(Decision Tree) (1)+ 하루끝(20240124) (0) | 2024.01.26 |
[복습] Python 자료구조(4) (array) (0) | 2024.01.26 |
[복습] Python 집합연산자(union, intersection, difference, np.union1d, np.intersect1d, np.setdiff1d, pd.merge) (0) | 2024.01.25 |
[복습] Python 중복값 처리(unique, duplicated, drop_duplicates) (0) | 2024.01.25 |