본문 바로가기

배우기/복습노트[R과 분석]

[복습] 분석 / 데이터 분석 과정과 데이터 전처리 + 하루끝(20231215)

728x90
반응형

데이터 분석 과정

 

데이터 수집 → 데이터 처리 및 가공(전처리: 결측치 처리, 이상치 처리, 품질을 높이기 위한 정제 과정) → 모델링 → 평가 → 결론

 

 

데이터 전처리

1. 변수 선택(매우 중요): 변수 선택을 도와주는 모델이 있으나(트리기반모델, 딥러닝), 일부 모델만 그러하다.

2. 변수 스케일링: 표준화 되지 않은 자료를 표준화 하는 것

3. 결측치 처리

4. 이상치 처리

5. 파생변수 생성: 파생변수란 분석가 입장에서 심혈을 기울여 만드는 변수로 이미 학습된, 이미 알려진 정보를 토대로 새로운 의미를 갖는 변수를 창출하는 기법. 창출된 변수.

6. 데이터의 불균형 처리

....

 

 

 

 

의사결정나무, 랜덤포레스트 등 데이터 분석에 대한 내용도 정리하였으나, 배포를 금하는 선생님의 수업 자료를 사용하였기에, 추후 내가 직접 만드는 자료로 대체하지 않는 한 비공개 처리를 유지할 예정이다.

오늘도 정리 끝. 집에 갑시다

728x90
반응형