728x90
반응형
데이터 분석 과정
데이터 수집 → 데이터 처리 및 가공(전처리: 결측치 처리, 이상치 처리, 품질을 높이기 위한 정제 과정) → 모델링 → 평가 → 결론
데이터 전처리
1. 변수 선택(매우 중요): 변수 선택을 도와주는 모델이 있으나(트리기반모델, 딥러닝), 일부 모델만 그러하다.
2. 변수 스케일링: 표준화 되지 않은 자료를 표준화 하는 것
3. 결측치 처리
4. 이상치 처리
5. 파생변수 생성: 파생변수란 분석가 입장에서 심혈을 기울여 만드는 변수로 이미 학습된, 이미 알려진 정보를 토대로 새로운 의미를 갖는 변수를 창출하는 기법. 창출된 변수.
6. 데이터의 불균형 처리
....
의사결정나무, 랜덤포레스트 등 데이터 분석에 대한 내용도 정리하였으나, 배포를 금하는 선생님의 수업 자료를 사용하였기에, 추후 내가 직접 만드는 자료로 대체하지 않는 한 비공개 처리를 유지할 예정이다.
오늘도 정리 끝. 집에 갑시다
728x90
반응형
'배우기 > 복습노트[R과 분석]' 카테고리의 다른 글
[복습] 분석 / 모델의 저장 (0) | 2024.01.26 |
---|---|
[복습] 분석 / 회귀분석 (0) | 2023.12.14 |
[실습문제] 2023. 12. 13.(수) (4문제) (0) | 2023.12.14 |
[복습] 분석 / 데이터마이닝과 예측모델링, 지도학습과 비지도학습 + 하루끝(20231213) (0) | 2023.12.13 |
[복습] R(programming language) 시각화(5) 시각화 기타 옵션 (0) | 2023.12.13 |