본문 바로가기

728x90
반응형

전체 글

(315)
[복습] Python | 분석 | 부스팅 이론(2) 지난 시간 cancer data로 GB, RF의 트리의 수렴 구간 확인(elbow point 확인) 1. 데이터 로딩 1) RF 2) GB
[복습] Python | 분석 | 부스팅 이론(1) + 하루끝(20240206) - 트리기반 모델에서의 강한 예측기를 만들어주는 기법 - 정의: 약한 학습기에서 강한 학습기를 만들어 최종 모형 평가 부스팅 트리는 서로 독립적이지 않다. 앞의 결과 트리가 뒤의 결과 트리에 영향을 주기 때문이다. 이전 트리 오차를 보완하는 두 번째 트리를 만드는 과정을 반복하는 기법이다. 즉, 이전 학습 결과 오차를 반영한 새로운 학습기를 만드는 과정인 것이다. 조금 더 복잡해지는 모델을 계속 반복하여 만들게 된다. - 서로 트리들이 상호 연관(오차를 보완하다보니 트리들끼리 독립적이지 않음 → parallel 효과 없음, 즉 CPU 코어를 갖고 job을 할당하여 마지막에 job을 합치게 되는데 서로 독립적이지 않은 모델들 가지고 parallel test를 하면 속도를 더 저하시키는 요인이 되기도 함. ..
[복습] Python | 분석 | 이미지 인식 (2) 지난 시간 이미지 인식 분류 모델링을 PCA + KNN 를 적용하여 풀이하여보자. 우선 지난 시간 내용을 간단히 정리하면, knn 은 이미지의 유사도 기반으로 분류과제를 해결할 때 과거에 많이 사용한 기법이다. 최근에는 NN 모델을 많이 사용한다. 머신러닝과 딥러닝의 차이는, 머신러닝은 데이터를 평탄화시켜야 하나 딥러닝은 2차원 이미지를 그대로 인식한다. 평탄화하여서도 머신러닝으로 분류 분석이 가능한데 왜 2차원 이미지 그대로 학습하는 것이 왜 학습 효과가 클까? 그 이유는 하나의 픽셀보다는 인근 픽셀의 신호를 인식하여야 할 필요가 있기 때문이다. KNN으로 각각의 픽셀끼리의 유사성을 기반으로 이미지를 추출하는 것도 의미가 없진 않지만 flatten 시키면 인근 신호의 의미있는 추출이 어려울 수 있다. ..
[복습] Python | 분석 | 이미지 인식 (1) + 하루끝(20240205) - 이미지 하나는 2차원, 이미지 집합은 3차원 - 이미지 집합을 이미지 형태 그대로 학습시키려면 3차원 학습이 가능해야 함 > 머신 러닝 불가 - 머신러닝으로 학습 시키려면, 머신러닝용 reshape > 이미지를 모두 1차원으로 평탄화 - (집합 기준) 3차원 학습이 가능한 신경망 모델을 적용해야 함 예제 - mnist 손글씨(숫자) 분류 1. 데이터 로딩 pip install tensorflow pip install keras 층, 행, 열 순서로, train_x의 경우 6만개의 이미지 set이 28X28 픽셀 사이즈로 존재한다는 의미이다. test_x의 경우 1만개의 이미지 set이 28X28 픽셀 사이즈로 존재한다. train_x의 첫 번째 손글씨 값이 5라는 것을 확인할 수 있다. 실제 RGB ..
[복습] Python | 분석 | 교차검증(CV, Cross Validation) 교차검증 개념: 모델의 일반화 오차에 대한 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법 교차 검증 목적: 평가 점수의 일반화( = 오차의 일반화 규칙), 평가 점수의 신뢰도 향상 분석 모형에 따른 평가 지표 교차 검증 종류 - 홀드 아웃 교차 검증 - 다중 교차 검증 * 랜덤 서브 샘플링 * K-Fold Cross Validation * Leave-One_Out Cross Validation(LOOCV) * Leave-p-Out Cross Validation(LpOCV) * RLT(Repeated Learning-Testing) * 부트스트랩 다중 교차 검증 방식의 장점은 데이터 셋이 늘어난 다는 것이지만, 시간이 오래 걸린다는 단점이 있다. 홀드 아웃 교차 검증 - ..

728x90
반응형