본문 바로가기

728x90
반응형

전체 글

(304)
[Python] 의사결정나무(Decision Tree) 시각화 하기 1. graphviz 설치(window용) 1) 사이트 접속 https://graphviz.gitlab.io/_pages/Download/Download_windows.html 위 사이트에 접속한다. 2) 최신버전의 window용6 64bit 설치파일 다운 3) 설치파일 실행 [다음]으로 계속 넘어가다가 위 화면이 나오면 Add Graphviz to the system PATH for all users 또는 Add Graphviz to the system PATH for all current user 를 선택한다. 4) 파이썬용 graphviz 설치 cmd 창에서 pip install graphviz 실행한다. 5) 그리고 파이썬 IDE에서 import graphviz os.environ['PATH'] ..
[복습] Python | 분석 | 의사결정나무(Decision Tree) (2) https://metime.tistory.com/310 [복습] Python | 분석 | 의사결정나무(Decision Tree) (1)+ 하루끝(20240124) 의사결정나무(Decision Tree, DT)는 트리기반 분류모델 중 하나이다. 잠시 분류모델에 대하여 정리해보자. 분류모델 - tree: DT, RF, GBT, XGB, LightGBM(트리기반 모델로서 각광받고 있음). GBT까지는 old하고 metime.tistory.com 전 시간에 이어서 DT를 계속 알아보자. 트리 길이를 줄이기 위한 목적? 트리의 길이를 제한하는 이유는 무엇일까. 바로 과대적합을 방지하기 위해서이다. 트리가 계속 분류하려고 학습하다보면 우연한 규칙을 발견하게된다. 이러한 우연한 규칙은 일반화 시킬 수 없다. 즉 일반..
[복습] python 업무 능력 향상에 좋은 연습문제(라벨인코딩에 대하여) center_grade.csv 파일을 읽고 1) . 을 NA 처리하여라 sol 1) 파일을 불러올 때 .을 NA 처리 pd.read_csv 파일을 읽어올 때 na_values 옵션을 사용하면 바로 NA로 처리가 가능하다. 그냥 . 말고도 list형태로 여러가지를 넣을 수 있다. 그러나 어떤 데이터가 NA로 바뀌어야 하는지 알고 있는 경우에만 사용할 수 있다. sol 2) 2) 모든 컬럼의 값을 같은 기준으로 라벨인코딩 한 후 결과를 df2 에 저장하여라 우선 파이썬의 라벨인코딩 방식이다. m_enc.fit 할 때 mapping rule이 생성된다. 즉 unique value를 체크하여 각 value마다 숫자를 부여하는 것이다. m_enc.transform 에서 변환을 한다. mapping rule에 의한..

728x90
반응형