본문 바로가기

728x90
반응형

전체 글

(315)
[복습] Python 벡터화 내장된 문자열 메서드(str) 백터화 내장된 문자열 메서드 - pandas 제공 - 기본 문자열 메서드가 벡터화가 불가능한 점을 보완 - 시리즈만 호출 가능(DataFrame 호출 불가, 리턴 형태도 Series) - str.______ 형태로 호출(ex. s1.str.upper()) 1. 대소 치환 위와 같은 방법은 에러가 발생한다. 그래서 map과 lambda를 사용하여 각 행마다의 lower 가 적용되도록 했다. 그러나 이제는 str인 벡터화 내장된 문자열 메서드를 사용하면 해결된다. dir(e1.str) 로 벡터화 내장된 문자열 메서드 목록을 확인할 수 있다. 2. 벡터화 내장된 색인 ★ 입사일에서 입사연도만 추출해보겠다. 위처럼 수행하면 Series에서 4개의 원소를 출력한다는 의미이므로 틀린 방법이다. map을 통해 Ser..
[Python] 의사결정나무(Decision Tree) 시각화 하기 1. graphviz 설치(window용) 1) 사이트 접속 https://graphviz.gitlab.io/_pages/Download/Download_windows.html 위 사이트에 접속한다. 2) 최신버전의 window용6 64bit 설치파일 다운 3) 설치파일 실행 [다음]으로 계속 넘어가다가 위 화면이 나오면 Add Graphviz to the system PATH for all users 또는 Add Graphviz to the system PATH for all current user 를 선택한다. 4) 파이썬용 graphviz 설치 cmd 창에서 pip install graphviz 실행한다. 5) 그리고 파이썬 IDE에서 import graphviz os.environ['PATH'] ..
[복습] Python | 분석 | 의사결정나무(Decision Tree) (2) https://metime.tistory.com/310 [복습] Python | 분석 | 의사결정나무(Decision Tree) (1)+ 하루끝(20240124) 의사결정나무(Decision Tree, DT)는 트리기반 분류모델 중 하나이다. 잠시 분류모델에 대하여 정리해보자. 분류모델 - tree: DT, RF, GBT, XGB, LightGBM(트리기반 모델로서 각광받고 있음). GBT까지는 old하고 metime.tistory.com 전 시간에 이어서 DT를 계속 알아보자. 트리 길이를 줄이기 위한 목적? 트리의 길이를 제한하는 이유는 무엇일까. 바로 과대적합을 방지하기 위해서이다. 트리가 계속 분류하려고 학습하다보면 우연한 규칙을 발견하게된다. 이러한 우연한 규칙은 일반화 시킬 수 없다. 즉 일반..
[복습] python 업무 능력 향상에 좋은 연습문제(라벨인코딩에 대하여) center_grade.csv 파일을 읽고 1) . 을 NA 처리하여라 sol 1) 파일을 불러올 때 .을 NA 처리 pd.read_csv 파일을 읽어올 때 na_values 옵션을 사용하면 바로 NA로 처리가 가능하다. 그냥 . 말고도 list형태로 여러가지를 넣을 수 있다. 그러나 어떤 데이터가 NA로 바뀌어야 하는지 알고 있는 경우에만 사용할 수 있다. sol 2) 2) 모든 컬럼의 값을 같은 기준으로 라벨인코딩 한 후 결과를 df2 에 저장하여라 우선 파이썬의 라벨인코딩 방식이다. m_enc.fit 할 때 mapping rule이 생성된다. 즉 unique value를 체크하여 각 value마다 숫자를 부여하는 것이다. m_enc.transform 에서 변환을 한다. mapping rule에 의한..
[복습] Python 데이터프레임에서 호출 시 연산 방향 위의 배열로 테스트를 해보겠다. array에 sum 메서드를 사용하면, numpy는 전체 총 합을 구하는 것이 default이다. DataFrame에서 sum메서드를 사용하면, 전체 총합이 아니라 axis = 0이 default 여서 한번 더 sum을 하여야 한다. 즉, 행별 총 합으로 연산 결과는 컬럼별로 묶어서 전달된다. 행별(세로방향) 총합(key별로)이 되는 것이다. 이렇게 두 번 적용하여야 전체 총 합이 된다.

728x90
반응형