본문 바로가기

728x90
반응형

전체 글

(304)
[복습] Python | 분석 | 랜덤포레스트(Random Forest, RF)(1) + 하루끝(20240126) - 대표적인 트리기반 모델 - 앙상블 모형(동일한, 혹은 서로 다른 모형을 결합하여 최종 결론을 내는 방식) - 모델링 목적: 서로 다른 트리를 구성하는 것 1) 부트스트랩(bootstrap): 학습 데이터와 동일한 크기의 복원추출을 허용한 데이터셋을 각 트리마다 복습 (서로 다른 트리를 구성하기 위한 모델 내부에서 선택한 기법 중 하나) 2) 임의성 정도(max_features): 각 분류 기준을 만들 때 모든 설명변수를 고려하지 않고 랜덤하게 선택된 일부 변수 중에서 중요한 변수로 결정 (복원추출을 허용하여 가져와도 비슷한 데이터셋이 추출될 가능성이 높은데 이런 것들을 서로 다르게 표현하기 위하여 임의성 정도에 대한 알고리즘이 필요함. 랜덤하게 선택된 일부 변수 중 하나를 고려) in R) mtry ..
[복습] Python 자료구조(6) (array) https://metime.tistory.com/312 [복습] Python 자료구조(5) (array) https://metime.tistory.com/307 [복습] Python 자료구조(4) (array) - 다차원 - 단 하나의 데이터 타입만 허용(수치연산) - 일상적으로는 잘 사용하지 않으나(데이터프레임 사용), 딥러닝 코드 구현시 사용 1. 생 metime.tistory.com 위 게시글에 이어 마지막 array 정리이다. 1. 생성 2. 주요메서드 3. 색인 4. 3차원 배열의 연산 까지 위 링크에 정리했다. 5. 변경(행 추가, 열 추가) - np.vstack, np.hstack 예) 행 추가(결합) pd.concat을 사용하여 a1과 a2를 결합하고자 한다. 함수는 원래 안에 들어가는 객..
[복습] Python 벡터화 내장된 문자열 메서드(str) 백터화 내장된 문자열 메서드 - pandas 제공 - 기본 문자열 메서드가 벡터화가 불가능한 점을 보완 - 시리즈만 호출 가능(DataFrame 호출 불가, 리턴 형태도 Series) - str.______ 형태로 호출(ex. s1.str.upper()) 1. 대소 치환 위와 같은 방법은 에러가 발생한다. 그래서 map과 lambda를 사용하여 각 행마다의 lower 가 적용되도록 했다. 그러나 이제는 str인 벡터화 내장된 문자열 메서드를 사용하면 해결된다. dir(e1.str) 로 벡터화 내장된 문자열 메서드 목록을 확인할 수 있다. 2. 벡터화 내장된 색인 ★ 입사일에서 입사연도만 추출해보겠다. 위처럼 수행하면 Series에서 4개의 원소를 출력한다는 의미이므로 틀린 방법이다. map을 통해 Ser..

728x90
반응형