본문 바로가기

728x90
반응형

프로젝트 & 챌린지

(4)
회귀 과제) 변수 분석(2) - Outlet 변수들 분석 1. Outlet Type에 따른 Outlet Location Type 분석 Supermarket Type 1 : Tier 1, Tier 2, Tier 3 Supermarket Type 2 : Tier 3 Supermarket Type 3 : Tier 3 Grocery Store : Tier 1, Tier 3 여기서 알 수 있는 것: Tier 2는 Supermarket Type 1에만 있다. 2. Outlet Type에 따른 Outlet Size 분석 Supermarket Type 1 : High, Medium, Small 그리고 NA Supermarket Type 2 : Medium Supermarket Type 3 : Medium Grocery Store : Small, NA 여기서 알 수 있는 것:..
회귀 과제) 변수 분석 bigmart_train.csv 파일을 열어보았다. 1. Item_Identifier: Item 식별번호로 해석(factor), 종류는 1559개 (ChatGPT: 제품을 고유하게 식별하는 식별자. 열에 값에 따라 고유한 코드를 가짐) 내가 분석한 결과 다섯자리 글자 중 앞 두 글자와 뒤 세 글자를 분리하면 특정한 패턴을 띄는 것을 발견하였다. 예를 들어 ABC12 라는 Item_Identifier에서, AB는 따로 분리하고, C 자리는 A~Z로 구성되어 있고, 12는 01~60으로 구성되어 있으며, C12 자리만 떼어서 정렬하면 A01~Z60까지 구분자가 출력된다. 그리고 각 구분자마다 Item_Type이 하나씩 들어가게 된다. 그리고 일관된 패턴은 아니지만 같은 숫자 안에는 같은 Item_Type이 ..
회귀 과제) big mart 자료를 이용하여 분석하기(설명2) 라벨 인코딩 먼저 해보고 있을 것. 분석 시간은 오래 걸릴 듯함 1. 전처리 1) 변수 변환(라벨인코딩, 스케일링) 2) 결측치 처리 3) 파생변수 4) 변수 선택 4-1) 상관계수(수치 - 수치) 4-2) T통계량(범주 - 수치) 1), 2) 만 잘 해도 될 것 같음. 초기 MSE보다 올라가는 변환 기법을 알아가는 것이 좋겠음. MSE를 막대그래프화하여 비교하는 방법으로 나타내는 것이 좋겠음. train/test가 나뉜 경우 라벨 인코딩 결과는 같아야 함. 이에 대한 설명은 전 시간 자료에 설명되어 있음. https://metime.tistory.com/217 회귀 과제) big mart 자료를 이용하여 분석하기(설명1) 모델 선택 / 변수 연구(선택, 가공(변환), 파생변수 등) / 이상치 / 결측치..
회귀 과제) big mart 자료를 이용하여 분석하기(설명1) 모델 선택 / 변수 연구(선택, 가공(변환), 파생변수 등) / 이상치 / 결측치 라벨 인코딩 방법 문자 → 수치 변환 방법 1. 서로 다른 숫자로 변경(수치의 크기는 의미를 갖고 있지 않음) 방법2. 사용자 정의 순서대로 숫자 변환(순서형 자료 일 때 가능, ordered factor) 방법 3. 빈도수를 사용한 변환 방식(규모를 반영하기 좋음) 주의 train과 test가 나뉘어 있는 경우 라벨 인코딩 결과는 같아야 한다. 즉, 각 레벨이 갖는 매핑된 숫자는 train / test가 모두 일치하여야 한다.

728x90
반응형