본문 바로가기

프로젝트 & 챌린지/프로젝트 연습

회귀 과제) 변수 분석

728x90
반응형

 

bigmart_train.csv 파일을 열어보았다.

 

 

1. Item_Identifier: Item 식별번호로 해석(factor), 종류는 1559개

(ChatGPT: 제품을 고유하게 식별하는 식별자. 열에 값에 따라 고유한 코드를 가짐)

 

내가 분석한 결과 다섯자리 글자 중 앞 두 글자와 뒤 세 글자를 분리하면 특정한 패턴을 띄는 것을 발견하였다.

예를 들어 ABC12 라는 Item_Identifier에서, AB는 따로 분리하고, C 자리는 A~Z로 구성되어 있고, 12는 01~60으로 구성되어 있으며, C12 자리만 떼어서 정렬하면 A01~Z60까지 구분자가 출력된다.

그리고 각 구분자마다 Item_Type이 하나씩 들어가게 된다.

그리고 일관된 패턴은 아니지만 같은 숫자 안에는 같은 Item_Type이 들어간다.

예를 들어, A21, B21, C21 ~ Z21에는 Fruits and Vegetables 가 들어간다. (개수는 여러 개가 들어감)

그런데 완전히 꼭 일치하는 것은 아님에 유의하자.

이렇게 되는 걸 보면 어떠한 패턴에 의해 만들어진 식별자라는 걸 파악할 수 있겠다.

 

 

 

2. Item_Weight: Item 무게로 해석(수치), NA있음.

(ChatGPT: 제품의 무게)

 

3. Item_Fat_Content: Item 지방함유량으로 해석(factor), 종류는 5개인데, "Low Fat", "Regular", "low fat", "LF", "reg"가 있음. 여기서 LF는 Low Fat으로, reg는 Regular로, low fat은 Low Fat으로 통일해야 할 필요성이 있음.

(ChatGPT: 제품의 지방 함량)

 

4. Item_Visibility: Item 가시성으로 해석(아이템이 소비자에게서 얼마나 눈에 띄는지의 정도인가?) (수치)

(ChatGPT: 제품이 매장 내에서 가시성에 대한 열. 이 값은 제품이 진열대에 얼마나 잘 보이는지를 나타냄.)

내 해석이 맞다면 종속변수와 상관성이 꽤 있을 것으로 판단됨. 

→ 상관관계 없음

이것밖에 안나옴

 

5. Item_Type: Item 구분으로 해석(factor). 종류는 16개.  "Dairy", "Soft Drink", "Meat", "Fruits and Vegetables", "Household", "Baking Goods", "Snack Foods", "Frozen Foods", "Breakfast", "Health and Hyginen", "Hard Drinks", "Canned", "Breads", "Starchy Foods", "Others", "Seafood"

(ChatGPT: 제품의 유형 또는 카테고리)

 

6. Item_MRP: 감이 오지 않은 변수(수치)

(ChatGPT: 제품의 최대 소매 가격. 이 값은 제품이 가격이 얼마나 높은지 나타냄)

 

7. Outlet_Identifier: Outlet 식별번호로 해석(factor). 종류는 10개. "OUT049", "OUT018",  "OUT010",  "OUT013",  "OUT027",  "OUT045",  "OUT017",  "OUT046",  "OUT035",  "OUT019"

(ChatGPT: 판매가 이루어지는 매장을 식별하는 열. 각 매장은 고유한 식별자를 가짐)

 

8. Outlet_Establishment_Year: Outlet 설립연도로 해석(factor). 종류는 9개. 1999, 2009, 1998, 1987, 1985, 2002, 2007, 1997, 2004

(ChatGPT: 매장이 설립된 연도를 나타냄. 이 값을 이용하면 매장의 운영 기간을 알 수 있음)

 

9. Outlet_Size: Outlet 규모로 해석(factor). 종류는 4개. "Medium", "High", "Small", 그리고 NA로 판단되는 "" 가 있음.

(ChatGPT: 매장의 크기를 나타내는 열)

 

10. Outlet_Location_Type: Outlet 위치로 해석(factor). 종류는 3개. "Tier 1", "Tier 2", "Tier 3"

(ChatGPT: 매장이 위치한 지역의 유형)

 

11. Outlet_Type: Outlet 타입으로 해석(factor). 종류는 4개. "Supermarket Type1", "Supermarket Type2", "Supermarket Type3", "Grocery Store"

(ChatGPT: 매장의 유형)

 

12. Item_Outlet_Sales: Outlet에서의 Item 판매량(종속변수)

 

총 11개의 설명변수와 1개의 종속변수로 구성

설명변수 중 8개가 factor, 3개가 수치형 자료

 

총 8523개의 행 자료

728x90
반응형