전체 글 (315) 썸네일형 리스트형 12일차 - [1일 1문제] 조회수가 가장 많은 중고거래 게시판의 첨부파일 조회하기(ORACLE) 오랜만에 쿼리를 짜려니 JOIN 하는 법부터 까먹어서 당황스러웠다. 문제에서는 조회수가 가장 높은 건은 한 건이라고 나왔는데 정답은 두 개가 나와서 당황했으나 첨부파일이 두 건이라고 해석하여 접근하였다. [복습] 분석 / 데이터 분석 과정과 데이터 전처리 + 하루끝(20231215) 데이터 분석 과정 데이터 수집 → 데이터 처리 및 가공(전처리: 결측치 처리, 이상치 처리, 품질을 높이기 위한 정제 과정) → 모델링 → 평가 → 결론 데이터 전처리 1. 변수 선택(매우 중요): 변수 선택을 도와주는 모델이 있으나(트리기반모델, 딥러닝), 일부 모델만 그러하다. 2. 변수 스케일링: 표준화 되지 않은 자료를 표준화 하는 것 3. 결측치 처리 4. 이상치 처리 5. 파생변수 생성: 파생변수란 분석가 입장에서 심혈을 기울여 만드는 변수로 이미 학습된, 이미 알려진 정보를 토대로 새로운 의미를 갖는 변수를 창출하는 기법. 창출된 변수. 6. 데이터의 불균형 처리 .... 의사결정나무, 랜덤포레스트 등 데이터 분석에 대한 내용도 정리하였으나, 배포를 금하는 선생님의 수업 자료를 사용하였기에,.. [복습] 분석 / 회귀분석 회귀분석이란 인과관계를 밝히는 분석 Y가 연속형이지만 간혹 이산형으로 분석하기도 함. 즉, 수치형이라고 보면 됨. 단순 회귀분석은 x가 하나, 다중 회귀분석은 x가 여러 개로 y를 분석하는 것. 상관분석과 회귀분석은 엄밀히 말해 다른 분석. 상관분석은 원인과 결과 상관 없이 상관성이 있어 보이는가에 대한 분석 상관계수는 피어슨 correlation 로 측정을 함 연속형 수치일 때에 의미가 있음. 산점도를 그려보면 상관분석을 할 수가 있음. 회귀분석은 인과관계 분석에 초점이 되어야 함. 회귀분석에 중요한 규칙이 있는데, 회귀분석을 돌릴 때에는 독립변수와 종속변수가 등간척도 또는 비율척도로 구성되어야 함. 회귀분석 모델링을 잘못 설명하는 이유 중 하나는 x들이 factor가 많은 경우임. factor를 수치.. [실습문제] 2023. 12. 13.(수) (4문제) 1. 보스턴 데이터(boston.csv) 범죄율 컬럼(CRIM) top 10 중 10번째 범죄율 값으로 1~10위의 범죄율 값을 변경 후 AGE 변수 80 이상의 범죄율 평균을 산출하여라. STEP 2의 Line 9와 11 중 앞으로는 Line 9와 같은 문법을 사용하라고 하셨다. 파이썬에서는 Line 11과 같은 문법이 먹히지 않기 때문이다. 2. 주어진 housing.csv 데이터 첫 번째 행부터 순서대로 80%까지의 데이터를 추출 후 'total_bedrooms' 변수의 결측값(NA)을 'total_bedrooms' 변수의 중앙값으로 대체하고 대체 전 표준편차와 대체 후의 표준편차 차이(양수)를 출력하여라. 3. insurance.csv 파일을 읽고 데이터의 특정 컬럼(bmi, charges)의 이.. [복습] 분석 / 데이터마이닝과 예측모델링, 지도학습과 비지도학습 + 하루끝(20231213) 데이터 마이닝: 방대한 데이터에서 유의미한 정보를 추출하는 모든 행위( != 예측모델링) 즉, 유의미한 데이터를 찾아가는 과정으로, 의문을 가지고 거기에 맞게끔 데이터를 찾아가는 과정임. 예측모델링은 기계학습이나 데이터 마이닝은 기계학습이 아님. 기계학습(machine learning): 데이터를 한 건씩 모델(기계 = 학습기 = 알고리즘)에 학습시켜 유의미한 패턴을 발견하도록 유도하는 분석 기법 기계학습의 분류(Y의 유무/형태에 따라) 1) 지도학습(supervised learning): 예측값 존재, 분석기사 실기 유형임 - 회귀분석: Y가 연속형 정확히 맞춘다는 개념이 없음, 그래서 회귀분석을 분류분석처럼 검증하면 안됨 / 실제값과의 gap으로 비교함. 이것이 오차 또는 잔차임(모집단에서는 오차, .. 이전 1 ··· 28 29 30 31 32 33 34 ··· 63 다음