본문 바로가기

728x90
반응형

전체 글

(315)
[복습] R(programming language) 데이터 구조 변경(long, wide) + 하루끝(20231206) 1. 데이터의 분류 1) long data(=tidy data) - rdbms의 데이터 형식이다(relationshop dbms). 하나의 속성별로 컬림이 된다. 여기서 속성이란 하나의 관찰 대상으로 데이터로 표현할 수 있는 값을 의미한다. 예를 들어 성별 ,성적, 연도 등이 되겠다. 왜 하나의 속성으로 컬럼을 만드는 것일까? 이는 join이 가능하며 group by에도 어울리기 때문이다. 2) wide data(=cross data) - 요약정보(직관적), 행별, 열별 연산이 용이하다. - 그러나 join이 불가하며 컬럼 변형이 잦다(컬럼의 추가, 삭제 발생). 예를 들어 연도가 늘어날 때마다 컬럼을 추가하는 방식은 데이터 관리에 있어 비효율적인 방식이다. 그리고 DBMS에서 계속 컬럼이 추가 된다는 ..
[복습] R(programming language)에서의 구조적 문법(dplyr) sql처럼 하나의 구조를 갖는 문장으로 데이터를 처리하는 방식이다. 1. select: 컬럼 선택(선택만 가능, 연산 불가, 연산은 mutate) 예) emp에서 EMPNO를 제외하고 나머지 컬럼 모두 선택 컬럼이름(문자값)에 -를 사용하여 제외가 가능하다. 기존 R에서의 방식은 아래와 같다. emp[.names(emp) != 'EMPNO] 예) emp에서 SAL과 전체 컬럼 이어서 출력 컬럼이름(문자값)을 사용한 연속 출력(slice indexing)이 가능함 예) emp에서 SAL과 전체 컬럼 이어서 출력 sql에서는 select sal, * from emp; 가 되지 않았는데 여기서는 가능하다. 2. filter: 행 선택 예) emp에서 10번 부서원에 대하여 EMPNO, ENAME, SAL 출력..
[복습] R(programming language) 집합연산자 집합 연산자에는 합집합, 교집합, 차집합이 있다. 1. 벡터 집합 연산자 1) 합집합: union, dplyr::union_all 2) 교집합: intersect 3) 차집합: setdiff 4) 벡터 비교: setequal, identical 위와 같이 테스트 해볼 수 있다. Line8의 경우 dplyr 패키지의 union_all의 함수는 사실상 벡터의 결합과 같은 결과를 보이므로 base의 union_all 함수는 없는 것 같다. 그냥 벡터의 결합으로 묶으면 되기 때문이다. 2. 데이터 프레임 집합 연산자: dplyr 패키지 1) 합집합: union, union_all 2) 교집합: intersect 3) 차집합: setdiff 4) 비교: setequal base::union을 데이터 프레임에 사용..
예측모델링 이해한대로 작성하기(빅데이터 분석기사 시험장에서는?) 쉽게 말하여 결과에 영향을 미치는 원인변수가 있다고 하자(하나에서 두 개 이상). 이 원인변수로 y를 예측하고자 하는 것이 예측모델링이다. 의료 기록들로 생존률, 사망률을 예측하고자 한다. 사망, 생존을 factor라고 한다. y가 factor인 경우(범주형), 분류분석이라고 하며 y가 연속형인 경우(수치형)를 회귀분석이라고 한다. 이렇게 y가 존재하는 학습을 지도학습이라고 하며 여기서 y가 연속적이면 회귀분석, y가 factor이면 분류분석이라고 하는 것이다. y가 존재하지 않는 것도 있는데 이를 비지도 학습이라고 한다. 비지도 학습에서는 장바구니 분석(우유를 사는 사람이 빵도 구매할 확률) 등이 있으며, y가 없으면 주관적일 수밖에 없기 때문에 비지도 학습은 빅데이터 분석기사 시험에 나오기 어렵다. ..
[복습] 통계/분석 용어 정리 머신러닝(기계학습) 1. 지도학습(Y 존재) R 1) 분류분석 2) 회귀분석 2. 비지도학습(Y존재 하지 않음): 클러스터링, 장바구니분석이 대표적 Python 1) 군집분석 2) 연관분석 머신러닝(기계학습) 알고리즘 분류 1. 거리기반 모델(k-nn, kmeans) 2. 통계기반 모델(나이브베이즈) 3. 트리기반 모델(의사결정나무, random forest, GB, XGB, light GBM) 4. 신경망 기반 모델(ANN, DNN, CNN, RNN, ...) 여기서 보다 발전해서 어떠한 시점 이후부터 딥러닝이라고 표현함. 시대가 텍스트, 이미지, 영상 등의 처리를 요구하게 되면서 다차원 데이터를 처리하게 되고, 모델이 복잡하게 되며 이걸 잘 패턴화 하기 위하여 연구된 것이 인간의 뇌구조를 따라오게 된..

728x90
반응형