본문 바로가기

728x90
반응형

전체 글

(315)
[복습] Python numpy / pandas 수학통계 함수(메서드) 차이 1. 분산/표준편차 기본 수식 차이 다음과 같이 변수가 선언되었다. numpy로 분산을 구한 것과 pandas에서 분산을 구한 값이 다르다. 그 이유는 numpy는 수학적 분산을 구한 것이고 (편차 제곱의 합을 n으로 나눔), pandas는 통계적 분산을 구한 것이다(편차 제곱의 합을 n-1로 나눔). 따라서 분석기사에서 분산을 구하려면 pandas의 값으로 구하여야 한다. 하지만 numpy에서도 통계적 분산을 구하는 방법이 있다. ddof 가 자유도 옵션인데 default가 0으로 되어있다. 따라서 이 옵션을 1로 넣어주면 통계적 분산을 구할 수 있다. 반대로 pandas에서도 수학적 분산을 구할 수 있다. 마찬가지로 자유도 옵션이 1이 default인데 0으로 바꿔주면 수학적 분산을 구할 수 있다. ..
[복습] Python 결측치 확인(isnan, isnull), 수정(fillna), 삭제(dropna) 결측치 - 잘못 입력되거나 연산된 값을 표현 - numpy에서 nan으로 표현 1. 확인 1) np.isnan 이런 데이터가 있다고 하자. s1에 isnan 함수를 사용하면 에러가 난다. s2에 isnan 함수를 사용하면 출력이 잘 된다. 이렇게 되는 이유는 isnan은 문자형 NA는 체크를 하지 못하며 숫자형 NA에 대해서만 체크가 가능하다. 참고로 NA는 Series 에서 실수 타입이지만 문자형과 같이 쓰이면 문자가 된다. 2) pd.isnull / isnull 메서드 pd.isnull은 문자형 NA에 대해서도 체크가 가능하다. 상수 하나에 대해서 NA를 체크하려면 pd.isnull()함수를 사용하여야 한다. NA.isnull은 에러가 난다. 데이터 프레임에 대해서 각 원소별 NA 값을 확인할 수 있..
[복습] Python index / column 삭제(drop 메서드) df1.drop(labels, # 삭제할 이름(위치값 전달은 불가함) axis = 0, # 모든 axis는 0이 default. 삭제 방향 level = 0, # multi index의 level inplace = False) # False가 default. 원본을 대체할 것인지 여부. (원본 즉시 수정 여부) 위에서 level의 의미는 다음과 같다. 선생님 필기인데, A가 level = 0이고 , 2001, 2002가 level =1 이 된다. 글로 설명하기 어려워서 그림 첨부. 예) emp 에서 HIREDATE 컬럼 제거 예) emp에서 SCOTT 행 제거 drop에서 위치값 전달 불가인데 행삭제가 되는 이유는 index가 현재 이름이자 위치값이므로 전달이 가능한 것이다. 또는 아래와 같이 해결할 수..
[복습] Python index object 수정(rename 메서드) index object 수정(rename 메서드) - index object : 행의 정보(index), 컬럼 정보(columns) - pandas에서는 index object 라는 자료구조를 따로 생성 - 일부 수정 불가(read-only 객체) - Series 자료구조와는 다른 자료구조이므로 Series에서 호출가능한 메서드가 호출되지 않을 수 있음 예) 아래 데이터프레임 마지막 컬럼을 60세이상 으로 수정하여라 type를 해보면 index 객체라고 출력이 된다. index나 column을 덮어 쓰는 것은 가능하지만 위처럼 일부 수정은 불가하다(read-only 객체이기 때문). 덮어쓰는 것은 변수 재생성 의미이므로 가능한 것이다. 해결 1) index object 가 아닌 상태에서 수정 후 다시 덮..
[실습문제] 2024. 1. 15.(월) (2문제) 1. student.csv 파일을 읽고 1) 1, 2학년 학생의 몸무게의 평균 출력 2) ID 컬럼에 숫자 0을 포함하는 사람의 이름, ID, 학년 출력 먼저 스칼라 테스트이다. map + lambda로 하나씩 fetch해주므로 따라서, 2. test3.txt 파일을 읽고 1) 다음과 같은 데이터프레임 형태로 변경 20대 30대 40대 50대 60세이상 2000년 7.5 3.6 3.5 3.3 1.5 2001년 7.4 3.2 3.0 2.8 1.2 2002년 6.6 2.9 2.0 2.0 1.1 .......................................................... 2011년 7.4 3.4 2.1 2.1 2.7 2012년 7.5 3.0 2.1 2.1 2.5 2013년 7.9 ..

728x90
반응형