[실습문제] 2023. 12. 1.(금) (4문제)

728x90

실습문제 1. 2000-2013년_연령별실업율_40-49세.csv 파일을 읽고

1) 연도별 실업률 평균을 구하여라

이 문제는 열별 평균을 구하는 문제이다.

2) 월별 실업률 평균을 구하여라

이 문제는 행별 평균을 구하는 문제이다.

3) 모든 데이터를 소수점 둘 째 자리까지 표현하여라

이 문제에서는 sprintf를 사용하게 된다.

우선 값 하나를 대입하면 sprintf('%.2f', df1[1,1]) 이런 형식으로 작성하게 된다.

그렇게 되면 바로 apply에 대입을 할 수가 없다. 왜냐하면, 일단 apply에 대입하게 되면 아래와 같이 작성하게 되는데,

apply(df1, c(1,2), sprintf, '%.2f')

이 함수를 해석하면 sprintf의 첫 인수가 df1이 된다는 의미이다. 하지만 문법을 보면 '%.2f'가 먼저 들어가므로 인수의 순서가 맞지 않다. 이럴 때 사용자 정의 함수가 필요하다.

실습문제 2. act_data_1.csv 파일을 읽고

1) user별 모든 행동(행동별)의 총 합을 출력하여라

여기서는 ddply는 추천하지 않는다. ddply를 쓰게 되면

ddply(df2, .(user_id), summarise, v1 = sum(df2$act_1_cnt), v2 = sum(df2$act_2_cnt).....) 이런 식으로 써야 하기 때문이다.

2) 요일별 act_1_cnt가 가장 많은 user를 출력하여라

3. apply_test.csv 파일을 읽고

1) deptno-name 컬럼을 분리하여 각각 deptno 컬럼과 name 컬럼을 생성하여라(기존 컬럼 삭제)

2) '-'을 NA 처리 후 모두 숫자 컬럼으로 변경하여라

3) 연도별 값의 평균을 출력하여라

4. 부동산_매매지수현황.csv 파일을 읽고

1) 각 지역별 활발함 지수의 평균을 출력하여라

2) 연도별로 각 지역의 한산함 지수의 평균을 출력하여라

3) 서울의 활발함 지수가 가장 높은 월과 한산함 지수가 가장 높은 월을 각각 확인하여라.

728x90

[복습] R(programming language) 그룹 연산 정리(aggregate, ddply) (0)	2023.12.04
[복습] R(programming language) 그룹 연산 기능인 aggregate 함수가 갖는 장점(외부 객체로의 그룹 연산) (0)	2023.12.04
[실습문제] 2023. 11. 30.(목) (2문제) (0)	2023.12.04
[복습] R(programming language) Group by 연산 함수(tapply, aggregate, ddply) + 하루끝(20231201) (0)	2023.12.03
[복습] R(programming language) 적용함수(sapply, lapply, mapply, apply) (2) + 하루끝(20231130) (0)	2023.12.01

개발새발