실습문제 1. 2000-2013년_연령별실업율_40-49세.csv 파일을 읽고
1) 연도별 실업률 평균을 구하여라
이 문제는 열별 평균을 구하는 문제이다.
2) 월별 실업률 평균을 구하여라
이 문제는 행별 평균을 구하는 문제이다.
3) 모든 데이터를 소수점 둘 째 자리까지 표현하여라
이 문제에서는 sprintf를 사용하게 된다.
우선 값 하나를 대입하면 sprintf('%.2f', df1[1,1]) 이런 형식으로 작성하게 된다.
그렇게 되면 바로 apply에 대입을 할 수가 없다. 왜냐하면, 일단 apply에 대입하게 되면 아래와 같이 작성하게 되는데,
apply(df1, c(1,2), sprintf, '%.2f')
이 함수를 해석하면 sprintf의 첫 인수가 df1이 된다는 의미이다. 하지만 문법을 보면 '%.2f'가 먼저 들어가므로 인수의 순서가 맞지 않다. 이럴 때 사용자 정의 함수가 필요하다.
실습문제 2. act_data_1.csv 파일을 읽고
1) user별 모든 행동(행동별)의 총 합을 출력하여라
여기서는 ddply는 추천하지 않는다. ddply를 쓰게 되면
ddply(df2, .(user_id), summarise, v1 = sum(df2$act_1_cnt), v2 = sum(df2$act_2_cnt).....) 이런 식으로 써야 하기 때문이다.
2) 요일별 act_1_cnt가 가장 많은 user를 출력하여라
3. apply_test.csv 파일을 읽고
1) deptno-name 컬럼을 분리하여 각각 deptno 컬럼과 name 컬럼을 생성하여라(기존 컬럼 삭제)
2) '-'을 NA 처리 후 모두 숫자 컬럼으로 변경하여라
3) 연도별 값의 평균을 출력하여라
4. 부동산_매매지수현황.csv 파일을 읽고
1) 각 지역별 활발함 지수의 평균을 출력하여라
2) 연도별로 각 지역의 한산함 지수의 평균을 출력하여라
3) 서울의 활발함 지수가 가장 높은 월과 한산함 지수가 가장 높은 월을 각각 확인하여라.