본문 바로가기

배우기/복습노트[R과 분석]

[복습] R(programming language) 시각화(4) (ggplot2를 이용한 산점도, 선그래프, 막대그래프, 상자그림, 히스토그램, 확률밀도함수(KDE) 및 여러 옵션)

728x90
반응형

어제 ggplot2로 선그래프를 출력하여보았고 (아래 링크 참고)

https://metime.tistory.com/174

 

[복습] R(programming language) 시각화(3) (box plot, histogram, polygon, ggplot2) + 하루끝(20231212)

지난 시간에 이어 시각화를 계속 학습하였다. 내일 시각화가 마무리 될 예정이다. 이제까지 배운 내용에 대한 복습 겸 오늘 배운 내용을 쭉 나열해보도록 하겠다. 설명이 없는 것은 지난 링크를

metime.tistory.com

오늘은 ggplot2로 여러 그래프를 표현하여보았다.

 

 

 

 

산점도

geom_point를 이용하여 점에 대한 옵션을 줄 수 있다. 현재는 점 크기(size)만 조정한 상태이다.

 

 

 

 

선그래프

 

geom_line 옵션으로 줄 수 있으며 본 그래프에서는 geom_point로 점과 함께 나타내었다.

 

 

 

막대 그래프

1) x축 좌표만 전달하여보자.

Line 9에 x좌표만 들어가게 되면 y축은 자동으로 도수(count)를 출력하게 된다.

 

 

2) y축 좌표와 함께 전달해보자.

 

Line 10처럼 y축 좌표도 함께 전달하면 위와 같이 학년별 평균 키에 대한 막대그래프가 출력된다.

이 때에는 Line 11처럼 geom_bar에 stat='identity'를 작성해주어야 한다.

 

 

3) 그룹별 서로 다른 막대를 출력해보자

여기서는 geom_bar의 옵션으로 position='dodge'를 주어야 한다(Line 13).

 

 

 

연습문제를 풀어보자.

googleVIS::Fruits 데이터를 사용하여 연도별 각 과일의 판매량을 비교하기 위한 막대그래프를 시각화하여라.

 

Line 16에 변수를 더하여 그 변수를 Line 19처럼 지정해준다면 계속 같은 조건으로 옵션을 사용할 수 있다.

 

728x90

 

 

상자그림

상자그림은 연속형 자료의 분포를 파악하고 그 비교를 목적으로 하고 있으며 이상치 검정도 가능한 그래프이다.

 

앞 시간에도 언급했으나 한번 더 작성하자면, box plot의 이상치 기준은 

x > Q3  + 1.5*IQR (상한 이상치)

x < Q1 - 1.5*IQR (하한 이상치)

로 확인 가능하다.

 

 

factor 관계 없이 모든 Sepal.Width에 대한 값을 box plot으로 나타내면 아래와 같다.

 

 

 

그러나 Sepal.Width를 Species로 나누면 x축에 구분이 되어 분류되어 그려진다.

 

 

 

히스토그램

연속형 자료의 분포를 확인할 수 있으며 정규성 검정에 사용된다.

계급의 크기를 다양한 방식으로 제어할 수 있는데 아래 세 가지 방법으로 나타내어보았다.

 

 

그 외의 옵션을 아래와 같이 주어 그래프를 출력할 수 있다.

 

 

확률밀도함수(KDE)

확률밀도함수는 마지막에 Line 11과 같이 geom_density 옵션을 주면 된다.

 

728x90
반응형