해당 포스트에서는 R에서 표본 평균, 중앙값, 표본 분산, 표본 표준편차를 계산하는 방법을 소개합니다.
데이터 생성
설명에 사용할 데이터를 생성합니다.
x <- c(26, 29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68)
x
[1] 26 29 56 31 52 55 71 31 54 47 40 66 68
표본 평균
표본 평균은 전체 관측치의 합을 전체 관측치의 갯수로 나누어 준다.
mean
(
x,
// trim은 데이터를 크기 순서로 나열한 뒤 값이 작은 쪽과 큰 쪽에서 얼마만큼의 데이터를
// 제거한 다음 평균을 계산할지를 (0, 0.5) 사이의 값으로 지정한다. 이렇게 계산한 평균을
// 절사평균(Trimmed Mean)이라고 한다.
trim=0,
na.rm=FALSE, # 평균 계산 전 NA를 제거할지 여부
...
)
mean(x)
[1] 48.15385
중앙값
중앙값은 전체 관측치의 중간값을 산출하여 출력한다.
median(x)
[1] 52
표본 분산
표본 분산은 각 관측값과 표본 평균의 차의 제곱을 합산하여 n-1
로 나눠준 값이다.
R에서는 분산 계산에서 분모에 n
이 아니라 n-1
을 사용하고 있는데, 기본적으로 전체 데이터 중 일부를 샘플로 추출한 뒤 사용한다고 가정하고 있기 때문이니 참고해 두는 것이 좋다. (표본 표준 편차 계산에서 n-1
을 사용한다.)
var
(
x,
na.rm=FALSE,
)
var(x)
[1] 242.141
표본 표준편차
표본 표준편차는 표본 분산에 루트 계산을 통해 얻을 수 있다.
sd
(
x,
na.rm=FALSE,
)
sd(x)
[1] 15.56088
sqrt(var(x))
[1] 15.56088
관련 링크
[1] [R] 줄기-잎 그림 그리기 (Stem-and-Leaf plot)
[2] [R] 빈도분포, 막대그림, 상대빈도분포, 원형그림
[3] [R] 연산자(Operator) 종류 및 사용법 - 기초편
[4] R을 이용한 데이터 처리 & 분석 실무