[R] 표본 평균, 중앙값, 표본 분산, 표본 표준편차

r-statistics-mean-median-sd-var

해당 포스트에서는 R에서 표본 평균, 중앙값, 표본 분산, 표본 표준편차를 계산하는 방법을 소개합니다.

데이터 생성

설명에 사용할 데이터를 생성합니다.

x <- c(26, 29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68)
x
[1] 26 29 56 31 52 55 71 31 54 47 40 66 68

표본 평균

표본 평균은 전체 관측치의 합을 전체 관측치의 갯수로 나누어 준다.

mean(
x,
// trim은 데이터를 크기 순서로 나열한 뒤 값이 작은 쪽과 큰 쪽에서 얼마만큼의 데이터를
// 제거한 다음 평균을 계산할지를 (0, 0.5) 사이의 값으로 지정한다. 이렇게 계산한 평균을
// 절사평균(Trimmed Mean)이라고 한다.
trim=0,
na.rm=FALSE, # 평균 계산 전 NA를 제거할지 여부
...

)

mean(x)
[1] 48.15385

중앙값

중앙값은 전체 관측치의 중간값을 산출하여 출력한다.

median(x)
[1] 52

표본 분산

표본 분산은 각 관측값과 표본 평균의 차의 제곱을 합산하여 n-1로 나눠준 값이다.
R에서는 분산 계산에서 분모에 n이 아니라 n-1을 사용하고 있는데, 기본적으로 전체 데이터 중 일부를 샘플로 추출한 뒤 사용한다고 가정하고 있기 때문이니 참고해 두는 것이 좋다. (표본 표준 편차 계산에서 n-1을 사용한다.)

var(
x,
na.rm=FALSE,

)

var(x)
[1] 242.141

표본 표준편차

표본 표준편차는 표본 분산에 루트 계산을 통해 얻을 수 있다.

sd(
x,
na.rm=FALSE,

)

sd(x)
[1] 15.56088
sqrt(var(x))
[1] 15.56088

관련 링크

[1] [R] 줄기-잎 그림 그리기 (Stem-and-Leaf plot)
[2] [R] 빈도분포, 막대그림, 상대빈도분포, 원형그림
[3] [R] 연산자(Operator) 종류 및 사용법 - 기초편
[4] R을 이용한 데이터 처리 & 분석 실무