해당 포스트에서는 R에서 성별로 키에 대한 평균, 분산, 표준편차 계산 방법을 설명합니다.
1. INTRO
R에서는 데이터의 그룹 계산을 위해 aggregate()
내장 함수를 제공하고 있습니다. 이번 포스트에서는 성별(남/여), 키(cm) 정보가 들어있는 데이터에서 성별 그룹 계산 방법을 설명합니다.
2. 데이터셋 생성
이번 설명에서 사용할 데이터셋은 아래와 같습니다.
x <- data.frame(height = c(179,158,160,163,180),
gender = c("M","F","F","F","M"))
x
# height gender # 1 179 M # 2 158 F # 3 160 F # 4 163 F # 5 180 M
3. 성별 키 평균, 분산, 표준편차 계산
aggregate()
함수의 기본 사용법은 aggregate(fomula, data, FUN) 입니다. 위 예시를 이용하여 성별(gender
)로 키(height
)의 평균(mean()
), 분산(var()
), 표준편차(sd()
)를 구하는 코드는 아래와 같습니다.
1) 평균 (mean)
아래 코드는 데이터(x
)에서 성별(gender
)로 키(height
)에 대해 평균(mean
)을 구합니다.
aggregate(height ~ gender, data = x, mean)
# gender height # 1 F 160.3333 # 2 M 179.5000
2) 분산 (var)
아래 코드는 데이터(x
)에서 성별(gender
)로 키(height
)에 대해 분산(var
)을 구합니다.
aggregate(height ~ gender, data = x, var)
# gender height # 1 F 6.333333 # 2 M 0.500000
3) 표준편차 (sd)
아래 코드는 데이터(x
)에서 성별(gender
)로 키(height
)에 대해 표준편차(sd
)을 구합니다.
aggregate(height ~ gender, data = x, sd)
# gender height # 1 F 2.5166115 # 2 M 0.7071068
4. 관련 링크
[1] [R] 표본 평균, 중앙값, 표본 분산, 표본 표준편차
[2] [R] 평균보다 큰 몸무게를 갖는 사람 수 세기
[3] [R] 성적 데이터 합격여부 판단하기 (PASS or FAIL)