ADP 실기 수험서(DataEdu) 도서 요약(2/3) - 통계분석, 시각화

해당 포스트는 데이터 분석 전문가(ADP) 실기 시험을 준비하면서 오픈북 시험을 위해 데이터 에듀(Data Edu) 도서를 요약한 내용을 공유합니다.

adp-test-summary


Lists
ADP 실기 수험서(DataEdu) 도서 요약(1/3)- R기본, 전처리
ADP 실기 수험서(DataEdu) 도서 요약(2/3) - 통계분석, 시각화
ADP 실기 수험서(DataEdu) 도서 요약(3/3) - 정형 데이터마이닝, 실기 모의고사


INTRO

데이터 분석 전문가(ADP) 실기 시험은 오픈북으로 진행이 됩니다. 개인 특성에 따라 다르겠지만, 저는 혹시 모를 상황에 대비하여 다수의 책을 들고가서 시험을 응시했었고, 검색 시간을 줄이기 위해 도서별 요약 정보를 출력해 가지고 갔었습니다.

아래는 데이터 에듀(Data Edu)에서 출간한 ADP 데이터 분석 전문가 수험서를 요약 및 정리한 내용으로 자주 사용하지 않거나, 출제 가능성이 있을 것 같은 부분들을 별도로 정리하였습니다.

ADP 실기 응시자 분들에게 도움이 되었으면 좋겠습니다.

3. 통계 분석

p139 표본 추출

  • 단순 임의 추출 : sample()
  • 층화 임의 추출 : strata()

p143 일표본 t-검정

  • 단일모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교
  • 정규성 검정(샤피로-윌크) : H0 : 데이터가 정규분포를 따른다 vs H1 : 따르지 않는다
    • ex) shapiro.test(data)
  • 정규분포 따르면 t.test, 정규성 만족 안하면 wilcox.test 함수 사용
    • H0 : m = m0 vs H1 : m != m0, m > m0, m < m0
    • ex1) t.test(x, alternative=c("two.sided","less","greater"), mu=0)
    • ex2) wilcox.test(x, alternative=c("two.sided","less","greater"), mu=0)

p147 대응표본 t-검정

  • 단일모집단에 대해 두 번의 처리를 가했을 때, 두 개의 처리에 따른 평균 차이 비교
  • 모집단의 관측값이 정규성(정규분포 만족한다는 가정)을 만족해야 하며, 종속변수는 연속형 변수여야 함
    • H0 : mx - my = D = 0 vs H1 : D != 0 , D > 0, D < 0
    • ex) t.test(x, y, alternative=c("two.sided","less","greater"), paired=T)

p150 독립표본 t-검정

  • 두 개의 독립된 모집단의 평균을 비교
  • 가정 : 정규성 만족, 서로 독립적, 등분산성 가정 확인(모분산 동일)
    • 결과에 따라 적용 함수 달라짐, 독립변수는 범주형, 종속변수는 연속형이어야 함
    • H0 : m1 = m2 vs H1 : m1 != m2, m1 > m2, m1 < m2
    • ex) 등분산 검정 = var.test(y~x, data)
    • ex) 독립표본 t-검정 = t.test(y~x, data, alternate=c("two.sided","less","greater"), var.equal=F) -> 등분산 가정을 만족하면 var.equal=T, 불만족은 var.equal=F

p154 교차 분석

  • 범주형 자료들 상호 연관성을 알아볼 때 사용
  • 적합성 검정, 독립성 검정, 동질성 검정에 사용되며, 카이제곱 통계량을 이용함
    • H0 : 실제와 이론 분포 간에 차이가 없다(두 분포가 일치한다) vs H1 : 일치하지 않는다
    • ex) chisq.test(x, y, p) -> chisq.test(data, p=c(0.2, 0.8))

p157 독립성 검정

  • 두 변수들 사이의 관계가 독립인지 검정
    • H0 : 독립이다 vs H1 : 독립이 아니다
    • ex) chisq.test(table(survey$W.Hnd, survey$Exer))

p161 동질성 검정

  • R개의 부분 모집단에서 추출한 각 표본인 C개의 범주화된 집단의 분포가 서로 동일한지 검정

p162 분산분석(anova)

  • 두 개 이상의 다수 집단 간 평균을 비교하는 통계 분석

일원배치 분산분석

  • 독립 변수 1개, 종속 변수 1개 -> 집단은 서로 독립이며, 정규 분포를 따른다. 등분산 가정을 성립한다고 가정.
    • F-검정 통계량 이용 -> H0 : k개 집단 간 모평균 차이가 없다 vs H1 : not H0
    • ex) 분산 분석 : aov(Sepal.Width~Species, data=iris)
    • ex) 사후 검정 : TukeyHSD(aov(Sepal.Width~Species, data=iris))

이원배치 분산분석

  • 독립 변수 2개, 종속 변수 1개 -> 정규성, 등분산성 가정 -> 교호작용 분석을 필수 수행해야 하며 두 변수 사이에 상관 관계가 존재할 경우 교호 작용이 있다는 의미
    • ex) aov(mpg~cyl*am, car)
    • ex) interaction.plot(car$cyl, car$am, car$mpg, col=c("red", "blue"))

다원배치 분산분석

  • 독립 변수 3개이상, 종속 변수 1개

다변량 분산분석

  • 독립 변수 1개이상, 종속 변수 2개이상

p172 상관분석

  • 두 변수 간 관계의 정도 확인
  • 상관 계수 : 피어슨(선형적 상관관계 측정), 스피어만(순위에 대한 계수 산출), 켄달(비부합쌍에 대한 부합쌍의 비율)
  • 상관 계수 검정 : H0 : 변수1과 변수2 간에는 상관 관계가 없다(상관 계수=0) vs H1 : not H0
    • ex) air_cor <- cor(air, use="pairwise.complete.obs", method="pearson"); pairs(air_cor); cor.test(air$Ozone, air$Wind, method="pearson")

P180 회귀분석

  • 독립 변수가 종속 변수에 미치는 영향을 추정하여 식으로 표현
  • 선형 회귀 분석 가정 : 독립 변수와 종속 변수의 선형성, 오차의 등분산성, 독립성, 정규성

p183 단순 선형 회귀

  • 회귀 계수를 찾아 함수식을 생성하고, 회귀 계수의 통계적 유의미성 파악
    • ex) Cars93_lm <- lm(Price~EngineSize, data=Cars93); summary(Cars93_lm); plot(Cars93_lm);

p191 다중 선형 회귀

  • 두 개 이상 독립변수가 종속변수에 미치는 영향, 다중공선성 확인 필수(VIF >= 10 제거)
    • ex) Price_lm <- lm(Price~., Cars93); summary(Price_lm); vif(Price_lm);
  • 변수 선택법 : 전진, 후진, 양방향 -> step()함수 활용
    • ex) step(lm_result, direction="backward")

4. 시각화

p206 산점도

  • xlab, ylab, main, xlim, ylim, pch, cex, col, type, lty,
    • ex) plot(Cars93$Length, Cars93$Weight)

p218 그래프

  • plot( ) 이후 optional 하게 추가
  • 점그래프 : points(iris$Petal.Length, iris$Peta.Width, cex=0.5)
  • 선그래프 : lines(c(0,17), c(17,17), lty=1); lines(lowess(cars));
  • 직선그래프 : abline(cars_lm, col="red"); abline(v=median(car$dist), lty=3)
  • 곡선그래프 : curve(dnorm(x, mean=0, sd=1), from=-3, to=3)
  • 막대그래프(범주형 변수의 분포) : barplot(table(Cars93$Origin, Cazrs93$Cylinders))
  • 히스토그램(도수별 분포) : hist(iris$Petal.Length, breaks=5)
  • 파이차트 : pie(table(Cars93$Cylinders))
  • 산점도행렬 : pairs(~Sepal.Length+Sepal.Width+Petal.Length+Petal.Width, data=iris, col=)

참고 링크

[1] 데이터분석전문가(ADP) 실기시험 기출문제 조사 - 1. 통계 분석
[2] 데이터분석전문가(ADP) 실기시험 기출문제 조사 - 2. 데이터 마이닝 & 기계 학습
[3] 데이터분석전문가(ADP) 실기시험 기출문제 조사 - 3. 텍스트 마이닝
[4] 데이터분석전문가(ADP) 14회 실기 후기
[5] 데이터분석전문가(ADP) 15회 실기 후기
[6] 데이터분석전문가(ADP) 17회 실기 후기
[7] 데이터분석전문가(ADP) 19회 실기시험 후기
[8] 데이터분석전문가(ADP) 20회 실기시험 후기
[9] 데이터분석전문가(ADP) 21회 실기시험 후기
[10] 데이터 분석 전문가(ADP) 실기 도서 비교(후기 포함)