해당 포스트는 데이터 분석 전문가(ADP) 실기 시험을 준비하면서 오픈북 시험을 위해 데이터 에듀(Data Edu) 도서를 요약한 내용을 공유합니다.
Lists
ADP 실기 수험서(DataEdu) 도서 요약(1/3)- R기본, 전처리
ADP 실기 수험서(DataEdu) 도서 요약(2/3) - 통계분석, 시각화
ADP 실기 수험서(DataEdu) 도서 요약(3/3) - 정형 데이터마이닝, 실기 모의고사
INTRO
데이터 분석 전문가(ADP) 실기 시험은 오픈북으로 진행이 됩니다. 개인 특성에 따라 다르겠지만, 저는 혹시 모를 상황에 대비하여 다수의 책을 들고가서 시험을 응시했었고, 검색 시간을 줄이기 위해 도서별 요약 정보를 출력해 가지고 갔었습니다.
아래는 데이터 에듀(Data Edu)에서 출간한 ADP 데이터 분석 전문가 수험서를 요약 및 정리한 내용으로 자주 사용하지 않거나, 출제 가능성이 있을 것 같은 부분들을 별도로 정리하였습니다.
ADP 실기 응시자 분들에게 도움이 되었으면 좋겠습니다.
5. 정형 데이터마이닝
p236 데이터 분할
createDataPartition()
함수를 이용해 동일 비율로 데이터 분할 (index 이용, list=F 옵션 추천)- ex)
idx <- createDataPartition(iris$Species, p=c(0.7,0.3), list=F)
;train <- iris[idx,]
;test <- iris[-idx,]
;
- ex)
(추가) 더미 변수 생성 : One-hot 인코딩
dummyVars()
: 대상 변수를 ont-hot 인코딩 변환 수행, 기존 컬럼명 뒤어 label이 붙음- ex)
dummyVars("~ col1 + col2", data=all_data)
# cbind 후 기존 컬럼 제거 요구
- ex)
p238 성과 분석
confusionMatrix()
: 오분류표 -> 데이터 및 분석 목적에 따라 평가지표 다르게 적용prediction()
->performance()
: ROC그래프 -> AUC가 1에 가까울 수록 좋은 모형- ex)
preformance(pred,"auc")@y.values
# auc 값 확인
- ex)
p244 분류 분석
- p246 로지스틱 회귀분석 :
glm(formula, data, family="binomial", ...)
- p252 다항 로지스틱 회귀분석 :
multinom(formula, data)
- p256 의사 결정 나무 :
rpart(formula, data, method, control=rpart.control(), ...)
- p262 앙상블 기법(bagging) :
bagging(formula, data, mfinal, control=, ...)
- p266 앙상블 기법(boosting) :
boosting(formula, data, boos=T/F, mfinal, control=, ...)
- p270 랜덤 포레스트 :
randomForest(formula, data, ntree, mtry, ...)
- p276 서포트 벡터 머신 :
svm(formula, data, kernel, gamma, cost, ...)
- p281 나이브 베이즈 분류 :
naviveBayes(formula, data, laplace=0, ...)
- p286 k-NN :
knn(train, test, cl, k, ...)
- p292 인공신경망 :
nnet(formula, data, size, maxit, decay=5e-04, ...)
- p296 인공신경망 :
neuralnet(formula, data, algorithm, threshold, hidden, stepmax, ...)
p300 군집 분석
- p306 계층적 군집분석 :
dist(data, method)
→hclust(data, method) → cutree(data, k)
- p310 비계층적 군집분석 :
kmeans(data, centers, ...)
→Nbclust(data, min.nc, max.nc, method, ...)
- p314 혼합 분포 군집모형 :
Mclust(data, G, ...)
→mc$classification
p318 연관 분석
- p321 연관분석 :
as(data, class, ...)
→inspect(x, ...)
→apriori(data, parameter, appearance, control)
실기 모의고사
p349 모의고사 1회
- 정형 데이터마이닝 : lotto 연관분석, 연관 규칙 및 빈번 규칙 분석
- 통계 분석 : 새로운 변수 생성, 재범주화, 일원배치 분산분석, 이원배치 분산분석, 단계적 선택법
p372 모의고사 2회
- 통계 분석 : Admission 상관관계 분석, 회귀분석, 단계적 선택법, 잔차분석, 독립성 가정, 정규성 가정
- 정형 데이터마이닝 : Titanic 분류분석, 결측값 처리, 데이터 분할, 분류모형 3개 적용(의사결정나무, 랜덤포레스트, 로지스틱 회귀), 정확도 검증(confusion matrix, roc curve, auc)
p401 모의고사 3회
- 통계 분석 : 독립표본 t-검정, 등분산성 검정, 상관분석, 회귀분석, 후진제거법, 수정 회귀분석
- 정형 데이터마이닝 : BlackFriday 판매 데이터 분석, 데이터 변환, 더미화(one-hot), 군집 분석(kmeans), 최적 군집 탐색, 클러스터별 특성 파악
p428 모의고사 4회
- 정형 데이터마이닝 : weatherAUS 데이터 분석, 결측치 처리, 데이터 필터링, 데이터 분할, 분류모형 3개 적용(bagging, boosting, randomforest), 결과 분석(
confusion matrix()
,rocr::roc curve
) - 통계 분석 : bike marketing 데이터 분석, 데이터 변환, 일원배치 분산분석, 회귀분석, 전진선택법, 수정 회귀분석, 잔차 분석, 독립성 검정, 정규성 검정, 등분산성 검정
참고 링크
[1] 데이터분석전문가(ADP) 실기시험 기출문제 조사 - 1. 통계 분석
[2] 데이터분석전문가(ADP) 실기시험 기출문제 조사 - 2. 데이터 마이닝 & 기계 학습
[3] 데이터분석전문가(ADP) 실기시험 기출문제 조사 - 3. 텍스트 마이닝
[4] 데이터분석전문가(ADP) 14회 실기 후기
[5] 데이터분석전문가(ADP) 15회 실기 후기
[6] 데이터분석전문가(ADP) 17회 실기 후기
[7] 데이터분석전문가(ADP) 19회 실기시험 후기
[8] 데이터분석전문가(ADP) 20회 실기시험 후기
[9] 데이터분석전문가(ADP) 21회 실기시험 후기
[10] 데이터 분석 전문가(ADP) 실기 도서 비교(후기 포함)