이번 포스트는 데이터 분석 전문가(ADP) 17회 실기 시험의 응시 후기 입니다.
지난 시험 후기(14회)는 아래 링크를 참고 하시면 됩니다.
1. 시험장 환경
- 시험 장소는 가산디지털역에 있는 한국소프트웨어인재개발원 이었습니다.
- 일요일 시험이라 그런지 주변에 열린 커피숍이 없어 1층 대기실에서 대기하다가 입실하였습니다.
2. 분석 환경
vmware
로 구동된RStudio Server
에 크롬으로 접속하여 분석을 수행하였습니다.R
: R Studio ServerPython
: Jupyter Nnotebook
지난 시험(14회)과 마찬가지로 Jupyter Notebook에는-> 이번에는 확인을 못했습니다.R
이 설치되어 있지 않았고, R Notebook 도 정상 동작하지 않았습니다. 개인적으로 리포트 작업에서 Jupyter Notebook의 영향이 크다고 생각하기에 빠른 개선이 되었으면 좋겠습니다.
3. 보고서 제출
- 이번 시험에서는
R Notebook
을 이용하여 분석 및 레포팅을 수행하였습니다.Jupyter Notebook
의 장점을 활용해 보고자 사용하였는데, 레포트 중간 확인이 필요할 때마다 전체를 실행시켜야 하기에 불편한 부분이 있었습니다. - 만약
R Notebook
을 이용하여 레포트를 작성하실 예정이라면 전체 코드 완성 후에R Notebook
으로 레포트만 만드시는 걸 추천 드립니다.
Knite to HTML
로 보고서를 만들면 가상환경 내에.html
파일이 생성됩니다.Rstudio
에서export
로 다운받아 크롬으로 열어본 후PDF로 인쇄
하시면 됩니다.
최종 제출 레포트는 PDF 파일 1개를 제출해야 하며, 개인적으로는R
유저는 Word를 사용하는 것이 가장 효과적이라고 생각합니다. (Word를 이용하면 Jupyter Notebook과 같이 분석의 흐름대로 코드 및 결과를 작성할 수 있습니다.)
4. 문제 복기
이번 실기 시험에서는 크게 3가지 문제로 출제되었습니다.
기존과 다르게 통계 분석(설문 분석)의 비중이 크게 출제되었으며, 기존 기출 문제들만 준비하셨던 분들에게는 난이도가 높으셨을 것 같습니다.
기계학습 문제 (집값 예측) (30점)
1.1 EDA
1.2 모델 생성
ㄴ 1.2.1 데이터 분할
ㄴ 1.2.2 교호작용을 고려한 다중 선형 회귀 수행
ㄴ 1.2.3 3가지 분류 모델 생성 및 비교, 좋은 모델 선택시각화 및 시계열 분석 (코로나 데이터) (20점)
2.1 전체 인구대비 누적 사망률이 가장 높은 5개 국가 추출 후, 국가별 일일확진자, 누적확진자, 일일사망자, 누적사망자 시계열 그래프 출력
2.2 위험지수 생성 및 해석
2.3 시계열 분석 및 예측 모델 생성통계 분석 (설문데이터 분석) -> (사전에 역문항들에 대한 처리 필요)
3.1 그룹별 평균, 표준편차, 왜도, 첨도 산출
3.2, 3.3, 3.4 (문제가 기억이 나질 않네요;)
5. 시험 후기
문제의 범위가 굉장히 넓어지는 것 같습니다. 기존 14, 15회 기출에서는 '문제를 얼마나 잘 풀고 데이터를 얼마나 잘 다룰수 있느냐?'의 관점이었다면 이번 17회 에서는 '문제를 푸는데 최신 기술들도 잘 활용해야 하지만 시각화도 잘해야하고, 기존 전통적인 통계 분석도 할 줄 알아야 한다' 같은 느낌이었습니다.
기존 기출을 통해 가늠이 되지 않는 범위까지 넓어지다보니 응시자의 입장에서는 대비하기가 많이 까다로워 졌습니다. 기출 문제 유형화를 방지하는 차원일 수도 있겠으나, 개인적으로는 '난이도가 높아졌다'는 느낌보다는 '기존 출제되지 않았던 새로운 문제를 출제하기 위해 급급한 것 같다'이 더 드는 것 같습니다.
이럴거면 텍스트 마이닝 과목은 왜 없앴는지 이해가 안되네요.. 다시 살아났으면 좋겠습니다.. ㅎ
ADP 자격시험을 준비하시는 모든 분들에게 존경을 표합니다. ^^