이번 포스트는 데이터 분석 전문가(ADP) 15회 실기 시험의 응시 후기 입니다.
지난 시험 후기(14회)는 아래 링크를 참고 하시면 됩니다.
1. 시험장 환경
- 시험 장소는 대학로에 있는 컴퓨터 학원이었고, 전반적으로 시설이 깔끔하여 좋았습니다.
- 다만, 책상의 세로폭이 좁고 칸막이가 고정되어 있지 않아 늦게 도착하였더니 개인 자료를 놓을 곳이 부족했습니다.
2. 분석 환경
- 가상 환경(
vmware
)에서 서버 버전을 구동하고 웹(chrome
)으로 접근하여 분석 수행하였습니다.R
: R Studio ServerPython
: Jupyter Nnotebook
- 지난 시험(14회)과 마찬가지로 Jupyter Notebook에는
R
이 설치되어 있지 않았고, R Notebook 도 정상 동작하지 않았습니다. 개인적으로 리포트 작업에서 Jupyter Notebook의 영향이 크다고 생각하기에 빠른 개선이 되었으면 좋겠습니다.
3. 보고서 제출
- 지난 시험에서 레포팅 작업을 파워포인트로 사용하면서 레이아웃 세팅 등 작업에 시간을 많이 뺐겨 이번에는 그런 낭비를 줄이고자 word를 이용하여 작성하였습니다.
- 최종 제출 레포트는 PDF 파일 1개를 제출해야 하며, 개인적으로는
R
유저는 Word를 사용하는 것이 가장 효과적이라고 생각합니다. (Word를 이용하면 Jupyter Notebook과 같이 분석의 흐름대로 코드 및 결과를 작성할 수 있습니다.)
4. 문제 복기
이번 실기 시험에서는 크게 2가지 문제로 출제되었습니다.
제조 생산 데이터 분석
- 데이터 탐색 : EDA
- 데이터 전처리 : 변수 선택(VIF), 파생변수 생성, 데이터 분할(train/validation/test(20%))
- 로지스틱 분석 : 분류1 을 판단 하는 모델 생성 (종속변수는 총 7개 분류, 분류1 외의 값은 0으로 치환), confusion matrix 해석
- 로지스틱 분석 외 3개 이상 분류 모델 생성 및 결과 해석 : SVM 필수 포함, Precision/Sensitivity 결과 출력
- 위 모델 중 최고 모델을 선택하여 최적의 군집 개수를 선택하고 클러스터링 수행 : F-1 Score 출력
데이터 처리 및 통계 분석
- timestamp 처리 / date 기준 데이터 병합
- hh:mm, A/B/C/D/E, 전력 사용량 데이터
- yyyymmdd, 평균 기온
- 아래 형태의 데이터 생성 : 3개 데이터를 date기준으로 병합 필요
-> yyyy-mm / A / B / C / D / E / 사용량 - 요일 변수 생성 및 A/B/C/D/E별 평균 사용량 출력, 그래프 출력
- 요일간 사용량 분석을 수행하고 가장 차이가 있는 요일 도출
- (문제가 생각이 안나네요.. ㅠㅠ)
5. 시험 후기
R
유저 입장에서는 Jupyter Notebook의 장점을 누릴 수 없다는건 큰 손해라고 생각이 됩니다. 시험 환경(Jupyter Notebook)에 하루빨리R
이 적용되었으면 좋겠습니다.이번 시험에서 2번 문제의 날짜 데이터 처리 관련하여 이슈가 있었습니다.
datetime
컬럼에 익숙하지 않은 날짜 값(1543590900
)이 들어있었는데, 데이터에 대한 설명이 부족하여 혼란이 있었습니다.- 저는 '날짜/시간 데이터 처리는
lubridate
지!'라는 생각을 가지고 있어서as_datetime()
함수로 시도해서 결과를 얻었으나 변환된 날짜값이 유효한지에 대한 검증 방법이 없어 개인적인 가정을 가지고 문제 풀이를 진행했습니다. (후에 날짜 데이터 처리 관련 포스팅될 예정입니다.) 실무에서도 데이터가 수집된 기간은 사전 정보로 주어집니다. 분석 데이터에 대한 상세하고 정확한 정보가 안내되었으면 좋겠습니다.
저는 시험 종료 30분 전쯤 시스템 장애가 발생하여 리포트 부분에 많은 부분이 손실되었습니다. 관리자 분들이 다양한 방법으로 시도하였으나 복구되지 않았고, 결국 다음 시험에 재응시 하게 되었습니다.
올초 시험이 코로나19 사태로 연기되어, 현재는 2/4분기 시험을 준비하고 있습니다.
좋은 정보들이 공유될 수 있도록 필기해 놓은 내용들을 하나둘씩 포스팅 할 예정입니다.
응시자 분들에게 도움이 되었으면 좋겠습니다. ^^