데이터분석전문가(ADP) 20회 실기시험 후기

이번 포스트는 데이터 분석 전문가(ADP) 20회 실기 시험의 응시 후기 입니다.
지난 시험 후기(14회, 15회, 17회, 19회)는 아래 링크를 참고 하시면 됩니다.

1. 시험장 환경

제가 신청한 시험 장소는 '성동공업고등학교(제1고사장)' 이었습니다. 제가 알기론 실기시험 장소로 처음 이용되는 곳이라 시험 환경에 대한 걱정이 있었으나 생각보다 깔끔하게 정리되어 있어 큰 문제없이 시험을 치뤘습니다.

개인 의견

기본적인 컴퓨터 성능은 유사할 것이라고 생각하나 각 고사장마다 모니터 크기에 차이가 있었습니다. 참고로, 제 모니터는 22인치 평면 모니터 였는데 옆 고사장은 32인치 정도 되는 커브드 모니터 였습니다. "모니터의 크기가 실력을 평가하는데 무슨 문제냐?" 라고 하실 수 있겠으나 코딩과 리포팅을 동시에 수행하는데 있어 모니터 크기 차이는 영향이 있다고 생각합니다. 이러한 부분은 형평성 문제로 생각되며 개선되었으면 좋겠습니다.

2. 분석 환경

지난 시험부터 클라우드 환경에 접속하여 시험을 보게 되었습니다. 웹페이지를 통해 접속하여 시험을 보게 되며, 문제 확인 및 자료 제출 모두 웹페이지를 통해 진행됩니다. 참고로, 인터넷 연결이 되어 있으나 시험 응시 외의 행동은 제한됩니다.

인터넷 연결이 되어있어 추가 패키지 설치가 가능하지만 공지에서는 패키지 설치로 인한 환경 오류는 응시자의 책임이라고 하고 있으니 반드시 필요한 경우가 아니면 가급적 추가 패키지 설치는 자제하는 것이 좋을 것 같습니다.

저도 Random Forest 사용을 위해 ranger 패키지 추가 설치하는데 약 5분정도 소요된 것 같습니다. 저는 다행히 오류없이 설치되었으나 네이버 카페 응시 후기 등을 보면 패키지 설치에 5~10분을 날리시고 결국 기본 패키지로 응시하신 분도 있는 것 같습니다. (조심하는게 좋을 것 같습니다...)

etc-image-0

▲ ADP 20회 실기시험 안내 공지 중 일부

개인 의견

운영상 편의를 위해 클라우드 환경으로 변경하고 이로 인해 인터넷 제한을 풀 수 밖에 없었던 것 같습니다. 추가 패키지 설치가 가능하게 된건 좋으나 장애의 책임을 응시자에게 떠넘기는 것이 아니라 기본 제공되는 R/Python 및 패키지들을 업데이트하는 것이 필요해 보입니다.
2021년 3월 임에도 아직 R은 3.6버전, 2019.08 기준 패키지를 제공하고 있으며, Python은 3.7버전으로 제공되고 있습니다.

3. 문제 복기

이번 실기 시험에서는 크게 3가지 문제가 출제되었으며, 제 기억과 카페에 올라온 후기들을 정리해 보았습니다.

1. 기계학습 (날씨 데이터 최고 온도 예측)
  1. 데이터 확인 및 전처리

    • 데이터 EDA 수행
    • 결측 데이터 예측, 예측 근거 및 처리
    • 기타 전처리 수행 (파생변수, 이상치 등)
    • 데이터 분할 방법 설명
    • 최종 데이터셋 제시
  2. Random Forest 모델 적합 및 검증

    • 예측 기준선 수립 및 근거 제시
    • Random Forest 학습 및 예측 결과 해석
    • 예측 결과 검정 해석, 중요변수 도출
    • 변수 중요성 분석 및 그래프 출력
  3. SVM(Support Vector Machine) 모델 적합 및 검증

    • 예측 기준선 수립 및 근거 제시
    • SVM 학습 및 예측 결과 해석
    • 예측 결과 검정 해석, 중요변수 도출
    • 변수 중요성 분석 및 그래프 출력
  4. 모델 비교 및 향후 개선 방향 도출

    • Random Forest, SVM 모델의 결과 비교 후 최종 모델 선택
    • 두 모델의 장단점 분석, 추후 운영 관점에서 어떤 모델을 선택할 것인가?
    • 모델링 관련 추후 개선 방향 제시
2. 통계 분석 (전력사용량 데이터 분석)
  1. 데이터 정제 및 클러스터링

    • 데이터셋 변환 : 일자별, 15분간격 사용량 -> 일자별 총사용량
    • 클러스터링 수행 후 group 신규 컬럼 생성
  2. 요일별 15분 간격 사용량 히트맵 그리기

    • Date 컬럼을 이용해 요일 컬럼 생성
    • 히트맵 차트 작성 : x축 15분 간격, y축 요일 (문제 파악이 부족합니다)
3. 기계 학습 (PV? 예측)
  1. 데이터셋 분할 및 결과 검증 (단일 문제)
    • 데이터셋 7:3 분할
    • 데이터 전처리 및 예측 모델 생성
    • 모델 성능 검증 : RMSE, R제곱, 정확도 (정확도 산식은 문제에서 제시)
    • 최종 결과 제출 : 소수점 3째자리 반올림

4. 시험 후기

  1. 전반적으로 문제 정의 및 설명이 정확하지 않았습니다. 1번 문제의 경우, 지문에 설명되지 않은 변수가 데이터에 존재했으며 해당 변수의 처리 관련 별도 안내가 없어 저는 입력변수에서 제외하고 문제를 풀었습니다. 별개로 카페에서는 예측 변수가 별도 안내되지 않아 불편함을 겪으신 분들이 계셨습니다. 저 또한 문제를 읽고 예측 변수를 파악하여 풀었는데 이런 부분은 개선되어야 할 것 같습니다.

  2. 기본 제공되는 R패키지 리스트도 공개가 필요합니다. Random Forest 분석을 위해 ranger 패키지를 사용하려 했으나 설치되어 있지 않아 추가 설치하여 분석하였습니다. 2018년에도 사용했던 기억이 있어 기본 제공될 것이라 생각했는데 CRAN 패키지가 아니었나 봅니다. 응시자들의 혼란을 방지하기 위해서 기본 설치된 R패키지 리스트도 공개되면 좋겠습니다.

  3. 이번 회차부터 출제 범위를 공개하지 않았습니다. 이로 인해 많은 분들이 혼란을 겪었으며, 저 또한 미출제 분야에서 문제가 나올 것이라고 생각하고 '네트워크 분석', '딥러닝', '텍스트 마이닝' 등을 공부하고 준비해 갔으나 뒤통수를 제대로 맞았습니다.. ^^

  4. 고무줄 같은 출제 방식 및 범위, 환불 기간 종료 이후 출제 범위 공지 등의 고질적인 문제는 반드시 개선 필요합니다.

5. 출처

[1] 네이버카페 - 데이터 전문가 포럼(DP Forum)
[2] 데이터분석전문가(ADP) 20회 실기시험 준비