데이터분석전문가(ADP) 21회 실기시험 후기

이번 포스트는 데이터 분석 전문가(ADP) 21회 실기 시험의 응시 후기 입니다.
지난 시험 후기(14회, 15회, 17회, 19회, 20회)는 아래 링크를 참고 하시면 됩니다.


참고 링크


1. 시험장 환경

제가 이번에 시험을 응시한 장소는 '성동공업고등학교(제1고사장)' 이었습니다. 지난 20회 실기시험에 응시했던 곳이라 찾아가는데 어려움은 없었는데 이번에도 역시 모니터운은 없었습니다.ㅎㅎ

지난글 참고
기본적인 컴퓨터 성능은 유사할 것이라고 생각하나 각 고사장마다 모니터 크기에 차이가 있었습니다. 참고로, 제 모니터는 22인치 평면 모니터 였는데 옆 고사장은 32인치 정도 되는 커브드 모니터 였습니다. "모니터의 크기가 실력을 평가하는데 무슨 문제냐?" 라고 하실 수 있겠으나 코딩과 리포팅을 동시에 수행하는데 있어 모니터 크기 차이는 영향이 있다고 생각합니다. 이러한 부분은 형평성 문제로 생각되며 개선되었으면 좋겠습니다.

2. 분석 환경

지난 시험에 이어 클라우드 환경에서 시험이 진행되었습니다. 시험시작 전에 접속 및 동작 방법에 대해 설명을 해주는데 로그인 방법은 놓치지 말고 기억해 두시는게 좋습니다. 초반에 로그인 방법을 몰라 시작이 늦으시는 분들을 몇 분 봤는데, 개인적으로 ADP 시험은 시간 싸움이라고 생각하며 가급적 시간을 알뜰하게 쓰시는게 좋습니다.

시험이시작되면 구름(goorm) 사이트에 접속하여 시험을 보게 됩니다. 문제 확인 및 자료 제출 모두 웹페이지를 통해 진행되며, 인터넷 연결이 되어 있으나 시험 응시 외의 행동은 제한됩니다.

인터넷 연결이 되어있어 추가 패키지 설치가 가능하지만 공지에서는 패키지 설치로 인한 환경 오류는 응시자의 책임이라고 안내되어 있습니다. 반드시 필요한 경우가 아니면 가급적 추가 패키지 설치는 자제하는 것이 좋습니다.

[참고] 패키지 추가 설치하는 시간도 시험 시간에 포함되니 제공되는 패키지 목록을 사전에 확인하시고 설치 연습 및 시간 측정 해보시는 것이 좋습니다.

3. 문제 복기

이번 실기 시험에서는 크게 3가지 문제가 출제되었으며, 제 기억과 카페에 올라온 후기들을 정리해 보았습니다.

1. 기계 학습 (학생 성적 데이터)

실제 데이터 세트에서 다음의 변수들만 있었음

  • 독립변수 : school, sex, paid, activities, famrel, freetime, goout, dalc, walc, health, absences
  • 타겟변수 : grade
  1. 시각화 포함 탐색적 자료분석
  2. 결측치 식별하고 결측치를 예측하는 두 가지 방법 정도를 쓰고, 선택한 이유를 설명.(대충 채우라고 알아들음)
  3. 범주형 변수 인코딩이 필요한 경우를 식별하고, 변환을 적용하시오. 선택한 이유를 설명.
  4. 데이터 분할 방법을 2가지 쓰고 적절한 데이터 분할을 적용. 선택한 이유 설명.
  5. svm, xgboost, randomforest 3개의 알고리즘 공통점을 쓰고 이 예측 분석에 적합한 알고리즘인지 설명.
  6. 3모델 모두 모델링 해보고 가장 적합한 알고리즘 선택하고 이유 설명. 한계점 설명하고 보완 가능한 부분 설명. 현업에서 사용시 주의할 점 등에 대해 기술.

2. 기계 학습 (임의 데이터)

  1. 연속형 독립변수 여러개의 소규모 데이터. 변수명은 순서대로 x1~x10 이라 의미 없음
  2. 데이터 8:2로 분할하고 선형회귀 적용하시오. 결정계수와 rmse 구하시오
  3. 데이터 8:2로 분할하고 릿지(ridge) 회귀 적용하시오. alpha 값을 0부터 1까지 0.1단위로 모두 탐색해서 결정계수가 가장 높을때의 알파를 찾고, 해당 알파로 다시 모델을 학습해서 결정계수와 rmse를 계산
  4. 라쏘(lasso) 회귀로 2-2과 동일한 문제

3. 시각화

문제 : 다항 회귀를 3차까지 적용하고 각 차수별 데이터포인트 스캐터 플롯과 계수와 기울기 선 출력

  • 독립변수 하나, 종속변수 하나, 소규모 데이터

4. 통계 분석 (임의 데이터)

문제 : 이원분산분석을 수행하고 통계표를 작성하시오.

  • 변수 3개
  • 하나는 abcde 각각을 값으로 갖는 범주형 변수
  • 나머지 두 개는 수치형 연속변수

4. 출처

[1] 데이터 전문가 포럼(DP Forum)


banner-request-analysis