[R] R에서 반응 변수 비율에 맞춰 데이터셋 분할하기 (15회 ADP 실기 기출)
해당 포스트는 R에서 효율적인 데이터셋 분할 방법 을 설명하는 글입니다. '15회 데이터 분석 전문가(ADP) 실기시험'에 데이터 마이닝 과목 세부 문제로 출제되었습니다. 지난 ADP 15회 실기시험 의 데이터 마이닝 과목 1번 문제는 종속 변수의 비율이 train:valid:test = 6:2:2 가 되도록 데이터셋을 분할하는 문제였습니다. 시험에서는 caret::createDatapartition 함수 사용에 실수가 있어 sample()함수로 해결하였으나 복기하다보니 문제가 해결되어 정리하였습니다. 1. sample() 함수 접근 아래와 흔히 sample() 함수를 이용하는 매 시행에 랜덤 추출이 적용되며, 데이터 셋이 동일한 비율로 분할되지만 종속 변수의 비율이 일정하지 않습니다. 데..