해당 포스트는 R에서 효율적인 데이터셋 분할 방법 을 설명하는 글입니다. '15회 데이터 분석 전문가(ADP) 실기시험'에 데이터 마이닝 과목 세부 문제로 출제되었습니다. 지난 ADP 15회 실기시험 의 데이터 마이닝 과목 1번 문제는 종속 변수의 비율이 train:valid:test = 6:2:2 가 되도록 데이터셋을 분할하는 문제였습니다. 시험에서는 caret::createDatapartition 함수 사용에 실수가 있어 sample()함수로 해결하였으나 복기하다보니 문제가 해결되어 정리하였습니다. 1. sample() 함수 접근 아래와 흔히 sample() 함수를 이용하는 매 시행에 랜덤 추출이 적용되며, 데이터 셋이 동일한 비율로 분할되지만 종속 변수의 비율이 일정하지 않습니다. 데..
'15회 데이터 분석 전문가(ADP) 실기시험'에서 전처리 작업에 필요했던 날짜/시간 데이터를 처리하는 방법을 설명하는 글입니다. 참고 : 데이터분석전문가(ADP) 15회 실기시험 후기 0. 서론 15회 데이터 분석 전문가(ADP) 실기시험 2번 문제는 '데이터 처리 및 통계분석' 문제였습니다. 전력 사용량 데이터를 제공하면서 데이터 처리(변환, 병합, 요약 등)를 통해 목적에 맞는 분석을 수행하는 문제였고, 데이터는 시스템에서 생성된 로그 데이터가 제공되었습니다. 제공된 데이터를 처음 받았을 때 timestamp 컬럼에 처음보는 형식의 값이 들어있어 당황했었으나 저는 운좋게(?) 해결하게 되어 문제를 풀어나갈 수 있었습니다. 저처럼 당황하지 않으시길 바라며 해당 내용을 정리..
해당 포스트에서는 R에서 효율적인 데이터셋 관리 를 위한 RDS 파일 활용 에 대해 설명합니다. RDS 파일은 R 전용 데이터 파일로 다른 파일들에 비해 R에서 읽고 쓰는 속도가 빠르고 용량이 작다는 장점이 있습니다. 일반적으로 R에서 분석 작업을 할때는 RDS파일을 이용하고, R을 사용하지 앟는 사람과 파일을 주고받을 때는 CSV 파일을 이용합니다. 0. 샘플 데이터 준비하기 테스트에 사용할 데이터는 '네이버 영화 리뷰 데이터'로 파일 크기는 약 19MB 정도 됩니다. 데이터 불러오기 library(readr) system.time(nsmc_ratings
이번 포스트에서는 R스튜디오(RStudio)에서 글자 입력시 일반적이지 않은 형태로 입력되는 현상을 확인하고 조치하는 내용을 설명합니다.현상R스튜디오(R Studio)에서 코드 작성 시, 입력이 정상적으로 되지 않는 현상이 나타남ex) 글자 커짐, 자간 넒어짐 등접근주로 키보드 입력하다가 증상이 나타나므로 주로 사용하는 키들중에 오입력이 되는 것을 찾아보자!해결'Alt+='를 누르면 해결됨! (해당 키조합의의 정확한 용도는 파악 X)→ 자주 사용하는 할당 단축키 'Alt+-'를 사용하려다 오입력 되는 것으로 판단결과기존 증상이 해결되어 정상 입력되는 것을 확인함!
본문에서는 R을 이용하여 .mdb 파일을 불러온 뒤, 테이블별로 .csv 파일 생성 방법을 소개합니다. 참고로, MDB 파일은 Microsoft Access에서 생성된 데이터베이스 파일입니다. 1. 데이터 확인 파일에는 총 6개의 테이블이 들어있으며, 암호가 설정되어 있습니다. 2. 데이터 로드 R에서 .mdb파일을 처리하는 데에는 주로 ODBC 패키지를 사용하며, 기본적으로 Driver, DBQ의 정보가 필요합니다. 만약 파일에 암호가 설정되어 있다면 PWD옵션도 설정해 주어야 합니다. 패키지 로드 및 설정값 세팅 library(RODBC) p_driver
R-bloggers에서 흥미로운 컨텐츠를 찾아 소개하는 포스트 입니다. 이번 포스트에서는 'R에서 실행 시간(running time)을 계산하는 5가지 방법'을 소개합니다. 개요 R에서 실행 시간을 측정하는 방법은 크게 2가지로, 시스템 함수를 이용하는 방법과 외부 패키지를 이용하는 방법이 있습니다. 아래에서는 두 분류에 포함되는 총 5가지 함수 및 패키지의 사용방법을 소개하며 마지막엔 간략한 결론을 제시합니다. 1. Using Sys.time Sys.time()은 시스템 함수로 현재 시스템 시간을 출력하는 함수이며, 코드 청크의 시작과 끝의 시간 차이를 측정하여 측정 할 수 있습니다. 사용법 01 | start_time
해당 포스트는 R에서 벡터(vector) 내 동일 원소(vector)의 위치를 찾기 위하여 which 문과 %in% 구문을 활용한 예제입니다. 개념 설명 1. which() 함수 which는 TRUE 또는 FALSE로 이루어진 벡터(vector)를 인수로 받아서 TRUE 값을 가지는 index의 위치값을 반환합니다. (참고링크) 예제 데이터 생성 which_ex