해당 포스트에서는 R에서 범주형 변수 변환을 위한 방법으로 One-Hot Encoding 을 소개합니다. 원문보기 : One-hot encoding in R: three simple methods 0. 배경 데이터 전처리는 모든 분석의 시작 단계로 전처리 수준에 따라 모델의 성능 차이가 크게 발생 할 수 있습니다. 특히 범주형 데이터의 경우, 머신 러닝 알고리즘에 적용하기 위한 전처리(변환)가 필수적이며 아래에서는 그 중 하나의 방법인 One-Hot Encoding을 소개합니다. R에는 One-Hot Encoding을 지원하는 다수의 패키지들이 있지만, 이번 포스트에서는 제가 분석 업무를 수행하면서 자주 사용하는 3가지 패키지들을 예시로 설명드리겠습니다. 1. 데이터 준비 먼저 설명에 사용할 샘플 데이터..
해당 포스트는 R에서 수행하는 데이터 변환 작업 중, 컬럼(열) 기준으로 데이터를 합치기는 방법을 소개합니다. 배경 많은 분들이 데이터 분석에 관심을 보이고 계시며, 최근 회사에서도 R이나 Python을 업무에 사용하시려는 분들이 늘어나고 있습니다. 두가지 언어를 조금씩 사용할 줄 알다보니 다양한 질문을 받게되는데 그 중 간단하고 공개 가능한 정보들은 공유하려고 합니다. 이번 포스트에서는 동일한 ID를 가지는 데이터들을 콤마(,)로 이어붙여 새로운 컬럼을 생성하는 방법을 소개 합니다. 질문 (Question) 아래 그림과 같이 데이터를 변환하려고 합니다. R 코딩으로 가능할까요? 답변 (Answer) 먼저, 엑셀(Excel)에서 사용하는 모든 함수 및 작업은 R에서도 가능하다고 보시면 됩니다. 질문 데이..
해당 포스트는 R에서 효율적인 데이터셋 분할 방법 을 설명하는 글입니다. '15회 데이터 분석 전문가(ADP) 실기시험'에 데이터 마이닝 과목 세부 문제로 출제되었습니다. 지난 ADP 15회 실기시험 의 데이터 마이닝 과목 1번 문제는 종속 변수의 비율이 train:valid:test = 6:2:2 가 되도록 데이터셋을 분할하는 문제였습니다. 시험에서는 caret::createDatapartition 함수 사용에 실수가 있어 sample()함수로 해결하였으나 복기하다보니 문제가 해결되어 정리하였습니다. 1. sample() 함수 접근 아래와 흔히 sample() 함수를 이용하는 매 시행에 랜덤 추출이 적용되며, 데이터 셋이 동일한 비율로 분할되지만 종속 변수의 비율이 일정하지 않습니다. 데..
'15회 데이터 분석 전문가(ADP) 실기시험'에서 전처리 작업에 필요했던 날짜/시간 데이터를 처리하는 방법을 설명하는 글입니다. 참고 : 데이터분석전문가(ADP) 15회 실기시험 후기 0. 서론 15회 데이터 분석 전문가(ADP) 실기시험 2번 문제는 '데이터 처리 및 통계분석' 문제였습니다. 전력 사용량 데이터를 제공하면서 데이터 처리(변환, 병합, 요약 등)를 통해 목적에 맞는 분석을 수행하는 문제였고, 데이터는 시스템에서 생성된 로그 데이터가 제공되었습니다. 제공된 데이터를 처음 받았을 때 timestamp 컬럼에 처음보는 형식의 값이 들어있어 당황했었으나 저는 운좋게(?) 해결하게 되어 문제를 풀어나갈 수 있었습니다. 저처럼 당황하지 않으시길 바라며 해당 내용을 정리..
해당 포스트에서는 R에서 효율적인 데이터셋 관리 를 위한 RDS 파일 활용 에 대해 설명합니다. RDS 파일은 R 전용 데이터 파일로 다른 파일들에 비해 R에서 읽고 쓰는 속도가 빠르고 용량이 작다는 장점이 있습니다. 일반적으로 R에서 분석 작업을 할때는 RDS파일을 이용하고, R을 사용하지 앟는 사람과 파일을 주고받을 때는 CSV 파일을 이용합니다. 0. 샘플 데이터 준비하기 테스트에 사용할 데이터는 '네이버 영화 리뷰 데이터'로 파일 크기는 약 19MB 정도 됩니다. 데이터 불러오기 library(readr) system.time(nsmc_ratings
본문에서는 R을 이용하여 .mdb 파일을 불러온 뒤, 테이블별로 .csv 파일 생성 방법을 소개합니다. 참고로, MDB 파일은 Microsoft Access에서 생성된 데이터베이스 파일입니다. 1. 데이터 확인 파일에는 총 6개의 테이블이 들어있으며, 암호가 설정되어 있습니다. 2. 데이터 로드 R에서 .mdb파일을 처리하는 데에는 주로 ODBC 패키지를 사용하며, 기본적으로 Driver, DBQ의 정보가 필요합니다. 만약 파일에 암호가 설정되어 있다면 PWD옵션도 설정해 주어야 합니다. 패키지 로드 및 설정값 세팅 library(RODBC) p_driver
R-bloggers에서 흥미로운 컨텐츠를 찾아 소개하는 포스트 입니다. 이번 포스트에서는 'R에서 실행 시간(running time)을 계산하는 5가지 방법'을 소개합니다. 개요 R에서 실행 시간을 측정하는 방법은 크게 2가지로, 시스템 함수를 이용하는 방법과 외부 패키지를 이용하는 방법이 있습니다. 아래에서는 두 분류에 포함되는 총 5가지 함수 및 패키지의 사용방법을 소개하며 마지막엔 간략한 결론을 제시합니다. 1. Using Sys.time Sys.time()은 시스템 함수로 현재 시스템 시간을 출력하는 함수이며, 코드 청크의 시작과 끝의 시간 차이를 측정하여 측정 할 수 있습니다. 사용법 01 | start_time