해당 포스트는 데이터 분석의 필수 과정인 데이터 전처리(Data Precessing)에 대해 설명합니다.
데이터 전처리?
데이터 전처리(Data Preprocessing)는 데이터를 실제 업무에 활용하기에 앞서 정제하는 행위를 의미하며, 데이터 전처리와 비슷하게 사용되는 용어로는 데이터 가공(Data Manipulation), 데이터 핸들링(Data Handling), 데이터 랭글링(Data Wrangling), 데이터 먼징(Data Munging) 등이 있습니다.
Forbes 설문에 따르면 데이터 분석가는 업무 시간 중 약 80%를 데이터 수집 및 전처리 과정에 사용한다고 합니다.
데이터 전처리 유형
데이터 전처리는 데이터 품질 향상, 데이터 통일, 개인정보 보호 등을 목적으로 사용되며 각 목적에서 수행하는 행위는 아래와 같습니다.
- 데이터 품질 향상 : 이상치 처리, 결측치 처리, 노이즈 제거, 오타 처리, 개행문자 등 특수문자 처리
- 데이터 통일 : 메타 데이터 조정(칼럼명 통일), 데이터 형태 조정(Data Type, Datetime Type, 원핫 인코딩), 연계정보 조정(불필요 칼럼 삭제, 칼럼 추가 등)
- 개인정보 보호 : 노이즈 추가(차분 프라이버시), 식별자 제거(개인정보 비식별화), 암호화(동형암호), 민감속성 제거
그렇다면 R에서 데이터 전처리는?
R에서도 다양한 데이터 전처리 함수들이 제공되고 있으며, 내장 함수 및 전용 패키지들을 활용할 수 있습니다. 특히, tidyverse에서 제공하는 dplyr 패키지가 가장 많이 사용되며, 파이프 연산자(%>%
)를 이용하여 생각의 흐름대로 코딩이 가능합니다.
R 전처리 관련 포스트
- [R] 데이터를 컬럼(id) 기준으로 합치기 (Data concatenation by column)
- [R] 데이터 프레임 값을 0 또는 1로 변환 (feat. tidyverse)
- [R] 텍스트 데이터 처리 Tip and Tricks (feat. stringr)
- [R] 데이터 필터링 10가지 방법 (feat. tidyverse)
- [R] 행렬 생성 및 부분 행렬 추출
R 데이터 전처리 관련 도서 추천
R 데이터 전처리 관련 도서로는 아래 2권을 추천드립니다. 첫번째 도서는 'R을 이용한 데이터 처리&분석 실무' 책으로 출간일이 오래되어 사용 함수 및 패키지들이 연식이 쫌 되긴했지만 아직까지 데이터 처리 도서로는 인기있는 책입니다.
출판사에서 온라인 버전은 무료로 공개하고 있으며 여기에서 확인 가능합니다.
두번째 책은 '빅데이터 분석도구 R프로그래밍'입니다. 한글로 번역된 책이라 중간중간 어색한 한글이 있긴하지만 R에서 필요한 프로그래밍 기술의 대부분을 배울 수 있습니다. 개인적으로 2015년도에 책을 구매하여 아직까지고 필요할 때 꺼내보는 책입니다.
관련링크
[1] IT위키 데이터 전처리
[2] [Forbes] Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says
※ 본 포스팅은 쿠팡 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있습니다. |