해당 포스트는 골든래빗 출판사로부터 책을 제공받아 작성했습니다.
INTRO
최근 살펴본 R도서들은 기본기는 간단히 다루고 다양한 분석 사례를 소개하는 경향이 있었습니다. 개인적으로는 해당 방향성에 공감하지만 분석 또는 프로그래밍을 처음 접하는 초보자들에게는 충분한 이해가 전달되지 않을 수 있어 보완이 필요한 부분도 있습니다.
이번에 나성호 님이 작성하신 R 데이터 분석 입문책은 개발이나 분석 경험이 전혀 없는 분들도 쉽게 따라할 수 있도록 밸런스가 잘 잡혀져 있는 책입니다. 다양한 R도서들이 있지만 R 기초 개념부터 차근차근 올라가시려는 분들에게 이 책을 추천합니다.
이 책의 구성
책은 크게 3단계로 구분되어 설명됩니다. 먼저 1단계 자료 구조에서는 가장 많이 사용되는 벡터, 리스트, 데이터 프레임에 대해 자세히 공부하고, 2단계에서는 R 프로그래밍 스킬(조건문, 반복문, 사용자 정의 함수 등)을 학습합니다. 마지막 3단계 R 데이터 분석에서는 데이터 입출력, 공공데이터 처리/분석/시각화 방법을 소개하면서 마무리 됩니다.
각 챕터별 보다 자세한 내용은 아래 정리하였으니 책 구입을 검토해보시려는 분이라면 읽어보시면 좋을 것 같습니다.
0단계 : 실습 환경 구축
해당 챕터는 학습을 시작하기 전에 필요한 분석 환경 세팅 방법을 설명하고 있습니다. 사용자의 OS환경에 맞춰 R 및 RStudio를 설치하고, 학습에 사용할 데이터 및 코드를 github를 통해 내려받은 다음, 작업 경로, 인코딩 세팅, 패키지 설치 및 불러오는 방법을 설명합니다.
이번 챕터 진행을 완료하였다면 본격적인 R학습에 필요한 모든 준비가 되었다고 볼 수 있습니다.
- R 설치 : Windows, MacOS, Linux
- RStudio 설치 : Windows, MacOS, Linux
- 예제 다운로드 : 깃허브 URL : https://github.com/HelloDataScience/DAwR
- 분석 환경 세팅 : 작업 경로(Work Directory), 한글 인코딩(UTF-8)
- 패키지 설치 및 불러오기
1단계 : R자료구조
01. R 데이터 분석 입문
R 프로그래밍을 위한 사전 지식들을 소개하는 챕터입니다. R에서 프로그래밍을 하면서 지켜져야 하는 규칙들을 소개하고 간단한 코드로 출력 결과를 확인합니다.
그리고 R에서 생성하는 객체(=변수)들은 어떤 특징을 가지고, 자료 구조들은 어떤게 있는지 설명합니다.
- R 기초 지식 : 코드 실행, 객체(변수) 생성, 코딩 규칙(스타일), 도움말 사용법, 기호 설명
- 첫 프로그래밍 Hello World : 코드 실행 방법(콘솔창, 스크립트창)
- 프로젝트 생성 및 활용
- R 객체의 특징, R 자료 구조 종류
02~04. 자료구조 : 벡터, 리스트, 데이터 프레임
R 자료형 중 벡터/리스트/데이터 프레임에 대한 개념 및 원소 다루는 방법을 설명합니다. R에서 가장 기본이 되는 자료 구조 들로 이번 학습을 통해 깊이 이해하시는 것이 좋습니다.
- R자 자료형과 벡터/리스트/데이터 프레임별 특징
- 벡터 연산자 : 산술/비교/논리/멤버
- 데이터 다루기 : 원소 선택/추가/삭제/변경/형변환
2단계 : R 프로그래밍
05~08. R 프로그래밍
프로그래밍의 기본 스킬인 조건문, 반복문, 사용자 정의 함수, 반복 함수 실행에 대해 소개합니다. 조건문 if/ifelse, 반복문 for/while을 자세히 다루며, 사용자 정의 함수를 만들고 해당 함수를 apply() 계열에 적용하여 활용하는 방법을 소개합니다.
- 조건문 : if, ifelse, else
- 반복문 : for, while, next, break
- 사용자 정의 함수 : 기본 구조, 함수 생성, 활용 방법
- 같은 함수 반복 실행 : apply() 계열 함수 소개, lapply()와 sapply() 활용
3단계 : R 데이터 분석
09~14. R 데이터 분석
앞에서 학습한 기본기들을 사용하여 공공 데이터를 수집하고 분석합니다. 분석에 사용되는 공공 데이터는 아파트 실거래 데이터이고, 데이터 로드/전처리/시각화에는 tidyverse 패키지를 이용합니다.
참고로 Tidyverse 에서는 효과적인 R 코딩을 위한 R style Guide 를 제안하였습니다. 분석을 시작하시는 분들이라면 해당 내용을 미리 확인해 보시는 것을 추천드립니다. (Google에서도 tidyverse 의 R style guide를 채택하여 적용중에 있습니다.)
- 데이터 입출력 : tidyverse 내장 패키지 소개, 엑셀 파일 입출력, RDS/RDA 파일 입출력
- 오픈 API를 활용한 공공 데이터 수집 및 처리 : API란? httr 패키지 활용, json 파일 다루기
- 데이터 프레임 전처리 : dplyr 패키지 소개, 컬럼 선택/삭제/필터링/정렬/병합/형 변환 소개
- 기술 통계 분석 : 기술통계량 소개 및 분석(대푯값, 산포, 선형관계)
- 데이터 시각화 : ggplot2 패키지 소개, 시각화 종류 소개(히스토그램, 상자 수염 그림, 막대 그래프, 선 그래프, 산점도 등)
관련 링크
※ 본 포스팅은 쿠팡 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있습니다. |