[도서리뷰] 골든래빗 '나성호의 R 데이터 분석 입문'

해당 포스트는 골든래빗 출판사로부터 책을 제공받아 작성했습니다.

골든래빗(주) 나성호의 R 데이터 분석 입문 +미니수첩제공

INTRO

최근 살펴본 R도서들은 기본기는 간단히 다루고 다양한 분석 사례를 소개하는 경향이 있었습니다. 개인적으로는 해당 방향성에 공감하지만 분석 또는 프로그래밍을 처음 접하는 초보자들에게는 충분한 이해가 전달되지 않을 수 있어 보완이 필요한 부분도 있습니다.

이번에 나성호 님이 작성하신 R 데이터 분석 입문책은 개발이나 분석 경험이 전혀 없는 분들도 쉽게 따라할 수 있도록 밸런스가 잘 잡혀져 있는 책입니다. 다양한 R도서들이 있지만 R 기초 개념부터 차근차근 올라가시려는 분들에게 이 책을 추천합니다.

이 책의 구성

책은 크게 3단계로 구분되어 설명됩니다. 먼저 1단계 자료 구조에서는 가장 많이 사용되는 벡터, 리스트, 데이터 프레임에 대해 자세히 공부하고, 2단계에서는 R 프로그래밍 스킬(조건문, 반복문, 사용자 정의 함수 등)을 학습합니다. 마지막 3단계 R 데이터 분석에서는 데이터 입출력, 공공데이터 처리/분석/시각화 방법을 소개하면서 마무리 됩니다.

각 챕터별 보다 자세한 내용은 아래 정리하였으니 책 구입을 검토해보시려는 분이라면 읽어보시면 좋을 것 같습니다.

▲ 숫자로 보는 책의 특징

0단계 : 실습 환경 구축

해당 챕터는 학습을 시작하기 전에 필요한 분석 환경 세팅 방법을 설명하고 있습니다. 사용자의 OS환경에 맞춰 R 및 RStudio를 설치하고, 학습에 사용할 데이터 및 코드를 github를 통해 내려받은 다음, 작업 경로, 인코딩 세팅, 패키지 설치 및 불러오는 방법을 설명합니다.

이번 챕터 진행을 완료하였다면 본격적인 R학습에 필요한 모든 준비가 되었다고 볼 수 있습니다.


  1. R 설치 : Windows, MacOS, Linux
  2. RStudio 설치 : Windows, MacOS, Linux
  3. 예제 다운로드 : 깃허브 URL : https://github.com/HelloDataScience/DAwR
  4. 분석 환경 세팅 : 작업 경로(Work Directory), 한글 인코딩(UTF-8)
  5. 패키지 설치 및 불러오기

1단계 : R자료구조

01. R 데이터 분석 입문

R 프로그래밍을 위한 사전 지식들을 소개하는 챕터입니다. R에서 프로그래밍을 하면서 지켜져야 하는 규칙들을 소개하고 간단한 코드로 출력 결과를 확인합니다.

그리고 R에서 생성하는 객체(=변수)들은 어떤 특징을 가지고, 자료 구조들은 어떤게 있는지 설명합니다.


  1. R 기초 지식 : 코드 실행, 객체(변수) 생성, 코딩 규칙(스타일), 도움말 사용법, 기호 설명
  2. 첫 프로그래밍 Hello World : 코드 실행 방법(콘솔창, 스크립트창)
  3. 프로젝트 생성 및 활용
  4. R 객체의 특징, R 자료 구조 종류

02~04. 자료구조 : 벡터, 리스트, 데이터 프레임

R 자료형 중 벡터/리스트/데이터 프레임에 대한 개념 및 원소 다루는 방법을 설명합니다. R에서 가장 기본이 되는 자료 구조 들로 이번 학습을 통해 깊이 이해하시는 것이 좋습니다.


  1. R자 자료형과 벡터/리스트/데이터 프레임별 특징
  2. 벡터 연산자 : 산술/비교/논리/멤버
  3. 데이터 다루기 : 원소 선택/추가/삭제/변경/형변환

2단계 : R 프로그래밍

05~08. R 프로그래밍

프로그래밍의 기본 스킬인 조건문, 반복문, 사용자 정의 함수, 반복 함수 실행에 대해 소개합니다. 조건문 if/ifelse, 반복문 for/while을 자세히 다루며, 사용자 정의 함수를 만들고 해당 함수를 apply() 계열에 적용하여 활용하는 방법을 소개합니다.


  1. 조건문 : if, ifelse, else
  2. 반복문 : for, while, next, break
  3. 사용자 정의 함수 : 기본 구조, 함수 생성, 활용 방법
  4. 같은 함수 반복 실행 : apply() 계열 함수 소개, lapply()와 sapply() 활용

3단계 : R 데이터 분석

09~14. R 데이터 분석

앞에서 학습한 기본기들을 사용하여 공공 데이터를 수집하고 분석합니다. 분석에 사용되는 공공 데이터는 아파트 실거래 데이터이고, 데이터 로드/전처리/시각화에는 tidyverse 패키지를 이용합니다.

참고로 Tidyverse 에서는 효과적인 R 코딩을 위한 R style Guide 를 제안하였습니다. 분석을 시작하시는 분들이라면 해당 내용을 미리 확인해 보시는 것을 추천드립니다. (Google에서도 tidyverse 의 R style guide를 채택하여 적용중에 있습니다.)


  1. 데이터 입출력 : tidyverse 내장 패키지 소개, 엑셀 파일 입출력, RDS/RDA 파일 입출력
  2. 오픈 API를 활용한 공공 데이터 수집 및 처리 : API란? httr 패키지 활용, json 파일 다루기
  3. 데이터 프레임 전처리 : dplyr 패키지 소개, 컬럼 선택/삭제/필터링/정렬/병합/형 변환 소개
  4. 기술 통계 분석 : 기술통계량 소개 및 분석(대푯값, 산포, 선형관계)
  5. 데이터 시각화 : ggplot2 패키지 소개, 시각화 종류 소개(히스토그램, 상자 수염 그림, 막대 그래프, 선 그래프, 산점도 등)

관련 링크


골든래빗(주) 나성호의 R 데이터 분석 입문 +미니수첩제공


※ 본 포스팅은 쿠팡 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있습니다.