[도서리뷰] 한빛미디어 'XGBoost와 사이킷런을 활용한 그레이디언트 부스팅'

이 포스트는 한빛미디어에서 출간한 'XGBoost와 사이킷런을 활용한 그레이디언트 부스팅'을 읽고 작성한 서평입니다.

gradient-boosting-xgboost-scikit-learn

INTRO

데이터 분석 경진 대회(Kaggle, Dacon 등)에서 초반에 리더 보드 상위를 장악하는 것은 항상 XGBoost, scikit-learn을 활용한 모델입니다. 두 라이브러리 활용한다면, 타 모델과 비교/검증을 통해 빠르고 효율적으로 모델을 구축할 수 있으며, 간단한 작업으로도 다양한 튜닝을 시도할 수 있습니다.

해당 책은 입문 단계를 넘어 보다 깊은 분석을 원하는 분들에게 도움이 되는 책이며, 도서 구입에 고민이 되는 분들을 위해 아래 후기를 작성해 보았습니다.

gradient-boosting-xgboost-scikit-learn
▲ 책 소개 : 누구를 위한 책인가요?

책 소개

캐글 우승자들의 머신러닝 우승 비법이자 현존하는 가장 우월한 머신러닝 모델 XGBoost

이 책은 기본적인 머신러닝과 판다스부터 사용자 정의 변환기, 파이프라인과 희소 행렬로 새로운 데이터의 예측을 만드는 강력한 XGBoost 모델 튜닝까지 모두 다룹니다. 또한 XGBoost의 탄생 배경과 XGBoost를 특별하게 만드는 수학적 이론과 기술, 물리학자와 천문학자가 우주를 연구하는 사례 연구까지 다양한 XGBoost의 흥미로운 이야기와 캐글 마스터들의 우승 비법까지 소개합니다. 마지막으로 더 확실한 이해를 위해 원서에는 없는 친절하고 상세한 역자 노트와 다른 그레이디언트 부스팅 라이브러리를 배울 수 있는 한국어판만의 부록을 추가하여 내용을 더욱 가득 채웠습니다. 이 책 한 권이면 복잡한 XGBoost 개념을 완벽하게 이해하고 제품을 위한 머신러닝을 구축해볼 수 있게 됩니다. 그레이디언트 부스팅을 현업에 적용해보고 싶은 머신러닝 엔지니어나 캐글 대회를 준비하고 있는 캐글 도전자에게 훌륭한 안내서가 되어줄 것입니다.

gradient-boosting-xgboost-scikit-learn
▲ 책 소개 : 캐글 고수가 전해주는 비법

주요 내용

  • 그레이디언트 부스팅 모델 구축
  • 정확하고 빠른 XGBoost 회귀 및 분류 모델 개발
  • XGBoost 하이퍼파라미터 미세 조정 측면에서 분산 및 편향 분석
  • 상관관계가 없는 앙상블을 구축하고 XGBoost 모델을 스태킹하여 정확성 향상
  • 다트, 선형 모델 및 XGBoost 랜덤 포레스트와 같은 기본 학습기 적용
  • 사용자 정의 변환기와 파이프라인을 사용한 XGBoost 모델 배포
  • 누락된 값 자동 수정 및 불균형 데이터 조정

목차

  1. 코딩 환경 설정

PART 1. 배깅과 부스팅

  1. 머신러닝 개요
  2. 결정 트리
  3. 배깅과 랜덤 포레스트
  4. 그레이디언트 부스팅에서 XGBoost까지

PART 2. XGBoost

  1. XGBoost 소개
  2. XGBoost 하이퍼파라미터
  3. XGBoost로 외계 행성 찾기

PART 3. 고급 XGBoost

  1. XGBoost 기본 학습기
  2. 캐글 마스터에게 배우기
  3. XGBoost 모델 배포

책을 읽고

▶ 주관적인 평점 : 5.0점 / 5.0점


해당 도서는 명확한 주제와 구체적인 설명으로 데이터 과학의 한 부분을 깊게 경험해 볼 수 있게 도와줍니다. 특히, XGBoostscikit-learn 라이브러리를 활용하여 다양한 사례와 실습을 통해 실제 분석 역량을 강화하고 부족한 실전 경험을 쌓을 수 있습니다.

책에서 전달하려는 주제가 명확하고 내용이 알차게 구성되어 있다보니 최근 접했던 데이터 분석 도서들 중에 개인적으로 탑으로 뽑을 수 있을 것 같습니다.

입문자들을 위한 도서가 아닌 프로그래밍 및 분석에 대한 이해가 있으신 분들에게 적합한 책이며, 캐글(kaggle) 및 데이콘(dacon)과 같은 경진대회나 빅데이터 분석기사와 같은 자격증을 준비하시는 분들에게도 도움이 되는 책이라고 생각합니다.

gradient-boosting-xgboost-scikit-learn
▲ 캐글(kaggle) 대회 둘러보기

gradient-boosting-xgboost-scikit-learn
▲ 그리드서치 vs 랜덤서치

관련 링크

[1] 한빛출판네트워크 - XGBoost와 사이킷런을 활용한 그레이디언트 부스팅
[2] 예제 소스 - github


hanbit-media-book-review