이 포스트는 제이펍에서 출간한 'R로 배우는 텍스트 마이닝: tidytext 라이브러리를 활용하는 방법' 을 읽고 작성한 서평입니다.
INTRO
데이터 분석 업무를 하다보면 설문 또는 고객 클레임 텍스트 분석 업무를 수행하는 경우가 발생합니다. 주력 언어가 R이다 보니 주로 tm, KoNLP 등을 이용하여 텍스트 분석을 수행했었는데 우연히 tidytext 패키지 사례를 접하게되고 관심이 생겨 책을 구입하게 되었습니다. 이 책을 통해 이제는 표준이 되어버린 tidy 자료 구조와 dplyr 파이프 연산으로 텍스트 분석을 수행하고 ggplot 시각화까지 연결되는 하나의 텍스트 분석 파이프라인을 학습하실 수 있습니다.
도서 소개
텍스트 데이터를 정리하고 시각화하기 위한 새로운 방법!
tidytext 라이브러리와 그 밖의 정돈 텍스트 분석 방법을 배운다!
요즘 사용할 만한 데이터는 비정형 데이터이거나 텍스트 위주로 구성되어 있다. 하지만 이러한 데이터는 분석가들이 일상적으로 사용하는 데이터 랭글링 도구나 시각화 도구를 적용하기가 쉽지 않다. 그러나 줄리아 실기와 데이비드 로빈슨이 개발한 tidytext 패키지라면 이야기가 달라진다. tidytext 패키지는 ggplot2나 dplyr 같은 R 패키지에 깔려 있는 정돈(tidy, 깔끔화) 원리를 바탕으로 개발되었는데, 이 책을 통해 여러분은 tidytext R에서 쓸 수 있는 그 밖의 정돈 도구들로 텍스트를 더욱 쉽고 효율적으로 분석하는 방법을 익힐 수 있다.
특히, 저자들은 텍스트를 데이터 프레임처럼 다루는 방법을 전수함으로써 여러분이 텍스트의 특성들을 조작하고, 요약하고, 시각화할 능력을 갖추게 한다. 또한, 여러분은 자연어 처리(NLP) 방식을 통합해 효율성 있는 작업 흐름을 배울 수 있다. 더욱이 실용적인 예제 코드를 통해 데이터를 탐색하다 보면, 우리가 분석하는 문학, 뉴스, 소셜 미디어로부터 진정한 통찰력을 창출할 수 있을 것이다.
이 책의 주요 내용
- tidytext 형식을 NLP에 적용하는 방법을 학습한다.
- 정서 분석 기법으로 텍스트에 담긴 감성적 내용을 학습한다.
- 빈도를 측정해 문서 내에서 가장 중요한 용어들을 식별한다.
- ggraph 패키지와 widyr 패키지를 사용해 단어 사이의 관계와 연결을 찾아낸다.
- 정돈된(깔끔한) 텍스트 형식과 정돈되지 않은 텍스트 형식을 서로 바꿔본다.
- 토픽 모델링으로 문서 모음집을 자연스럽게 분류한다.
책을 읽고
▶ 주관적인 평점 : 4.0점 / 5.0점
이 책에서는 단어/문서 분석, 단어 간 관계 분석, tf-idf, 토픽 모델링 등을 설명하고 사례로는 트위터 아카이브 비교, NASA 메타데이터 마이닝, 유즈넷 텍스트 분석 등 사례를 다루면서 실제 활용 방법까지 설명합니다. 책을 학습하면서 기대 이상의 tidytext 라이브러리의 기능에 놀랐고, 디테일한 설명에 한번 더 놀랐습니다.
또한, 그동안 다양한 함수들을 융합하여 처리하던 로직들을 tidytext 라이브러리에서 제공하는 함수들로 간단히 처리할 수 있다는 것을 알게된 것이 큰 소득이기에 복습해가며 내재화해 볼 생각입니다.
다만 아쉬운 점이 있다면, 이 책이 번역서다 보니 다루는 텍스트 데이터가 모두 영어라는 단점이 있습니다. 설명과 사례 모두 영어 데이터를 기반으로 작성되어 있다보니 한글 텍스트 처리가 필요하신 분들에게는 내용이 부족할 것 같습니다. (예를 들어, 자모 처리, 불용어 처리, 형태소 분석 등 한글 처리를 위한 내용 및 기능이 없습니다.) 하지만 검색을 조금 해보면 한글 텍스트 분석에 tidytext 라이브러리를 활용한 사례들이 종종 보이니 필요하신 분들은 별도 학습을 해보시면 될 것 같습니다.
R로 텍스트 분석을 학습해 보시려는 분이라면 해당 도서를 통해 최근 대세인 tidy 구조의 처리 방법을 익히시는 것을 추천 드리며, 한글 텍스트 처리가 필요하신 분께는 'Do it! 쉽게 배우는 R 텍스트 마이닝' 책을 추천드립니다.