이 포스트는 제이펍에서 출간한 'R로 배우는 텍스트 마이닝: tidytext 라이브러리를 활용하는 방법' 을 읽고 작성한 서평입니다. 원서 : Text Mining with R: A Tidy Approach INTRO 데이터 분석 업무를 하다보면 설문 또는 고객 클레임 텍스트 분석 업무를 수행하는 경우가 발생합니다. 주력 언어가 R이다 보니 주로 tm, KoNLP 등을 이용하여 텍스트 분석을 수행했었는데 우연히 tidytext 패키지 사례를 접하게되고 관심이 생겨 책을 구입하게 되었습니다. 이 책을 통해 이제는 표준이 되어버린 tidy 자료 구조와 dplyr 파이프 연산으로 텍스트 분석을 수행하고 ggplot 시각화까지 연결되는 하나의 텍스트 분석 파이프라인을 학습하실 수 있습니다. 도서 ..
해당 포스트는 R에서 tidyverse 패키지를 이용하여 데이터 필터링하는 방법을 코드와 함께 소개하는 글입니다. 1. INTRO 데이터 프레임(Data Frame)은 R에서 가장 많이 사용하는 자료 구조입니다. 분석을 위해 데이터를 추출하거나 필터링하는 경우, 내장 함수만으로도 처리 가능하지만 tidyverse 패키지(정확히는 tidyverse 패키지에 포함된 dplyr 패키지)를 이용하면 좀 더 직관적이고 효과적인 처리가 가능해 집니다. R 내장 데이터셋인 msleep을 이용해 코드와 함께 설명하겠습니다. 패키지 불러오기 library(tidyverse) head(msleep) # A tibble: 6 x 11 name genus vore order conservation sleep_total sle..
해당 포스트에서는 R에서 텍스트(문자) 데이터 처리를 위한 10가지 Tip and Tricks 를 소개합니다. 원문 : Stringr in r 10 data manipulation Tips and Tricks INTRO R에서 텍스트 데이터를 다루기 위해 가장 많이 사용되는 패키지는 stringr 패키지 입니다. R언어의 필수 패키지인 Tidyverse 에 포함되었을 정도로 활용성이 높은 패키지이며 일반적인 기능과 다양한 팁들을 소개하는 내용이 R-bloggers 에 업로드되어 공유하게 되었습니다. stringr 패키지 기능 소개 함수의 실제 동작 결과를 함께 설명하기 위해 5개 문자열 벡터로 구성된 statement를 생성하도록 하겠습니다. install.packages("stringr") librar..
해당 포스트에서는 R에서 데이터 프레임 내부의 값을 범위 기준에 따라 0 또는 1로 변환하는 방법을 설명합니다. 1. INTRO 네이버 지식iN에서 지식을 공유하고 있습니다. 간단한 질문들은 해당 질문에 바로 답변을 드리지만 질문의 내용이 유익하거나 추가 설명이 필요한 경우에는 포스팅을 작성하여 공유드리고 있습니다. 2. 질문 R에서 데이터 수정해야되는데, CSV 파일 불러왔거든요, 근데 그다음에 그 변수들 값이 리커트 척도라서 1~4까지 있는데, 1,2는 0으로, 3,4 값은 1로 변경해야되는데 어느 함수를 써야되나요???? 컬럼이나 새로운 변수 생성하는건 알지만, 생성하는게 아니고 원래 있는 변수들의 값을 1~4까지 있는데, 0과1만 나오게 변경하려는거예요! mutation같기는 한데 어떻게 써야할지..
해당 포스트는 R에서 텍스트 파일들을 불러와 비교 분석(교집합, 차집합)을 수행하는 예제입니다. 1. 배경 네이버 지식인 활동을 하면서 아래와 같은 1:1 질문을 받게되었고 답변을 좀 더 자세히 남기기 위해 포스팅을 작성하게 되었다. 2. 질문 1.txt 와 2.txt 파일에 샘플 이름이 들어있다. 이 두 파일에서 공통적인 샘플이름과 각 파일에서만 나오는 샘플 이름을 정리하는 프로그램을 작성해보시오. input이 txt파일들로 주어져있고, 샘플이 셀수 있을 정도가 아닌 상황에서의 코딩 방법이 궁금합니다. 예상 시나리오 # Files 1.txt = {Sample1, Sample2, Sample3} 2.txt = {Sample1, Sample3, Sample4} # Common Sample1 Sample3 ..
해당 포스트는 Hadley Wickham이 작성한 'The tidyverse style guide' 를 번역하여 정리한 글입니다.ListsIntro - 0. WelcomeAnalysis - 1. FilesAnalysis - 2. Syntax (1)Analysis - 2. Syntax (2)Analysis - 3. FunctionsAnalysis - 4. PipesAnalysis - 5. ggplot2Packages - 6. FilesPackages - 7. DocumentationPackages - 8. TestsPackages - 9. Error messagesPackages - 10. NewsPackages - 11. Git/GitHub11. Git과 Github (Git/GitHub)11.1 커밋 ..
해당 포스트는 Hadley Wickham이 작성한 'The tidyverse style guide' 를 번역하여 정리한 글입니다.ListsIntro - 0. WelcomeAnalysis - 1. FilesAnalysis - 2. Syntax (1)Analysis - 2. Syntax (2)Analysis - 3. FunctionsAnalysis - 4. PipesAnalysis - 5. ggplot2Packages - 6. FilesPackages - 7. DocumentationPackages - 8. TestsPackages - 9. Error messagesPackages - 10. NewsPackages - 11. Git/GitHub10. 뉴스 (News)각 사용자가 직면한 패키지 변경 사항은 N..
해당 포스트는 Hadley Wickham이 작성한 'The tidyverse style guide' 를 번역하여 정리한 글입니다.ListsIntro - 0. WelcomeAnalysis - 1. FilesAnalysis - 2. Syntax (1)Analysis - 2. Syntax (2)Analysis - 3. FunctionsAnalysis - 4. PipesAnalysis - 5. ggplot2Packages - 6. FilesPackages - 7. DocumentationPackages - 8. TestsPackages - 9. Error messagesPackages - 10. NewsPackages - 11. Git/GitHub9. 오류 메세지(Error messages)오류 메시지(Erro..
해당 포스트는 Hadley Wickham이 작성한 'The tidyverse style guide' 를 번역하여 정리한 글입니다.ListsIntro - 0. WelcomeAnalysis - 1. FilesAnalysis - 2. Syntax (1)Analysis - 2. Syntax (2)Analysis - 3. FunctionsAnalysis - 4. PipesAnalysis - 5. ggplot2Packages - 6. FilesPackages - 7. DocumentationPackages - 8. TestsPackages - 9. Error messagesPackages - 10. NewsPackages - 11. Git/GitHub8. 테스트(Tests)8.1 구성(Organisation)테스트..
해당 포스트는 Hadley Wickham이 작성한 'The tidyverse style guide' 를 번역하여 정리한 글입니다.ListsIntro - 0. WelcomeAnalysis - 1. FilesAnalysis - 2. Syntax (1)Analysis - 2. Syntax (2)Analysis - 3. FunctionsAnalysis - 4. PipesAnalysis - 5. ggplot2Packages - 6. FilesPackages - 7. DocumentationPackages - 8. TestsPackages - 9. Error messagesPackages - 10. NewsPackages - 11. Git/GitHub7. 문서(Documentation)7.1 소개(Introduct..