이 포스트는 한빛미디어에서 출간한 '밑바닥부터 시작하는 딥러닝 3'을 읽고 작성한 서평입니다. 2017년 알파고의 등장으로 많은 분들이 AI에 관심을 갖기 시작했고, 저 또한 그 이벤트를 계기로 머신러닝/딥러닝 공부를 시작하게 되었습니다. 그 당시 딥러닝 교과서로 유명했던게 온라인은 김성훈님의 '모두를 위한 딥러닝' 이었고(지금은 강화학습까지도 소개하고 있습니다), 오프라인에서는 이번에 소개드리는 '밑바닥부터 시작하는 딥러닝' 책이었습니다. 1편에서 이미지 처리(CNN), 2편에서 자연어 처리(RNN) 기술을 소개하였다면, 3편에서는 이들의 기반이 되는 '딥러닝 프레임워크' 자체를 설명하고 있습니다. 처음 읽을 당시엔 "내가 프레임워크까지 알 필요..
이번 포스트는 데이터 분석 전문가(ADP) 실기시험을 준비하는 분들에게 도움이 되고자 확인된 내용을 공유하는 글입니다. 데이터분석전문가(ADP) 14회 실기 후기 데이터분석전문가(ADP) 15회 실기 후기 데이터분석전문가(ADP) 17회 실기 후기 데이터분석전문가(ADP) 19회 실기시험 준비 시험 장소를 확인하러 들어갔다가 19회 ADP 실기시험 관련 공지를 보게 되어 혼란을 막고자 포스트를 작성하였습니다. 지난 18회 실기에서 텍스트 마이닝 과목이 부활하여 개인적으로 가장 기대했고, 그래서 제일 먼저 텍스트 마이닝 과목부터 공부했었습니다. 그런데 이번 19회 시험 공지를 보니 '기계학습', '통계분석' 과목만 출제된다고 하네요..ㅎ 나름 관심있는 과목이라 열심히 준비했는데..
해당 포스트는 R에서 효율적인 데이터셋 분할 방법 을 설명하는 글입니다. '15회 데이터 분석 전문가(ADP) 실기시험'에 데이터 마이닝 과목 세부 문제로 출제되었습니다. 지난 ADP 15회 실기시험 의 데이터 마이닝 과목 1번 문제는 종속 변수의 비율이 train:valid:test = 6:2:2 가 되도록 데이터셋을 분할하는 문제였습니다. 시험에서는 caret::createDatapartition 함수 사용에 실수가 있어 sample()함수로 해결하였으나 복기하다보니 문제가 해결되어 정리하였습니다. 1. sample() 함수 접근 아래와 흔히 sample() 함수를 이용하는 매 시행에 랜덤 추출이 적용되며, 데이터 셋이 동일한 비율로 분할되지만 종속 변수의 비율이 일정하지 않습니다. 데..
이 포스트는 제이펍에서 출간한 '일잘러의 보고서 작성법'을 읽고 작성한 서평입니다. 본 도서에서는 클래스101, 풋풋아카데미 를 통해 검증된 실무형 문서 커뮤니케이션 방법에 대해 설명하고 있습니다. 일상 사례들과 함께 가볍게 읽어가다보면 직장인 필수 역량인 문서 작성 능력이 3,4단계 업그레이드 되어 있을실 겁니다. ^^ ▶ 회사 생활 진단 체크리스트 보고서, 기획서, 제안서 등 문서 작성 미션을 받을 때마다 뭘 써야 할지 막막하다. 문서 기획, 작성 방법에 관해 배울 수 있는 사수나 상사가 없다. 포털 검색 창에 ‘PPT 템플릿’, ‘보고서 작성법’, ‘제안서 양식’, ‘기획서 잘 쓰는 법’을 검색해 봤다. “리서치해서 보고해 주세요.”, “1페이지로 간략히 정리해 주세요.”와 같은 러프..
'15회 데이터 분석 전문가(ADP) 실기시험'에서 전처리 작업에 필요했던 날짜/시간 데이터를 처리하는 방법을 설명하는 글입니다. 참고 : 데이터분석전문가(ADP) 15회 실기시험 후기 0. 서론 15회 데이터 분석 전문가(ADP) 실기시험 2번 문제는 '데이터 처리 및 통계분석' 문제였습니다. 전력 사용량 데이터를 제공하면서 데이터 처리(변환, 병합, 요약 등)를 통해 목적에 맞는 분석을 수행하는 문제였고, 데이터는 시스템에서 생성된 로그 데이터가 제공되었습니다. 제공된 데이터를 처음 받았을 때 timestamp 컬럼에 처음보는 형식의 값이 들어있어 당황했었으나 저는 운좋게(?) 해결하게 되어 문제를 풀어나갈 수 있었습니다. 저처럼 당황하지 않으시길 바라며 해당 내용을 정리..
해당 포스트에서는 R에서 효율적인 데이터셋 관리 를 위한 RDS 파일 활용 에 대해 설명합니다. RDS 파일은 R 전용 데이터 파일로 다른 파일들에 비해 R에서 읽고 쓰는 속도가 빠르고 용량이 작다는 장점이 있습니다. 일반적으로 R에서 분석 작업을 할때는 RDS파일을 이용하고, R을 사용하지 앟는 사람과 파일을 주고받을 때는 CSV 파일을 이용합니다. 0. 샘플 데이터 준비하기 테스트에 사용할 데이터는 '네이버 영화 리뷰 데이터'로 파일 크기는 약 19MB 정도 됩니다. 데이터 불러오기 library(readr) system.time(nsmc_ratings
이번 포스트에서는 R스튜디오(RStudio)에서 글자 입력시 일반적이지 않은 형태로 입력되는 현상을 확인하고 조치하는 내용을 설명합니다.현상R스튜디오(R Studio)에서 코드 작성 시, 입력이 정상적으로 되지 않는 현상이 나타남ex) 글자 커짐, 자간 넒어짐 등접근주로 키보드 입력하다가 증상이 나타나므로 주로 사용하는 키들중에 오입력이 되는 것을 찾아보자!해결'Alt+='를 누르면 해결됨! (해당 키조합의의 정확한 용도는 파악 X)→ 자주 사용하는 할당 단축키 'Alt+-'를 사용하려다 오입력 되는 것으로 판단결과기존 증상이 해결되어 정상 입력되는 것을 확인함!
이번 포스트에서는 R스튜디오(R Studio)에서 자동 줄바꿈 기능(soft-wrap)을 적용하는 방법을 설명합니다.참고 : 파이참(Pycharm)에서 자동 줄바꿈(soft-wrap) 사용하기현상R스튜디오(R Studio)에서 코드 작성 시, 문장이 길어지는 경우 우측 화면을 넘어가 잘리는 현상이 나타남화면을 넘어가게 되는 경우 자동으로 줄바꿈이 되도록 설정하고자 함!접근일반적으로 자동 줄바꿈 기능이 있으니 옵션에서 찾아보자!해결상단 메뉴에서 [Tools]-[Global Options...]으로 이동[Code]탭에서 'General'-'Soft-wrap R source files' 체크박스 선택 후 OK버튼 클릭결과긴 문장에 자동 줄바꿈(Soft-Wrap) 이 적용되어 좌우 스크롤 없이도 확인할 수 있음..
이번 포스트는 데이터 분석 전문가(ADP) 실기시험을 준비하는 분들에게 도움이 되고자 확인된 내용을 공유하는 글입니다. 아래 기출 문제들의 분류는 제가 임의로 정리하여 오분류가 있을 수 있습니다. ^^ 최종 업데이트 일자 : 2020-11-12 텍스트 마이닝(Text Mining) [1회, 2014-06-24] 포털 검색 리스트 활용 토픽 분석 : 사용자 로그 문서화, 토픽 분석 결과 해석 [2회, 2014-10-18] 제주관광명소 분석 : 명소 txt 및 블로그 데이터, 필터링, 빈발단어 분석 [3회, 2015-01-24] 뉴스 키워드 분석 : 주간 이슈, 이슈별 빈도 등 [6회, 2016-04-30] 여행지 분석 : 가평/가야/남이성 등, 봄 관련 문서 추출, 명사 추출 및 빈도 분석, 상위 10개 ..
이번 포스트는 데이터 분석 전문가(ADP) 실기시험을 준비하는 분들에게 도움이 되고자 확인된 내용을 공유하는 글입니다. 아래 기출 문제들의 분류는 제가 임의로 정리하여 오분류가 있을 수 있습니다. ^^ 최종 업데이트 일자 : 2022-02-21 데이터 마이닝 & 기계 학습 (Data Mining & Machine Learning) [1회, 2014-06-24] 고객 세분화 : 세분화 변수 생성 및 선정, 군집분석, 집단별 특성 분석 및 인사이트 도출 [2회, 2014-10-18] 해지 예측(churn) : 3가지 이상 모델 도출 및 비교/선정 [3회, 2015-01-24] 로또 번호 연관분석 [6회, 2016-04-30] sales데이터 분석 : 고객/제품별 처리, 피어슨상관분석, 특정 유저와 유사한 1..