해당 포스트는 Hadley Wickham이 작성한 'The tidyverse style guide' 를 번역하여 정리한 글입니다. Lists Intro - 0. Welcome Analysis - 1. Files Analysis - 2. Syntax (1) Analysis - 2. Syntax (2) Analysis - 3. Functions Analysis - 4. Pipes Analysis - 5. ggplot2 Packages - 6. Files Packages - 7. Documentation Packages - 8. Tests Packages - 9. Error messages Packages - 10. News Packages - 11. Git/GitHub tidyverse tid..
이번 포스트는 데이터 분석 전문가(ADP) 15회 실기 시험의 응시 후기 입니다. 지난 시험 후기(14회)는 아래 링크를 참고 하시면 됩니다. 데이터분석전문가(ADP) 14회 실기 후기 1. 시험장 환경 시험 장소는 대학로에 있는 컴퓨터 학원이었고, 전반적으로 시설이 깔끔하여 좋았습니다. 다만, 책상의 세로폭이 좁고 칸막이가 고정되어 있지 않아 늦게 도착하였더니 개인 자료를 놓을 곳이 부족했습니다. 2. 분석 환경 가상 환경(vmware)에서 서버 버전을 구동하고 웹(chrome)으로 접근하여 분석 수행하였습니다. R: R Studio Server Python : Jupyter Nnotebook 지난 시험(14회)과 마찬가지로 Jupyter Notebook에는 R이 설치되어 있지 않았고, R Notebo..
R-bloggers에서 흥미로운 컨텐츠를 찾아 소개하는 포스트 입니다. 이번 포스트에서는 'R에서 실행 시간(running time)을 계산하는 5가지 방법'을 소개합니다. 개요 R에서 실행 시간을 측정하는 방법은 크게 2가지로, 시스템 함수를 이용하는 방법과 외부 패키지를 이용하는 방법이 있습니다. 아래에서는 두 분류에 포함되는 총 5가지 함수 및 패키지의 사용방법을 소개하며 마지막엔 간략한 결론을 제시합니다. 1. Using Sys.time Sys.time()은 시스템 함수로 현재 시스템 시간을 출력하는 함수이며, 코드 청크의 시작과 끝의 시간 차이를 측정하여 측정 할 수 있습니다. 사용법 01 | start_time
이 포스팅은 Kaggle의 California Housing Prices 문제 풀이를 따라 연습한 글입니다. 출처 : Kaggle - California Housing Prices INTRO 해당 Competition은 1990년 캘리포니아 인구조사 데이터인 캘리포니아 주택 가격(California Housing Prices) 데이터셋을 사용하며, 학습을 통해 주택 가격(median)을 예측하는 문제입니다. Step 1. Load in the data 1.1 패키지 및 데이터 불러오기 변수 설명 longitude : 경도 latitude : 위도 housing_median_age : 주택 나이 (중앙값) total_rooms : 전체 방 수 total_bedrooms : 전체 침실 수 population..
이 글은 Kaggle에서 좋은 평가를 받은 kernel을 따라하며 학습한 내용입니다. Kaggle Linear Regression : Randomly created dataset for linear regression R notebook using data from Linear Regression by zohan 선형 회귀 분석은 한 개 이상의 입력 변수(X)들을 기반으로 하나의 반응 변수(Y)를 예측하는데 활용됩니다. 입력 변수와 반응 변수의 선형 관계(수학적 공식) 수립의 목적은 입력 변수(X)들을 알고 있을 때, 공식을 이용하여 반응 변수(Y)를 추정하는데 있습니다. 1. 패키지 및 데이터 불러오기 분석을 시작하기 앞서, 데이터를 불러오고 분석에 필요한 패키지를 로드하는 단계입니다. 데이터는 아래 ..
이번 포스트는 데이터 분석 전문가(ADP) 14회 실기 시험의 응시 후기 입니다. 추가 궁금하신 사항은 질문주시면 답변 드리겠습니다. 1. 시험장 환경 시험 장소는 선릉이었는데 생각보다 환경이 좋았습니다. 개인 자료는 제한 없이 가지고 들어갈 수 있으며 나올 때 가지고 나올 수 있었습니다. 2. 분석 환경 가상 환경(vmware)에서 서버 버전을 구동하고 웹(chrome)으로 접근하여 분석 수행하였습니다. R: R Studio Server Python : Jupyter notebook 3. 보고서 제출 보고서는 PDF 형태로 제출해야 하며, 소스코드도 PDF내에 포함되어야 함 word, powerpoint, excel 활용 가능 저는 powerpoint를 사용했었는데.. 프레임, 배치 등 의미없는 곳에 ..
제 14회 ADP 실기를 준비해보자!! 여기저기 사이트를 돌아다니며 기출자료 정리중! 13회, 14회 실기시험에는 텍스트 마이닝 과목이 출제되지 않았습니다. 시험 전 공지사항을 참고하시어 착오 없으시길 바랍니다. (참고 : 데이터분석전문가(ADP) 14회 실기 후기) 0. 주제 분류 통계분석 데이터마이닝 텍스트마이닝 1. 통계 분석 폐활량(Fev) 예측 문제 (나이, 키, 성별, 흡연 유무) - 2017.04.30 EDA 및 상관관계 분석 적절한 회귀모형 선택 회귀모형 해석 (변수 별 증가에 따른) 평균 키, 나이(여자, 흡연자) 일 경우 폐활량 예측 통계 문석 문제 - 12회 기출 변수 시각화(변수간 상관관계, 변수별 이상치 파악) 회귀모형 적합과 유의성 검정 회귀 계수에 대한 standard erro..
오프라인에서 R 및 RStudio Server 의 설치 및 환경 설정을 돕기 위한 글입니다. 설명에 앞서, 이 글은 2년전에 작성하였던 글을 공유하는 것이기에 버전이 낮을 수 있습니다.계정, 경로, 버전 등의 정보는 필요한 상황에 맞추어 수정하시면 됩니다. # R 설치 1. R공식사이트(https://cran.r-project.org/)에 접속하여 R-3.2.2.tar.gz 파일을 다운받는다. 2. 받은 파일을 서버에 저장하고 압축을 풀어준다. tar -zxvf R-3.2.2.tar.gz -C /home/mhyang/R # tar -zxvf R-3.2.2.tar.gz -C R설치경로 3. 압축이 풀리면 설치된 폴더로 접근하여 다음 명령어를 차례로 입력한다. cd /home/mhyang/R/R-3.2.2 ..
R에서 주성분 분석(PCA) 시 활용할 수 있는 사용자 정의 함수(UDF)를 소개하는 글입니다. R에서 주성분 분석(PCA)을 수행하기 위해 검색하던 중 분석을 조금 더 편하게 할 수 있는 사용자 정의 함수(UDF)를 발견하였고, 범용적으로 활용할 수 있도록 함수를 변경하여 개인 소스코드 목록에 추가하였습니다. 이 포스트는 사용자 정의 함수(UDF)에 관한 글이기에 주성분 분석에 대해 알고 싶으신 분은 링크를 참고하시면 됩니다. 1. 원본(수정 전) 변수에 대한 설명력의 누적기여율(cummulative proportion)이 80%가 되는 주성분의 개수 k개를 찾아서, 주성분 1번부터 주성분 k번째까지의 주성분점수를 반환하는 사용자 정의함수는 아래와 같습니다.#------------------------..