해당 포스트에서는 R에서 함수(function)를 사용할 때 return() 함수를 사용해야 하는 이유에 대해 설명합니다.1. INTROR에서 사용자 정의 함수(User Defined Function)를 만들 때는 return() 함수가 반드시 필요합니다. return() 함수를 왜 사용해야 하는지, return() 함수 사용 유무에 따라 어떤 차이가 있는지 아래에서 설명하겠습니다.2. return() 함수를 사용한 정상적인 사용자 함수설명을 위해 숫자 2개 곱하기 함수를 만들고 return() 함수 유무에 따른 차이를 비교해 보겠습니다.return() 사용 유무의 차이는 결괏값을 변수에 저장해 보면 알 수 있으며, 아래에서는 단순 출력과 저장 후 출력의 차이를 비교해 설명합니다.함수 생성먼저 비교에 ..
해당 포스트에서는 ADP 공식 수험서 데이터 분석 과목에서 소개된 후진 제거법을 통한 변수 선택 및 다중 선형 회귀 분석 방법을 설명합니다.문제다음과 같은 데이터가 있다. Y를 반응 변수로 하고, X1, X2, X3, X4를 설명 변수로 하는 선형회귀모형을 고려하고, 후진 제거법을 이용하여 변수를 선택하시오.1. 데이터 생성x1 # x1 x2 x3 x4 y# 1 7 26 6 60 78.5# 2 1 29 15 52 74.3# 3 11 56 8 20 104.3# 4 11 31 8 47 87.6# 5 7 52 6 33 95.9# 6 11 55 9 22 109.22. 다중 선형 회귀 분석회귀 분석 1차lm_model # Call:# lm(formula = y ~ x1 + x2 +..
해당 포스트는 R에서 막대 그래프를 출력할 때, x축 레이블과 색상을 추가하는 방법에 대해 소개합니다.참고 : [R] R에서 사용 가능한 색상 이름 목록 (R colours)INTROR에서는 barplot() 함수를 이용하여 막대 그래프를 출력할 수 있습니다. 해당 함수에 숫자로 된 벡터를 입력해주면 각 벡터에 해당하는 값들이 막대 형태로 시각화되는데, 좀 더 의미있는 시각화를 위해 x축 레이블값과 막대 별 색상을 추가하는 방법을 설명하도록 하겠습니다.데이터셋 생성먼저 이번 설명에 사용할 이름별 평균 점수가 저장된 데이터 셋을 생성하겠습니다.mydata 이름 평균1 노홍철 60.32 유재석 82.93 정형돈 74.3막대 그래프 출력1. 기본 방법기본 데이터만 입력하여 barplot()을 출력하면 ..
R에서는 이미 지정해 놓은 색상 이름들을 이용하여 다양한 색상 표현이 가능합니다. 해당 포스트에서는 R에서 사용 가능한 색상 이름들을 개인 소장용으로 정리해 보았습니다.INTRO시각화에서는 색상의 구분도 중요하지만, 톤 변화를 통해서도 다양한 느낌을 전달할 수 있습니다. R에서는 시각화 중요성을 인지하여 색상별 이름 미리 정의해 두었으며, 일반적으로 사용되는 색상 코드(RGB, HEX 등)를 사용하지 않고 색상 이름을 사용하여 간단하게 적용해 볼 수 있습니다.예시# 데이터셋 생성mydata 아래는 R에서 사용 가능한 색상 목록표 이미지와 다운 가능한 PDF 파일입니다.R Colours PDF 다운https://www.stat.auckland.ac.nz/~ihaka/courses/787/R-colours-..
해당 포스트에서는 R에서 줄기-잎 그림(Stem-and-Leaf Plot)을 출력하는 방법을 소개합니다.1. INTRO줄기-잎 그림(Stem-and-Leaf plot)은 통계학에서 통계적 자료를 표(table) 형태와 그래프(Graph) 형태의 혼합된 방법으로 나타내는 시각화를 말하며, R에서 내장 함수인 stem()을 이용해 줄기-잎 그림을 그릴 수 있습니다. 아래에서는 내장 데이터셋인 tree 데이터를 이용해 줄기-잎 그림을 시각화하는 방법을 설명 드리겠습니다.2. 줄기-잎 그림 그리기이번에 사용할 tree 데이터는 31그루의 벌목된 검은 벚나무의 지름, 높이, 부피 측정값을 제공이 들어있습니다.Girth(numeric) : Tree diameter (rather than girth, actuall..
해당 포스트에서는 RStudio 작업환경 자동 저장 옵션을 끄는 방법을 소개합니다. INTRO작업환경 자동 저장 옵션은 RStudio를 설치하면 기본적으로 활성화되는 옵션으로 작업하던 도중 메모리 오버나 실수로 RStudio도 종료되었을 때 기존 작업 환경이 유지될 수 있도록 도와주는 목적의 옵션입니다.그러나 공동 PC에서 작업하시는 분들에게는 해당 옵션으로 인해 자신의 코드가 노출될 수 있다는 우려가 있어 가끔 자동 저장 옵션을 끄고 싶어 하시는 분들이 계십니다.해당 방법에 대해 간단하게 아래에 정리하였으니 참고하여 적용하시면 됩니다.자동 저장 옵션 끄기자동 저장 옵션은 RStudio 옵션에서 확인 및 조정 가능합니다.위치 : [Tools] - [Global Options] - [General] - [..
해당 포스트는 tidyverse 스타일 가이드에 맞춰 R 코드를 수정해주는 styler 패키지에 대해 소개하는 글입니다.INTRO대부분의 R 사용자들은 결과를 얻기 위한 목적으로 R 프로그래밍을 수행합니다. 이 경우, 원하는 출력 결과는 얻었지만 코드가 정리되어 있지 않아(일관성, 가독성, 들여쓰기 등) 타인에게 공유 필요 시 코드 정리를 해야하는 번거로운 상황이 발생할 수 있는데, 작성된 코드를 tidyverse 스타일 가이드에 맞춰 정리해주는 패키지를 발견하여 내용을 공유하게 되었습니다.styler 패키지 소개1. 개요styler 패키지는 사용자가 코드 개발(내용)에 집중할 수 있도록 tidyverse 스타일 가이드(또는 사용자 지정 스타일 가이드)에 따라 코드 포맷을 수정합니다. 프로젝트 전반에서 ..
INTRORStudio를 사용하다보면 간혹 단축키 실행이 안되거나 다른 동작이 실행되는 경우가 있습니다. 이 경우 해당 키에 설정된 기능을 확인하여 내가 원하는 단축키 세팅을 해야하는데 RStudio가 익숙하지 않으신 분들은 재설치를 하시는 것을 몇 번 목격하였습니다.이런 분들을 위해 도움을 드리고자 짧은 내용이지만 RStudio 단축키 설정 방법을 정리해 보았습니다.관련 글 R스튜디오(R Studio)에서 글자가 다르게 입력되는 문제 해결하기R스튜디오(R Studio)에서 자동 줄바꿈(soft-wrap) 사용하기단축키 확인먼저 사용하고 있는 RStudio에 설정된 단축키를 확인하는 방법은 두 가지가 있습니다.메뉴에서 확인 : [Tools] - [Keyboard Shortcuts Help]단축키로 확인..
해당 포스트에서는 R에서 혈액형 데이터로 도수분포표와 막대그래프를 출력하는 방법을 소개합니다.INTROR 분석을 시작하면서 데이터의 분포를 파악하는 첫번째 방법은 빈도를 살펴보는 것입니다. 변수별 빈도를 표형태로 확인하는 경우에는 도수분포표(table)를 사용하고, 해당 결과를 그래프로 표현할 때에는 보통 막대그래프(barchart)를 사용합니다. 아래에서는 가상의 혈액형 데이터를 생성하여 도수분포표와 막대그래프를 출력하는 방법을 설명하겠습니다.1. 데이터 생성먼저 30개 혈액형 데이터(A,B,O,AB)를 담고있는 mydata 객체를 생성해 보겠습니다.mydata [1] "A" "B" "B" "B" "A" "A" "O" "A" "B" "AB" "B" "A" "B" "B" "O"..
해당 포스트는 이미 R이 설치되어 있는 상황에서 RStudio 설치 방법을 소개하는 글입니다.Windows10 에서 R 설치 하기 (1/2)Windows10 에서 R 설치 하기 (2/2)Windows10 에서 RStudio 설치 하기 (1/2)시작하기 전에RStudio 는 R을 위한 통합 개발 환경(IDE:Integrated Development Environment) 으로 코드 편집(editor), 코드 하이라이트(syntax-highlight), R 코드 실행(code execution) 등 R을 200% 이상 활용할 수 있도록 다양한 기능을 제공해주는 소프트웨어 입니다. 최근에는 Jupyter Notebook, Visual Studio, Sublime Text 등 타 IDE에서도 R을 사용할 수 ..