해당 포스트에서는 R에서 문자열 패턴 검색을 위한 grep(), grepl() 함수에 대해 소개합니다.INTROR 프로그래밍에서 grepl()과 grep() 함수는 문자열 검색과 관련된 문제를 다룰 때 많이 사용되는 함수로, 특히, 정규 표현식을 활용하여 특정 문자열을 찾아내거나, 특정 패턴(pattern)을 가진 문자열을 필터링하는데 많이 사용되는 함수입니다.아래에서는 각 함수에 대해 예시와 함께 설명합니다. grep() vs. grepl()먼저 grep()와 grepl() 함수 사용 방법에 대해 설명합니다.grep() 함수grep() 함수는 정규 표현식을 사용하여 문자열 벡터에서 특정 패턴을 가진 문자열의 위치를 찾아주거나 해당 값을 반환할 수 있습니다.grep("apple", y) : y 벡터에서 ..
해당 포스트에서는 R에서 인공신경망(nnet)을 이용해 스팸 필터링 문제를 풀이하는 방법에 대해 설명합니다.INTRO스팸 필터링(Spam Filtering) 문제는 기본적으로 자연어 처리(NLP, Natural Language Processing)를 기반으로 하며, 텍스트 데이터가 숫자(임베딩)로 변환된 후에는 다양한 알고리즘 적용이 가능합니다.아래에서는 인공신경망(ANN)을 사용하여 스팸을 예측하는 분류 문제를 소개합니다. 풀이 절차는 nnet 패키지를 사용하여 모델을 구축하고, 내장된 스팸 데이터셋을 불러와 전처리 한 뒤, 적절한 노드 수를 찾아 모델을 적합시키고 결과를 분석합니다.[참고] 스팸 필터링(Spam Filtering)에 대한 이론적 이해가 필요하신 분은 아래 링크를 참고해 주세요.스팸 필..
해당 포스트에서는 RStudio 시작 시, 작업 환경이 자동 복구되는 기능을 옵션에서 조정하는 방법을 설명합니다.INTRORStudio에서는 작업 환경의 연속성을 위해, 기본적으로 작업 종료 시 환경을 저장하고, 다음 작업에서는 이전 환경을 자동으로 불러올 수 있게 기능이 제공되고 있습니다. 하지만 작업 연속성이 필요없거나 이전 작업의 불필요한 메모리 사용이 있었다면 이러 기능은 일반 사용자 분들에게는 오히려 불편하게 다가올 수 있습니다.아래에서는 RStudio 작업 환경 자동 복구 기능을 끄거나 키는 방법에 대해 설명합니다. 질문 Rstudio를 사용하고 껐다가 다음날 키면 전에 썼던 내용이 그대로 뜨는 이유는 뭔가요?? 어떻게 하면 다음날 켜도 전에 했던 것들이 안뜨나요?? 답변RStudio는 실행 ..
해당 포스트에서는 posit(formerly RStudio) Engineer가 발표한 'R 파일명을 정의하는 방법'에 대해 소개합니다.INTRO파일명을 정의하는 방법에는 다양한 방법이 있고, 개인마다 스타일이 있습니다. 하지만, 분석가나 개발자의 경우, 기계가 좀 더 잘 이해할 수 있고, 분석에 좀 더 잘 활용할 수 있으며, 타인이 봐도 직관적으로 이해할 수 있는 스타일로 파일명을 정의하는 것이 생산성 및 효율성을 높이는 방법 중 하나라고 생각합니다. 아래에서는 posit(formerly RStudio) engineer인 Jennifer Bryan이 제안하는 파일명 정의 방법에 대해 정리 및 설명합니다.좋은 파일 이름은...좋은 파일 이름은 아래 3가지 기준을 충족해야 합니다.기계가 읽을 수 있고 (m..
해당 포스트는 R을 활용해 특정 기업의 월별 매출액을 분석하는 방법을 소개합니다.INTRO매출액 분석은 경제, 경영, 통계 등 다양한 학문에서 필요한 기술입니다. 기본적으로 많은 분들이 엑셀(excel)을 이용하여 분석을 수행하고 있지만,프로그래밍을 배우시는 분들을 위해 R을 이용해 월별 매출액을 입력하고 분석하는 방법에 대해 설명합니다.문제풀이1. 매출액 분석을 위해 자료를 sales에 저장합니다.R에서 매출액을 sales 변수에 저장하기 위해서는 c() 함수를 이용하면 됩니다.c() : 괄호 안에 값들을 묶어 벡터를 생성합니다.names() : sales 변수의 각 값에 이름을 부여해 줍니다.sales 1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월 400 4..
해당 포스트는 RStudio에서 제공하는 코드 진단 기능(Code Diagnostics) 사용법 및 자주 하는 실수들을 소개합니다.1. INTRORStudio에서는 사용자의 개발 효율성을 위해 R문법에 대한 코드 진단 기능을 제공합니다. 본문에서는 해당 기능을 사용하기 위한 옵션 설정 방법과 자주하는 실수에 대해 설명합니다.2. 코드 진단 (Code Diagnostics)먼저 RStudio의 코드 진단 기능을 사용하기 위해서는 아래 메뉴로 접속해야 합니다.메뉴 위치 : [Tools] - [Global Options] - [Code] - [Diagnostics]위 메뉴로 접속하면 아래와 같은 화면을 볼 수 있습니다. 해당 화면에서 'Show diagnostic for R' 체크박스를 선택하면 옵션 메뉴들이..
해당 포스트는 R에서 나일강(Nile) 데이터를 이용한 히스토그램 출력 방법을 소개합니다.1. IntroR 내장 데이터인 Nile은 아스완(Aswan) 지역에서 측정한 나일강의 연간 유량 데이터입니다.해당 데이터를 이용하여 R에서 히스토그램을 출력해보고, 여러 옵션을 설정해가며 hist()함수의 사용법을 설명합니다. 2. 데이터 불러오기R에서는 data() 함수로 내장 데이터셋을 불러올 수 있습니다. 데이터셋의 이름을 알고 있는 경우, data(데이터명)과 같이 사용하면 됩니다.data(Nile)NileTime Series:Start = 1871 End = 1970 Frequency = 1 [1] 1120 1160 963 1210 1160 1160 813 1230 1370 1140 995 93..
해당 포스트에서는 R에서 ggplot2 막대그래프를 출력한 후 텍스트(text labels)를 추가하는 방법에 대해 설명합니다.1. INTROR에서 가장 많이 사용하는 시각화 패키지는 ggplot2로 tidyverse 생태계에 포함되어 있으면서 타 패키지들(dplyr, tidyr 등)과의 연동성 및 시각화 종류, 품질 등에 장점을 가집니다. 해당 포스트에서는 ggplot2 패키지를 이용하여 출력된 막대그래프에 텍스트 정보(빈도수)를 추가하는 방법에 대해 설명합니다. 2. 데이터 생성이번 설명에서 사용할 샘플 데이터를 생성합니다. 아래 코드는 알파벳 A부터 F까지의 총 6개 문자를 랜덤하게 300번 복원 추출하여 data에 저장합니다.LETTERS : 알파벳 A부터 Z까지의 문자가 들어있는 시스템 변수로..
해당 포스트에서는 R에서 표본 평균, 중앙값, 표본 분산, 표본 표준편차를 계산하는 방법을 소개합니다.데이터 생성설명에 사용할 데이터를 생성합니다.x [1] 26 29 56 31 52 55 71 31 54 47 40 66 68표본 평균표본 평균은 전체 관측치의 합을 전체 관측치의 갯수로 나누어 준다.mean(x,// trim은 데이터를 크기 순서로 나열한 뒤 값이 작은 쪽과 큰 쪽에서 얼마만큼의 데이터를// 제거한 다음 평균을 계산할지를 (0, 0.5) 사이의 값으로 지정한다. 이렇게 계산한 평균을// 절사평균(Trimmed Mean)이라고 한다.trim=0,na.rm=FALSE, # 평균 계산 전 NA를 제거할지 여부...)mean(x)[1] 48.15385중앙값중앙값은 전체 관측치의 중간값을 산출하여..
이번 포스트에서는 RStudio에서 테마를 변경하는 방법에 대해 설명합니다.INTROR공부를 시작하시는 분들의 대부분은 RStudio를 이용해 코드를 작성하게 됩니다. RStudio를 처음 설치하면 하얀 배경의 테마가 보여질텐데, 유튜브나 블로그에서 관련 정보들을 찾다보면 배경이 검은색에 코드 폰트 및 컬러가 다르게 적용되어 있는 것을 보실 수 있습니다. 개인적으로는 이런 세팅이 사소하지만 작업 능률, 가독성에 영향을 준다고 생각하기에 해당 방법을 공유하고자 합니다.RStudio 테마 변경하기RStudio에서 테마 옵션 변경은 아래 위치에서 가능합니다.메뉴 위치 : [Tools] - [Global Options] - [Appearance]위 메뉴로 접속하면 아래와 같은 화면이 나타날텐데, Editor ..