해당 포스트에서는 R에서 문자열 패턴 검색을 위해 stringr 패키지의 str_detect(), str_subset(), str_which() 함수에 대해 소개합니다. INTRO 앞선 포스트에서는 R에서 문자열 패턴 검색을 위한 방법으로 R 내장 함수인 grepl()과 grep() 함수에 대해 설명하였습니다. 이번 포스트에서는 최근 문자열 검색과 관련된 문제를 다룰 때 많이 사용되는 패키지인 tidyverse의 stringr패키지를 이용하여 동일한 문제를 풀어보겠습니다. tidyverse 패키지? stringr 패키지? tidyverse 패키지는 데이터 분석 및 가공을 위한 유용한 함수를 제공해주는 필수 패키지이며, stringr 패키지는 tidyverse 패키지에서 제공되는 텍스트 처리에 특화된 유용..
해당 포스트에서는 R에서 문자열 패턴 검색을 위한 grep(), grepl() 함수에 대해 소개합니다. INTRO R 프로그래밍에서 grepl()과 grep() 함수는 문자열 검색과 관련된 문제를 다룰 때 많이 사용되는 함수로, 특히, 정규 표현식을 활용하여 특정 문자열을 찾아내거나, 특정 패턴(pattern)을 가진 문자열을 필터링하는데 많이 사용되는 함수입니다. 아래에서는 각 함수에 대해 예시와 함께 설명합니다. grep() vs. grepl() 먼저 grep()와 grepl() 함수 사용 방법에 대해 설명합니다. grep() 함수 grep() 함수는 정규 표현식을 사용하여 문자열 벡터에서 특정 패턴을 가진 문자열의 위치를 찾아주거나 해당 값을 반환할 수 있습니다. grep("apple", y) : ..
해당 포스트에서는 R에서 특정 열을 범주형 변수(as.factor)로 변환하고 이를 활용하여 데이터셋을 분할하는 방법을 소개합니다. INTRO R에서는 다양한 데이터셋 분할 방법이 있습니다. 이 포스트에서는 특정 컬럼을 범주형 변수로 변환하여 범주에 맞게 데이터셋을 분할하는 방법에 대해 샘플 데이터와 함께 설명합니다. 데이터셋 분할하기 1. 샘플 데이터 생성 먼저, data.frame() 함수를 사용하여 mydf 데이터 프레임을 만듭니다. 이 데이터 프레임은 Lake, Year, Count 세 가지 열(column)을 가지며, 각각의 열에는 A, B, C라는 세 개의 Lake, 2011년과 2012년, 그리고 각 호수와 연도에 따른 물고기 수(Count)가 포함되어 있습니다. mydf
해당 포스트에서는 네이버 지식인을 통해 질문 받은 반복문을 이용한 특정 출력 방법(3,5,7,9,11 트리 구조 출력)에 대해 설명합니다. INTRO R의 대표적인 반복문에는 for(), while(), repeat() 문이 있습니다. 각 반복문은 유사하게 동작하지만 조금씩 다른 사용법을 가지고 있으며, 아래에서는 네이버 지식인에서 질문받은 문제를 이용하여 예시와 함께 설명합니다. 반복문 비교 아래 세 가지 반복문은 각각의 특성에 따라 적합한 상황이 있으며, 적절히 활용하는 것이 중요합니다. for문은 리스트나 벡터와 같은 순차적인 데이터를 처리하는 경우에 유용하며, while문은 반복 조건에 따라 반복 횟수가 결정되는 경우에 적합합니다. 반면, repeat문은 무한 반복문으로, 반복을 중단할 조건이 명..
해당 포스트는 데이터 프레임(Data Frame)의 특정 컬럼을 기준으로 그룹 합계(Group Sum)을 계산하는 방법을 소개합니다. INTRO R에서 그룹합(Group Sum)을 계산하는 경우는 집단별 합계, 성별 인원 합계, 연령대 소득 합계 등 다양합니다. 아래에서는 R에서 제공되는 다양한 그룹합(Group Sum) 함수들 중, 추가 설치 없이 사용 가능한 aggreate() 함수에 대해 설명하고 예시 데이터와 함께 간단한 풀이를 진행합니다. aggregate? aggregate()는 데이터를 하위 집합으로 분할하여, 각각에 대한 요약 통계를 계산하고 편리한 형식으로 결과를 반환해주는 함수입니다. 함수 사용법 aggregate(x, FUN, …, simplify = TRUE, drop = TRUE)..
해당 포스트에서는 R에서 숫자 데이터 범위에 따라 그룹을 지정하는 방법에 대해 소개합니다. INTRO ifelse() 함수는 R 프로그래밍 언어에서 자주 사용되는 함수 중 하나로, 간단한 조건문을 작성할 때 사용되며, if-else 문의 간단한 버전이라고 생각하시면 됩니다. 자주 사용되는 함수이기도 하지만, 쉽게 사용할 수 있어 간단한 예시 몇 개만 익히신다면 금방 마스터하실 수 있습니다. 아래에서는 간단한 예시와 함께 코드 사용 방법에 대해 설명합니다. 문제 풀어보기 먼저, 0부터 12까지의 정수를 갖는 숫자 벡터인 mydata를 생성하고, 이를 출력해 보겠습니다. # 숫자 벡터 생성 mydata = 10, "a", NA)))) [1] "d" "d" "d" "c" "c" "c" "b" "b" "b" "..
해당 포스트는 MASS패키지의 Cars93 데이터셋을 Origin 변수값에 따라 두 그룹으로 분할하는 방법을 소개합니다. INTRO 데이터 분석을 하다보면 'train/test', '합격/불합격', '남자/여자' 등 데이터셋을 분할하는 경우가 많이 발생합니다. 데이터셋을 분할하기 위해서는 기준이 필요한데, 특정 컬럼 또는 데이터에 기준이 있는 경우라면 쉽게 해결이 가능합니다. 아래에서는 MASS 패키지에서 제공되는 Cars93 데이터셋을 이용하여 Origin 컬럼값에 따라 데이터를 분할하는 방법을 설명합니다. 문제 풀이 MASS 패키지에서 제공되는 Cars93 데이터셋을 이용하여 Origin 컬럼값에 따라 데이터를 분할하는 R코드는 다음과 같습니다. 아래 코드는..
해당 포스트에서는 R에서 인공신경망(nnet)을 이용해 스팸 필터링 문제를 풀이하는 방법에 대해 설명합니다. INTRO 스팸 필터링(Spam Filtering) 문제는 기본적으로 자연어 처리(NLP, Natural Language Processing)를 기반으로 하며, 텍스트 데이터가 숫자(임베딩)로 변환된 후에는 다양한 알고리즘 적용이 가능합니다. 아래에서는 인공신경망(ANN)을 사용하여 스팸을 예측하는 분류 문제를 소개합니다. 풀이 절차는 nnet 패키지를 사용하여 모델을 구축하고, 내장된 스팸 데이터셋을 불러와 전처리 한 뒤, 적절한 노드 수를 찾아 모델을 적합시키고 결과를 분석합니다. [참고] 스팸 필터링(Spam Filtering)에 대한 이론적 이해가 필요하신 분은 아래 링크를 참고해 주세요...
해당 포스트는 프로그래밍 공부를 위해 Project Euler에서 제공되는 알고리즘 문제를 다양한 접근으로 풀이한 글입니다. Problem 문제번호 : 1 제목 : 1000보다 작은 자연수 중에서 3 또는 5의 배수를 모두 더하면? 설명 : 10보다 작은 자연수 중에서 3 또는 5의 배수는 3, 5, 6, 9 이고, 이것을 모두 더하면 23입니다. 1000보다 작은 자연수 중에서 3 또는 5의 배수를 모두 더하면 얼마일까요? Solution-1 R Code # 1부터 1000까지의 수열을 생성합니다. x
해당 포스트에서는 피보나치 수열(Fibonacci numbers)에 대해 소개하고, 실습으로 300보다 작은 모든 피보나치 숫자들을 찾는 방법을 소개합니다. 참고로, Python 코드는 아래 사이트에서 확인하실 수 있습니다. [Python] 피보나치 수열 (Fibonacci numbers) 피보나치 수열(Fibonacci numbers)? 피보나치 수열은 각 항이 바로 앞 두 항의 합과 같은 수열입니다. 즉, 0과 1로 시작하고, 그 다음 항부터는 바로 앞의 두 항을 더한 값으로 이루어진 수열입니다. 예를 들어, 피보나치 수열의 처음 몇 항은 다음과 같습니다. 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 418..