해당 포스트에서는 R에서 랜덤 데이터 샘플링(추출)방법에 대해 설명합니다. 1. INTRO R에서 랜덤 데이터 추출이 필요한 경우, 내장 함수인 sample()과 dplyr 패키지의 sample_n(), sample_frac() 함수를 사용할 수 있습니다. 아래에서 각 함수의 설명과 사용법을 설명하니 상황에 따라 필요한 함수를 사용하시면 됩니다. 참고 아래 예시에서 설명하는 함수들은 무작위 추출되기에 출력 결과가 다를 수 있는 점 참고 부탁드립니다. 2. sample() sample()은 R에서 제공되는 내장 함수로 별도의 설치가 필요하지 않습니다. sample() 함수는 난수를 추출해주는 함수로 입력 인자값 차이에 따라 각각 다른 결과값을 리턴합니다. 아래 3가지 예시를 준비하였으니 보시고 사용법을 참..
해당 포스트에서는 R에서 데이터 정렬 방법(order(), arrange())에 대해 설명합니다. 1. INTRO R에서 데이터 정렬이 필요한 경우, 내장 함수인 order()와 dplyr 패키지의 arrange() 함수를 많이 사용합니다. 아래에서는 두 함수의 사용 방법을 설명하니 상황에 따라 필요한 함수를 골라 사용하시면 됩니다. 2. order() order()은 R에서 제공되는 내장 함수로 별도의 설치가 필요하지 않습니다. order() 함수만 단독으로 쓰는 경우, 각 값의 순위(rank)가 리턴되기에 일반적으로는 아래와 같이 변수 내 인덱싱에 적용하여 정렬하는데 사용됩니다. mylist 생성 mylist % arrange(mpg) mpg cyl disp hp drat wt qsec vs am g..
해당 포스트에서는 R에서 문자열(String) 조작을 위한 함수 및 방법을 소개합니다. INTRO R에서 문자열(String) 조작 방법을 예시와 함께 설명합니다. 기본은 영어를 기준으로 소개하며, 일부 한글 적용 가능 함수는 예시와 함께 추가 설명하고 있으니 참고하여 이해하시면 됩니다. 데이터 생성 이번 설명에 사용할 문자열 데이터는 아래 코드로 생성 가능합니다. mytext
해당 포스트는 bookdown을 github page와 연동하면서 발생한 에러 조치 방법에 대해 소개합니다. 문제unfinishedgod님 포스트를 참고하여 bookdown 패키지와 github page 연동 시도'3-1. _bookdown.yml 파일 수정' 부분을 진행하면서 아래와 같은 에러 발생File packages.bib not found in resource path 풀이_bookdown.yml 파일을 처음 오픈하면 아래와 같이 기재되어 있고, 아래 사진과 같이 추가 입력해 주어야 함delete_merged_file: truelanguage: ui: chapter_name: "Chapter " 왼쪽과 같이 입력하면 File packages.bib not found in resource..
해당 포스트는 R에서 반복문(for문)을 이용하여 데이터 분할 후 여러 변수에 나누어 저장하는 방법을 설명합니다. INTRO 데이터 분석 작업을 하다보면 통합된 데이터를 분할하여 연도별 또는 범주별로 나누어 저장해야 하는 일이 간혹 발생합니다. 반복문을 이용한다면 데이터셋 분할은 가능하지만, 각기 다른 객체명을 지정해가며 저장하는 방법은 쉽게 떠오르지 않습니다. R에서는 이런 상황을 위해 assign() 함수를 제공하고 있으며, 아래에서 예시와 함께 사용법을 설명 하겠습니다. 이번 설명에서는 iris 데이터셋을 이용하며, Species별(setosa, versicolor, virginica)로 데이터를 분할하고 'iris_'를 접두사 저장하는 방법을 설명합니다. 1. 데이터셋 로드 먼저 d..
해당 포스트는 R 연산자 종류 및 사용법 - 고급편을 소개합니다. 출처 : 슬기로운통계생활 Youtube - 이거 외계어 아니야? R 연산자 (operator) 부시기! 고급편! Lists [R] 연산자(Operator) 종류 및 사용법 - 기초편 [R] 연산자(Operator) 종류 및 사용법 - 초급편 [R] 연산자(Operator) 종류 및 사용법 - 중급편 [R] 연산자(Operator) 종류 및 사용법 - 고급편 INTRO R을 사용하면서 프로그래밍 스킬도 중요하지만 함수 및 연산자에 대한 이해만 가지더라도 효율적인 R활용이 가능합니다. 이번 포스트에서는 R에서 기본적으로 제공하는 연산자들을 소개하고 예시와 함께 사용법을 설명합니다. 참고로 이번에 설명하는 연산자들은 magrittr 패키지에서 ..
해당 포스트는 R 연산자 종류 및 사용법 - 중급편을 소개합니다. 출처 : 슬기로운통계생활 Youtube - 이거 외계어 아니야? R 연산자 (operator) 부시기! 고급편! Lists [R] 연산자(Operator) 종류 및 사용법 - 기초편 [R] 연산자(Operator) 종류 및 사용법 - 초급편 [R] 연산자(Operator) 종류 및 사용법 - 중급편 [R] 연산자(Operator) 종류 및 사용법 - 고급편 INTRO R을 사용하면서 프로그래밍 스킬도 중요하지만 함수 및 연산자에 대한 이해만 가지더라도 효율적인 R활용이 가능합니다. 이번 포스트에서는 R에서 기본적으로 제공하는 연산자들을 소개하고 예시와 함께 사용법을 설명합니다. 참고로 이번에 설명하는 연산자들은 magrittr 패키지에서 ..
해당 포스트는 R 연산자 종류 및 사용법 - 초급편을 소개합니다. 출처 : 슬기로운통계생활 Youtube - R 연산자 (operator) 어디까지 알고있니? 기초편 Lists [R] 연산자(Operator) 종류 및 사용법 - 기초편 [R] 연산자(Operator) 종류 및 사용법 - 초급편 [R] 연산자(Operator) 종류 및 사용법 - 중급편 [R] 연산자(Operator) 종류 및 사용법 - 고급편 INTRO R을 사용하면서 프로그래밍 스킬도 중요하지만 함수 및 연산자에 대한 이해만 가지더라도 효율적인 R활용이 가능합니다. 이번 포스트에서는 R에서 기본적으로 제공하는 연산자들을 소개하고 예시와 함께 사용법을 설명합니다. 1. 벡터 포함 여부 : %in% R에서 벡터 간의 포함 여부를 파악하기 ..
해당 포스트는 R 연산자 종류 및 사용법 - 기초편을 소개합니다. 출처 : 슬기로운통계생활 Youtube - R 연산자 (operator) 어디까지 알고있니? 기초편 INTRO R을 사용하면서 프로그래밍 스킬도 중요하지만 함수 및 연산자에 대한 이해만 가지더라도 효율적인 R활용이 가능합니다. 이번 포스트에서는 R에서 기본적으로 제공하는 연산자들을 소개하고 예시와 함께 사용법을 설명합니다. Lists [R] 연산자(Operator) 종류 및 사용법 - 기초편 [R] 연산자(Operator) 종류 및 사용법 - 초급편 [R] 연산자(Operator) 종류 및 사용법 - 중급편 [R] 연산자(Operator) 종류 및 사용법 - 고급편 1. 벡터 생성 : : R에서 콜론은 벡터를 생성하는데 사용되며, 아래 예..
해당 포스트는 데이터 분석의 필수 과정인 데이터 전처리(Data Precessing)에 대해 설명합니다. 데이터 전처리? 데이터 전처리(Data Preprocessing)는 데이터를 실제 업무에 활용하기에 앞서 정제하는 행위를 의미하며, 데이터 전처리와 비슷하게 사용되는 용어로는 데이터 가공(Data Manipulation), 데이터 핸들링(Data Handling), 데이터 랭글링(Data Wrangling), 데이터 먼징(Data Munging) 등이 있습니다. Forbes 설문에 따르면 데이터 분석가는 업무 시간 중 약 80%를 데이터 수집 및 전처리 과정에 사용한다고 합니다. 데이터 전처리 유형 데이터 전처리는 데이터 품질 향상, 데이터 통일, 개인정보 보호 등을 목적으로 사용되며 각 목적에서 수..