해당 포스트는 R을 사용하면서 발생할 수 있는 기호(symbol) 사용 관련 에러에 대해 소개합니다. 에러pie(c(10, 20, 30, 40)), labels = c("a", "b", "c', "d"))Error: unexpected symbol in "pie(c(10, 20, 30, 40), labels = c("a", "b", "c', "d"한글인 경우 아래와 같이 에러 메세지가 출력됩니다.에러: 예상하지 못한 기호(symbol)입니다. in "pie(c(10,20,30,40), labels = c("a", "b", "c', "d" ~ 원인R을 사용하다보면 다양한 에러를 보게 됩니다. 위에서 발생한 에러는 문법 사용에 오류로 발생한 에러로 특수 기호(symbol)인 따옴표와 쌍따옴표를 혼용하여 발생..
해당 포스트는 RStudio에서 제공하는 코드 진단 기능(Code Diagnostics) 사용법 및 자주 하는 실수들을 소개합니다.1. INTRORStudio에서는 사용자의 개발 효율성을 위해 R문법에 대한 코드 진단 기능을 제공합니다. 본문에서는 해당 기능을 사용하기 위한 옵션 설정 방법과 자주하는 실수에 대해 설명합니다.2. 코드 진단 (Code Diagnostics)먼저 RStudio의 코드 진단 기능을 사용하기 위해서는 아래 메뉴로 접속해야 합니다.메뉴 위치 : [Tools] - [Global Options] - [Code] - [Diagnostics]위 메뉴로 접속하면 아래와 같은 화면을 볼 수 있습니다. 해당 화면에서 'Show diagnostic for R' 체크박스를 선택하면 옵션 메뉴들이..
해당 포스트는 R에서 나일강(Nile) 데이터를 이용한 히스토그램 출력 방법을 소개합니다.1. IntroR 내장 데이터인 Nile은 아스완(Aswan) 지역에서 측정한 나일강의 연간 유량 데이터입니다.해당 데이터를 이용하여 R에서 히스토그램을 출력해보고, 여러 옵션을 설정해가며 hist()함수의 사용법을 설명합니다. 2. 데이터 불러오기R에서는 data() 함수로 내장 데이터셋을 불러올 수 있습니다. 데이터셋의 이름을 알고 있는 경우, data(데이터명)과 같이 사용하면 됩니다.data(Nile)NileTime Series:Start = 1871 End = 1970 Frequency = 1 [1] 1120 1160 963 1210 1160 1160 813 1230 1370 1140 995 93..
해당 포스트에서는 R에서 벡터(vecotr) 연산을 통해 문제와 정답이 있을 때 점수를 계산하는 방법을 설명합니다. 1. INTRO 네이버 지식iN에서 지식을 공유하고 있습니다. 간단한 질문들은 해당 질문에 바로 답변을 드리지만 질문의 내용이 유익하거나 추가 설명이 필요한 경우에는 포스팅을 작성하여 공유드리고 있습니다. 2. 질문 3. 풀이 이번 문제에서는 R에서 벡터 연산 방법에 대해 다룹니다. 문제에서는 3개의 벡터(point,answer,mark)가 주어지며, 내가 작성한 답(mark)과 정답(answer)을 비교하여 배점(point)을 기준으로 점수를 계산합니다. 결과를 도출해야 하는 문제는 총 3문제이며, 해당 풀이에서는 벡터 비교를 통해 참값(TRUE)에 해당하는 값들을 추출하고 합(sum)을..
해당 포스트에서는 R에서 ggplot2 막대그래프를 출력한 후 텍스트(text labels)를 추가하는 방법에 대해 설명합니다.1. INTROR에서 가장 많이 사용하는 시각화 패키지는 ggplot2로 tidyverse 생태계에 포함되어 있으면서 타 패키지들(dplyr, tidyr 등)과의 연동성 및 시각화 종류, 품질 등에 장점을 가집니다. 해당 포스트에서는 ggplot2 패키지를 이용하여 출력된 막대그래프에 텍스트 정보(빈도수)를 추가하는 방법에 대해 설명합니다. 2. 데이터 생성이번 설명에서 사용할 샘플 데이터를 생성합니다. 아래 코드는 알파벳 A부터 F까지의 총 6개 문자를 랜덤하게 300번 복원 추출하여 data에 저장합니다.LETTERS : 알파벳 A부터 Z까지의 문자가 들어있는 시스템 변수로..
해당 포스트에서는 R에서 성별로 키에 대한 평균, 분산, 표준편차 계산 방법을 설명합니다. 1. INTRO R에서는 데이터의 그룹 계산을 위해 aggregate() 내장 함수를 제공하고 있습니다. 이번 포스트에서는 성별(남/여), 키(cm) 정보가 들어있는 데이터에서 성별 그룹 계산 방법을 설명합니다. 2. 데이터셋 생성 이번 설명에서 사용할 데이터셋은 아래와 같습니다. x
이 포스트는 한빛미디어에서 출간한 '파이썬 라이브러리를 활용한 머신러닝(번역개정2판)' 을 읽고 작성한 서평입니다. INTRO 파이썬(Pytnon)에 딥러닝(Deep Learning)을 위한 Tensorflow, Pytorch, Keras 라이브러리가 있다면 머신러닝(Machine Learning)에는 사이킷런(skikit-learn)) 라이브러리가 있습니다. 머신러닝에 필요한 복잡한 작업들을 간단한 코드로 수행할 수 있도록 인터페이스를 제공해주기에 초보자분들도 미적분, 선형대수, 확률 이론을 모른채 코드 사용법을 익히면 머신러닝을 수행하실 수 있습니다. 머신러닝/딥러닝 관련 다수의 번역 경험을 가진 박해선 님의 도서 중 하나로 이번에 나온 번역개정 2판은 최근 업데이트된 skikit-le..
해당 포스트는 R에서 행렬(matrix)을 생성할 때 사용되는 byrow 옵션에 대해 설명 합니다. 1. INTRO R에서 2차원 형태의 데이터를 생성할 때에는 주로 행렬(Matrix)이나 데이터 프레임(Data Frame)을 사용하게 됩니다. 그 중에서도 숫자로만 이루어진 경우, 행렬(Matrix)을 주로 사용하게 되는데 이 때 자주 사용하는 byrow 옵션에 대해 설명합니다. 2. R에서 행렬(matrix) 생성 일반적으로 R에서 행렬(Matrix)을 생성하려 할 때에는 시퀀스 숫자를 바로 사용하거나 임의의 벡터를 생성 후 사용합니다. 아래는 동일한 행렬을 생성하는 다른 방식의 예시입니다. 1) 연속된 숫자로 행렬 생성 matrix(1:9, nrow = 3) [,1] [,2] [,3] [1,] 1 4..
해당 포스트에서는 파이썬(Python)을 이용하여 HTML 태그(tag) 정보들을 추출하는 방법에 대해 설명합니다. 1. INTRO 웹 크롤링(Web Crawling)을 통해 수집한 HTML 파일에서 태그(tag)들을 추출하는 방법에 대해 설명합니다. 파이썬(Python)이 오픈 소스 언어이다 보니 다른 분들이 만들어 놓은 tag 추출 라이브러리들이 있을 수 있으나, 이번 포스트에서는 일반적으로 많이 사용하는 정규표현식을 이용하는 방법에 대해 설명합니다. 2. 샘플 데이터 생성 이번 설명에서 사용할 HTML 형식을 갖춘 텍스트 데이터를 생성합니다. testtext1 = """ My favorite website in the world is probably Udacity. If you want that l..
해당 포스트에서는 R에서 랜덤 데이터 샘플링(추출)방법에 대해 설명합니다. 1. INTRO R에서 랜덤 데이터 추출이 필요한 경우, 내장 함수인 sample()과 dplyr 패키지의 sample_n(), sample_frac() 함수를 사용할 수 있습니다. 아래에서 각 함수의 설명과 사용법을 설명하니 상황에 따라 필요한 함수를 사용하시면 됩니다. 참고 아래 예시에서 설명하는 함수들은 무작위 추출되기에 출력 결과가 다를 수 있는 점 참고 부탁드립니다. 2. sample() sample()은 R에서 제공되는 내장 함수로 별도의 설치가 필요하지 않습니다. sample() 함수는 난수를 추출해주는 함수로 입력 인자값 차이에 따라 각각 다른 결과값을 리턴합니다. 아래 3가지 예시를 준비하였으니 보시고 사용법을 참..