해당 포스트에서는 R에서 데이터 정렬 방법(order(), arrange())에 대해 설명합니다. 1. INTRO R에서 데이터 정렬이 필요한 경우, 내장 함수인 order()와 dplyr 패키지의 arrange() 함수를 많이 사용합니다. 아래에서는 두 함수의 사용 방법을 설명하니 상황에 따라 필요한 함수를 골라 사용하시면 됩니다. 2. order() order()은 R에서 제공되는 내장 함수로 별도의 설치가 필요하지 않습니다. order() 함수만 단독으로 쓰는 경우, 각 값의 순위(rank)가 리턴되기에 일반적으로는 아래와 같이 변수 내 인덱싱에 적용하여 정렬하는데 사용됩니다. mylist 생성 mylist % arrange(mpg) mpg cyl disp hp drat wt qsec vs am g..
해당 포스트는 영진닷컴애서 출간 예정인 '코딩은 처음이라 with 딥러닝' 베타 버전을 읽고 작성한 후기입니다. 도서 정보 해당 도서는 프로그래밍을 배운적 없는 사람들을 대상으로 딥러닝이 무엇인지 기초부터 설명하는 책입니다. 인공지능이 무엇인지부터 시작하여 딥러닝의 개념, 선형 모델, CNN, RNN 등 초보자들이 궁금해할 내용들을 자세히 설명합니다. 각 챕터의 설명 뒤에는 핵심 내용을 정리한 마무리와 연습문제가 있으며, 모델 설명이 시작하는 챕터부터는 샘플 문제와 풀이 코드가 제공됩니다. 이론을 익히고 실제 코드가 어떤식으로 작성되는지 이해할 수 있는 구조로 잘 짜여져 있습니다. 책을 읽고 나서 1. 연습문제가 어렵다!? 각 챕터의 마지막의 연습문제의 난이도가 생각보다 어렵습니다. ^^;..
해당 포스트에서는 R에서 표본 평균, 중앙값, 표본 분산, 표본 표준편차를 계산하는 방법을 소개합니다.데이터 생성설명에 사용할 데이터를 생성합니다.x [1] 26 29 56 31 52 55 71 31 54 47 40 66 68표본 평균표본 평균은 전체 관측치의 합을 전체 관측치의 갯수로 나누어 준다.mean(x,// trim은 데이터를 크기 순서로 나열한 뒤 값이 작은 쪽과 큰 쪽에서 얼마만큼의 데이터를// 제거한 다음 평균을 계산할지를 (0, 0.5) 사이의 값으로 지정한다. 이렇게 계산한 평균을// 절사평균(Trimmed Mean)이라고 한다.trim=0,na.rm=FALSE, # 평균 계산 전 NA를 제거할지 여부...)mean(x)[1] 48.15385중앙값중앙값은 전체 관측치의 중간값을 산출하여..
이번 포스트에서는 RStudio에서 테마를 변경하는 방법에 대해 설명합니다.INTROR공부를 시작하시는 분들의 대부분은 RStudio를 이용해 코드를 작성하게 됩니다. RStudio를 처음 설치하면 하얀 배경의 테마가 보여질텐데, 유튜브나 블로그에서 관련 정보들을 찾다보면 배경이 검은색에 코드 폰트 및 컬러가 다르게 적용되어 있는 것을 보실 수 있습니다. 개인적으로는 이런 세팅이 사소하지만 작업 능률, 가독성에 영향을 준다고 생각하기에 해당 방법을 공유하고자 합니다.RStudio 테마 변경하기RStudio에서 테마 옵션 변경은 아래 위치에서 가능합니다.메뉴 위치 : [Tools] - [Global Options] - [Appearance]위 메뉴로 접속하면 아래와 같은 화면이 나타날텐데, Editor ..
해당 포스트에서는 Colab에서 matplotlib로 그래프 출력 시 한글이 깨지는 문제에 대한 해결 방법을 설명합니다.1. INTRO개인 분석 환경이 부족한 분들에게는 Google에서 제공하는 Colab이 최고의 대안이 됩니다. 일정 시간이 지나면 세션이 끊긴다는 단점이 있지만, 이 또한 check point를 활용하거나 우회를 통해 무한 활성화시키는 방법 등이 있어 많은 분들이 사용하고 있는 플랫폼입니다.Colab을 사용하면서 생기는 다른 문제로는 한글 처리의 불완전성입니다. 특히 시각화 라이브러리(matplotlib 등)를 사용할 때 자주 발생하는데 이 문제 해결을 위한 공개된 코드가 있어 공유하니 참고하시면 좋을 것 같습니다.출처 : HC.Dle – Colab 한글 폰트 코드 2. 한글 폰트 적용..
이번 포스트는 데이터 분석 전문가(ADP) 실기시험을 준비하는 분들에게 도움이 되고자 확인된 내용을 공유하는 글입니다. 데이터분석전문가(ADP) 14회 실기 후기 데이터분석전문가(ADP) 15회 실기 후기 데이터분석전문가(ADP) 17회 실기 후기 데이터분석전문가(ADP) 19회 실기시험 후기 데이터분석전문가(ADP) 20회 실기시험 후기 데이터분석전문가(ADP) 21회 실기시험 후기 데이터분석전문가(ADP) 실기시험 기출문제 조사 - 1. 통계 분석 데이터분석전문가(ADP) 실기시험 기출문제 조사 - 2. 데이터 마이닝 & 기계 학습 데이터분석전문가(ADP) 실기시험 기출문제 조사 - 3. 텍스트 마이닝 2022년 ADP/ADsP 시험 응시자 유의사항 공지 Kdata 공지 게시판에 '[공지]20..
해당 포스트에서는 R에서 함수(function)를 사용할 때 return() 함수를 사용해야 하는 이유에 대해 설명합니다.1. INTROR에서 사용자 정의 함수(User Defined Function)를 만들 때는 return() 함수가 반드시 필요합니다. return() 함수를 왜 사용해야 하는지, return() 함수 사용 유무에 따라 어떤 차이가 있는지 아래에서 설명하겠습니다.2. return() 함수를 사용한 정상적인 사용자 함수설명을 위해 숫자 2개 곱하기 함수를 만들고 return() 함수 유무에 따른 차이를 비교해 보겠습니다.return() 사용 유무의 차이는 결괏값을 변수에 저장해 보면 알 수 있으며, 아래에서는 단순 출력과 저장 후 출력의 차이를 비교해 설명합니다.함수 생성먼저 비교에 ..
해당 포스트에서는 R에서 문자열(String) 조작을 위한 함수 및 방법을 소개합니다. INTRO R에서 문자열(String) 조작 방법을 예시와 함께 설명합니다. 기본은 영어를 기준으로 소개하며, 일부 한글 적용 가능 함수는 예시와 함께 추가 설명하고 있으니 참고하여 이해하시면 됩니다. 데이터 생성 이번 설명에 사용할 문자열 데이터는 아래 코드로 생성 가능합니다. mytext
해당 포스트에서는 ADP 공식 수험서 데이터 분석 과목에서 소개된 후진 제거법을 통한 변수 선택 및 다중 선형 회귀 분석 방법을 설명합니다.문제다음과 같은 데이터가 있다. Y를 반응 변수로 하고, X1, X2, X3, X4를 설명 변수로 하는 선형회귀모형을 고려하고, 후진 제거법을 이용하여 변수를 선택하시오.1. 데이터 생성x1 # x1 x2 x3 x4 y# 1 7 26 6 60 78.5# 2 1 29 15 52 74.3# 3 11 56 8 20 104.3# 4 11 31 8 47 87.6# 5 7 52 6 33 95.9# 6 11 55 9 22 109.22. 다중 선형 회귀 분석회귀 분석 1차lm_model # Call:# lm(formula = y ~ x1 + x2 +..
이 포스트는 제이펍에서 출간한 '알 스웨이가트의 파이썬 프로젝트' 을 읽고 작성한 서평입니다. INTRO 프로그래밍 언어를 공부하다보면 대부분의 도서들이 이론 학습 후 간단한 예제 실습으로 끝납니다. 책 분량이 한정되어 있다보니 실제 손으로 코딩하는 연습이 충분하지 못하게 되는데, 해당 도서에서는 이런 분들을 위해 간단한 예제부터 직접 코딩해가며 하나씩 결과물을 생성할 수 있도록 도와줍니다. 코드는 256줄 이하, 심플한 코드, 텍스트 기반 아웃풋으로 초보자 분들도 어렵지 않게 따라올 수 있도록 설명하고 있으니 스케쥴을 잡고 81개의 코드를 하나씩 만들어가며 성취감이 있는 코딩 학습을 해보시면 좋을 것 같습니다. 해당 도서의 샘플을 살펴보시고 어렵게 느껴지시는 분은 좀 더 간단한 문제로 구..