해당 포스트에서는 R에서 인공신경망(nnet)을 이용해 스팸 필터링 문제를 풀이하는 방법에 대해 설명합니다. INTRO 스팸 필터링(Spam Filtering) 문제는 기본적으로 자연어 처리(NLP, Natural Language Processing)를 기반으로 하며, 텍스트 데이터가 숫자(임베딩)로 변환된 후에는 다양한 알고리즘 적용이 가능합니다. 아래에서는 인공신경망(ANN)을 사용하여 스팸을 예측하는 분류 문제를 소개합니다. 풀이 절차는 nnet 패키지를 사용하여 모델을 구축하고, 내장된 스팸 데이터셋을 불러와 전처리 한 뒤, 적절한 노드 수를 찾아 모델을 적합시키고 결과를 분석합니다. [참고] 스팸 필터링(Spam Filtering)에 대한 이론적 이해가 필요하신 분은 아래 링크를 참고해 주세요...
해당 포스트는 R을 활용해 특정 기업의 월별 매출액을 분석하는 방법을 소개합니다. INTRO 매출액 분석은 경제, 경영, 통계 등 다양한 학문에서 필요한 기술입니다. 기본적으로 많은 분들이 엑셀(excel)을 이용하여 분석을 수행하고 있지만,프로그래밍을 배우시는 분들을 위해 R을 이용해 월별 매출액을 입력하고 분석하는 방법에 대해 설명합니다. 문제 풀이 1. 매출액 분석을 위해 자료를 sales에 저장합니다. R에서 매출액을 sales 변수에 저장하기 위해서는 c() 함수를 이용하면 됩니다. c() : 괄호 안에 값들을 묶어 벡터를 생성합니다. names() : sales 변수의 각 값에 이름을 부여해 줍니다. sales
이 포스팅은 Kaggle의 California Housing Prices 문제 풀이를 따라 연습한 글입니다. 출처 : Kaggle - California Housing Prices INTRO 해당 Competition은 1990년 캘리포니아 인구조사 데이터인 캘리포니아 주택 가격(California Housing Prices) 데이터셋을 사용하며, 학습을 통해 주택 가격(median)을 예측하는 문제입니다. Step 1. Load in the data 1.1 패키지 및 데이터 불러오기 변수 설명 longitude : 경도 latitude : 위도 housing_median_age : 주택 나이 (중앙값) total_rooms : 전체 방 수 total_bedrooms : 전체 침실 수 population..
이 글은 Kaggle에서 좋은 평가를 받은 kernel을 따라하며 학습한 내용입니다. Kaggle Linear Regression : Randomly created dataset for linear regression R notebook using data from Linear Regression by zohan 선형 회귀 분석은 한 개 이상의 입력 변수(X)들을 기반으로 하나의 반응 변수(Y)를 예측하는데 활용됩니다. 입력 변수와 반응 변수의 선형 관계(수학적 공식) 수립의 목적은 입력 변수(X)들을 알고 있을 때, 공식을 이용하여 반응 변수(Y)를 추정하는데 있습니다. 1. 패키지 및 데이터 불러오기 분석을 시작하기 앞서, 데이터를 불러오고 분석에 필요한 패키지를 로드하는 단계입니다. 데이터는 아래 ..