이 포스팅은 if (kakao) dev 2019 의 발표 내용을 요약 정리한 글입니다. 출처 : if (kakao) dev 2019 : Korean의 Korean 체험기 요약 정보 컨퍼런스명 : if(kakao) dev 2019 발표자 : 카카오페이 박용규(keith.gotkeys) 발표 내용 : 한국어 분석의 어려움을 이해하고 해결을 위해 시도한 내용 공유 요약 : 오타, 신조어 처리 에는 WPE보다 JPE가 좀 더 효과가 있다 (JPE 적용 전, tokenizer 적용시 효과 상승) 기존 모델들(CNN, RNN 등)의 한계는 Pre-trained BERT로 해결 가능하다 (ETRIBert > JamoBert+tknzr > GoogleBert) 한국어 분석의 어려움 - 구조적 문제 1. 첫번째 접근 :..
올해부터는 '책을 읽고 내 생각을 기록하자'라는 다짐을 했고 그 첫번째 시도로 '제이펍'의 '개발자도 궁금한 IT 인프라'라는 책을 리뷰했습니다. 팀내에서 얕은 지식과 경험으로 IT인프라 업무를 조금씩 하다가 올해부터 공식적으로 담당하게 되어 업무 이해도를 높이고자 읽게된 책이었는데 이렇게 이벤트 당첨될 줄은 몰랐네요. ^^; 새해 목표에 대한 첫 실행이 보상으로 이어지게 되어 동기부여가 제대로 된 것 같습니다! 제이펍 서평 이벤트는 제이펍에서 발간한 책을 읽고 블로그나 인터넷 서점에 서평을 등록하여 신청할 수 있고, 당첨이 되면 제이펍사의 도서 1부를 선물로 받을 수 있습니다. (저는 이벤트 보상으로 '파이썬으로 배우는 자연어 처리 인 액션'이라..
하단 내용은 Python에서 Django 세팅을 하면서 발생한 에러 조치에 관한 글 입니다. 1. 문제 상황 Python 에서 django 설치 후 manage.py를 이용하여 runserver 실행시 에러 발생 [1] Windows 10 에서 실행 명령어 : python manage.py runserver Error Message : UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbf in position 0: invlid start byte 2. 원인 파악 컴퓨터 이름이 한글('우리집컴퓨터')로 작성되어 있었고 이를 내부에서 변환하는 과정으로 오류 발생 3. 조치 내용 온라인 검색 결과, HostName 이 한글이면..
이 포스트는 제이펍에서 출간한 '개발자도 궁금한 IT 인프라'를 읽고 작성한 서평입니다. 최근 서버 관리 업무가 늘어나면서 인프라에 대한 이해를 높일 필요성을 느꼈고, 사내 교육 프로그램(북러닝)에 해당 책이 있는 것을 알게 되었습니다. 어떤 내용의 책인지 궁금하여 알아보던 중 출판사 페이지에서 샘플 도서를 확인하였고 일반 책들과는 다르게 대화체로 진행하는 전개가 흥미롭고 읽기 편할 것 같아 선택하였습니다. 책에서는 대상 독자를 아래와 같이 소개합니다. IT 인프라 분야로 취업을 꿈꾸는 학생 인프라 담당자와 원활하게 소통하고자 하는 개발자 인프라 담당자와 이야기할 때 무슨 말인지 이해가 안 가는 IT 영업자 IT 인프라 업무를 처음 시작하는 신입사원 IT 기술에 관심 많은 일반인 저는 인프..
이 포스팅은 Kaggle의 California Housing Prices 문제 풀이를 따라 연습한 글입니다.출처 : Kaggle - California Housing PricesINTRO해당 Competition은 1990년 캘리포니아 인구조사 데이터인캘리포니아 주택 가격(California Housing Prices)데이터셋을 사용하며, 학습을 통해 주택 가격(median)을 예측하는 문제입니다.Step 1. Load in the data1.1 패키지 및 데이터 불러오기변수 설명longitude : 경도latitude : 위도housing_median_age : 주택 나이 (중앙값)total_rooms : 전체 방 수total_bedrooms : 전체 침실 수population : 인구household..
이 글은 Kaggle에서 좋은 평가를 받은 kernel을 따라하며 학습한 내용입니다.Kaggle Linear Regression : Randomly created dataset for linear regressionR notebook using data from Linear Regression by zohan선형 회귀 분석은 한 개 이상의 입력 변수(X)들을 기반으로 하나의 반응 변수(Y)를 예측하는데 활용됩니다.입력 변수와 반응 변수의 선형 관계(수학적 공식) 수립의 목적은 입력 변수(X)들을 알고 있을 때, 공식을 이용하여 반응 변수(Y)를 추정하는데 있습니다.1. 패키지 및 데이터 불러오기분석을 시작하기 앞서, 데이터를 불러오고 분석에 필요한 패키지를 로드하는 단계입니다.데이터는 아래 첨부된 링크에..
MariaDB 테이블 정보 추출 요청을 받아 처리하던 중 유용한 쿼리 발견출처 : mysql 테이블 정의서 만들기1. Database 내 1개 테이블아래 변수를 수정하여 사용하시면 됩니다.DB_NAME : 데이터베이스 이름TABLE_NAME : 테이블 이름SELECT ORDINAL_POSITION '순번', COLUMN_NAME '필드명', DATA_TYPE 'DATA TYPE', COLUMN_TYPE '데이터 길이', COLUMN_KEY 'KEY', IS_NULLABLE 'NULL값여부', EXTRA '자동여부', COLUMN_DEFAULT '디폴트값', COLUMN_COMMENT '필드설명'FROM `information_schema`.COLUMNSWH..
프로그래밍 공부를 위해 Projetct Euler의 문제 풀이를 연습하는 내용입니다.문제(problem), 제 답변(answer), 추천하는 타인 답변(solution)으로 구성되어 있습니다.기본적으로 풀이는 R을 사용하였지만, 일부 연습을 위해 Python으로도 구현해 보았습니다.Problem번호 : 4제목 :세자리 수를 곱해 만들 수 있는 가장 큰 대칭수설명 :앞에서부터 읽을 때나 뒤에서부터 읽을 때나 모양이 같은 수를 대칭수(palindrome)라고 부릅니다.두 자리 수를 곱해 만들 수 있는 대칭수 중 가장 큰 수는 9009 (= 91 × 99) 입니다.세 자리 수를 곱해 만들 수 있는 가장 큰 대칭수는 얼마입니까?Answer & Solution - R어떤 수(n)에 대하여 대칭수인지 판단하는 함수..
프로그래밍 공부를 위해 Projetct Euler의 문제 풀이를 연습하는 내용입니다.문제(problem), 제 답변(answer), 추천하는 타인 답변(solution)으로 구성되어 있습니다.기본적으로 풀이는 R을 사용하였지만, 일부 연습을 위해 Python으로도 구현해 보았습니다.Problem번호 : 3제목 :가장 큰 소인수 구하기설명 :어떤 수를 소수의 곱으로만 나타내는 것을 소인수분해라 하고, 이 소수들을 그 수의 소인수라고 합니다.예를 들면 13195의 소인수는 5, 7, 13, 29 입니다.600851475143의 소인수 중에서 가장 큰 수를 구하세요.Answer & Solution - R어떤 수(num)를 인자로 받아 소인수 집합(num_list)을 구하는 함수 작성2부터 어떤 수(num)까지..
이번 포스트는 데이터 분석 전문가(ADP) 14회 실기 시험의 응시 후기 입니다. 추가 궁금하신 사항은 질문주시면 답변 드리겠습니다. 1. 시험장 환경 시험 장소는 선릉이었는데 생각보다 환경이 좋았습니다. 개인 자료는 제한 없이 가지고 들어갈 수 있으며 나올 때 가지고 나올 수 있었습니다. 2. 분석 환경 가상 환경(vmware)에서 서버 버전을 구동하고 웹(chrome)으로 접근하여 분석 수행하였습니다. R: R Studio Server Python : Jupyter notebook 3. 보고서 제출 보고서는 PDF 형태로 제출해야 하며, 소스코드도 PDF내에 포함되어야 함 word, powerpoint, excel 활용 가능 저는 powerpoint를 사용했었는데.. 프레임, 배치 등 의미없는 곳에 ..