CentOS 에서 CPU 코어별 사용량을 확인하는 방법에 대한 포스트 입니다. 회사에서 사용하는 분석 서버는 다수의 사용자가 작업을 수행하고 있습니다. 사용을 유연하게 하고자 계정별 물리적인 제한을 두지 않고 파이썬 스크립트 내에서 scikit-learn의 n_jobs 파라미터를 조절해 가며 사용하고 있습니다. ex1) 전체 코어 수 = 72개 → 8명 사용 : n_jobs = 9 설정 ex2) 전체 코어 수 = 72개 → 3명 사용 : n_jobs = 24 설정 동시 접속자 수가 많지 않거나 특정 이슈로 빠른 처리가 필요한 경우 리소스 몰아주기를 하는데, 가끔 확인되지 않은 작업이 있을 수 있기에 반드시 사전 확인을 해야 합니다. ex) 대용량 학습, 배치 작업 등 리눅스에서 기본적으로 제공하는 top..
이 포스트는 한빛미디어에서 출간한 '이것이 데이터 분석이다 with 파이썬'을 읽고 작성한 서평입니다. 책에서는 본 도서를 이론보다 '흐름'으로 제대로 배우는 데이터 분석 입무+실무 활용서라고 소개하고 있습니다. 입문자에게 중요한 것은 이론이나 스킬이 아닌, 문제에 올바르게 접근하는 '사고의 과정'이며, 그것을 위해 실생활과 밀접한 데이터를 [탐색] → [시각화] → [분석] 등의 단계별 흐름으로 설명합니다. 이 책에서 다루는 실행활 예제 우리나라는 술을 얼마나 독하게 마실까? - 국가별 음주 데이터 분석 그 선수의 내년 연봉은 얼마쯤 될까? - 프로야구 선수의 다음 해 연봉 예측 향후 5일 비트코인 시세 오를까, 떨어질까? - 비트코인 시세 예측 내가 볼 영화..
제이펍 서평 이벤트에 당첨되어 '파이썬으로 배우는 자연어 처리 인 액션' 책을 신청하였고 신청한지 4일만에 배송되어 받았습니다. 업무에 연관된 책이어서 출간 소식을 듣고 기다리고 있었는데 타이밍이 맞아 무료로 좋은 책을 볼 수 있게 되었습니다. ^^ 책에 대한 자세한 내용은 1독 후 작성할 예정이지만, 간단한 소개와 제가 개인적으로 기대를 했던 이유를 아래 적어보았습니다. 도서 소개 참고 : 제이펍 소개 자료 도서명 : 파이썬으로 배우는 자연어 처리 인 액션 원서명 : Natural Language Processing in Action 저자 : 홉스 레인, 하네스 막스 하프케, 콜 하워드 역자 : 류광 출판사 : 제이펍 예제 코드(GitHub) : https://github.com/tota..
이 포스팅은 if (kakao) dev 2019 의 발표 내용을 요약 정리한 글입니다. 출처 : if (kakao) dev 2019 : Korean의 Korean 체험기 요약 정보 컨퍼런스명 : if(kakao) dev 2019 발표자 : 카카오페이 박용규(keith.gotkeys) 발표 내용 : 한국어 분석의 어려움을 이해하고 해결을 위해 시도한 내용 공유 요약 : 오타, 신조어 처리 에는 WPE보다 JPE가 좀 더 효과가 있다 (JPE 적용 전, tokenizer 적용시 효과 상승) 기존 모델들(CNN, RNN 등)의 한계는 Pre-trained BERT로 해결 가능하다 (ETRIBert > JamoBert+tknzr > GoogleBert) 한국어 분석의 어려움 - 구조적 문제 1. 첫번째 접근 :..
올해부터는 '책을 읽고 내 생각을 기록하자'라는 다짐을 했고 그 첫번째 시도로 '제이펍'의 '개발자도 궁금한 IT 인프라'라는 책을 리뷰했습니다. 팀내에서 얕은 지식과 경험으로 IT인프라 업무를 조금씩 하다가 올해부터 공식적으로 담당하게 되어 업무 이해도를 높이고자 읽게된 책이었는데 이렇게 이벤트 당첨될 줄은 몰랐네요. ^^; 새해 목표에 대한 첫 실행이 보상으로 이어지게 되어 동기부여가 제대로 된 것 같습니다! 제이펍 서평 이벤트는 제이펍에서 발간한 책을 읽고 블로그나 인터넷 서점에 서평을 등록하여 신청할 수 있고, 당첨이 되면 제이펍사의 도서 1부를 선물로 받을 수 있습니다. (저는 이벤트 보상으로 '파이썬으로 배우는 자연어 처리 인 액션'이라..
하단 내용은 Python에서 Django 세팅을 하면서 발생한 에러 조치에 관한 글 입니다. 1. 문제 상황 Python 에서 django 설치 후 manage.py를 이용하여 runserver 실행시 에러 발생 [1] Windows 10 에서 실행 명령어 : python manage.py runserver Error Message : UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbf in position 0: invlid start byte 2. 원인 파악 컴퓨터 이름이 한글('우리집컴퓨터')로 작성되어 있었고 이를 내부에서 변환하는 과정으로 오류 발생 3. 조치 내용 온라인 검색 결과, HostName 이 한글이면..
이 포스트는 제이펍에서 출간한 '개발자도 궁금한 IT 인프라'를 읽고 작성한 서평입니다. 최근 서버 관리 업무가 늘어나면서 인프라에 대한 이해를 높일 필요성을 느꼈고, 사내 교육 프로그램(북러닝)에 해당 책이 있는 것을 알게 되었습니다. 어떤 내용의 책인지 궁금하여 알아보던 중 출판사 페이지에서 샘플 도서를 확인하였고 일반 책들과는 다르게 대화체로 진행하는 전개가 흥미롭고 읽기 편할 것 같아 선택하였습니다. 책에서는 대상 독자를 아래와 같이 소개합니다. IT 인프라 분야로 취업을 꿈꾸는 학생 인프라 담당자와 원활하게 소통하고자 하는 개발자 인프라 담당자와 이야기할 때 무슨 말인지 이해가 안 가는 IT 영업자 IT 인프라 업무를 처음 시작하는 신입사원 IT 기술에 관심 많은 일반인 저는 인프..
이 포스팅은 Kaggle의 California Housing Prices 문제 풀이를 따라 연습한 글입니다. 출처 : Kaggle - California Housing Prices INTRO 해당 Competition은 1990년 캘리포니아 인구조사 데이터인 캘리포니아 주택 가격(California Housing Prices) 데이터셋을 사용하며, 학습을 통해 주택 가격(median)을 예측하는 문제입니다. Step 1. Load in the data 1.1 패키지 및 데이터 불러오기 변수 설명 longitude : 경도 latitude : 위도 housing_median_age : 주택 나이 (중앙값) total_rooms : 전체 방 수 total_bedrooms : 전체 침실 수 population..
이 글은 Kaggle에서 좋은 평가를 받은 kernel을 따라하며 학습한 내용입니다. Kaggle Linear Regression : Randomly created dataset for linear regression R notebook using data from Linear Regression by zohan 선형 회귀 분석은 한 개 이상의 입력 변수(X)들을 기반으로 하나의 반응 변수(Y)를 예측하는데 활용됩니다. 입력 변수와 반응 변수의 선형 관계(수학적 공식) 수립의 목적은 입력 변수(X)들을 알고 있을 때, 공식을 이용하여 반응 변수(Y)를 추정하는데 있습니다. 1. 패키지 및 데이터 불러오기 분석을 시작하기 앞서, 데이터를 불러오고 분석에 필요한 패키지를 로드하는 단계입니다. 데이터는 아래 ..
MariaDB 테이블 정보 추출 요청을 받아 처리하던 중 유용한 쿼리 발견 출처 : mysql 테이블 정의서 만들기 1. Database 내 1개 테이블 아래 변수를 수정하여 사용하시면 됩니다. DB_NAME : 데이터베이스 이름 TABLE_NAME : 테이블 이름 SELECT ORDINAL_POSITION '순번', COLUMN_NAME '필드명', DATA_TYPE 'DATA TYPE', COLUMN_TYPE '데이터 길이', COLUMN_KEY 'KEY', IS_NULLABLE 'NULL값여부', EXTRA '자동여부', COLUMN_DEFAULT '디폴트값', COLUMN_COMMEN..