UCK-GPT2 모델을 활용한 대학 커뮤니티 게시글 생성

gpt2-kogpt2-uckgpt2-case-study

해당 포스트는 대학 커뮤니티 게시글을 생성하는 AI 모델 UCK-GPT2를 소개합니다.

INTRO

최근 AI기술은 실생활 다양한 곳에 적용되어 자연스럽게 활용되고 있습니다. 특히, 언어 관련 기술들은 가까이는 핸드폰의 시리, 빅스비에 적용되어 있고, 스마트 스피커에는 기가지니, 알렉사, 클로바, 카카오 등에 적용되어 사용되고 있습니다.

이러한 챗봇, AI 상담사 등의 서비스들은 기본적으로 고객의 질문을 이해하고, 준비된 답변 중 선택하여 출력하는 방식으로 처리가 되는데, 최근에는 준비된 답변이 아닌 질문에 맞게 언어를 생성하여 답변할 수 있는 기술이 공개 및 활용되고 있습니다.

아래 소개하는 UCK-GPT2는 언어 생성 모델 중 하나로, 대학 커뮤니티 글을 학습하여 언어를 생성이 가능한 한국어 언어 모델입니다. GPT-2의 사례 중 하나로 기억하기위해 정리한 글을 공유합니다.

출처 : [AI 모델 탐험기] 대학 커뮤니티 게시글 생성기

GPT-2

  • GPT-2(Generative Pre-trained Transformer 2)는 일론 머스크가 창업한 OpenAI에서 만든 인공지능 언어 모델
  • 비지도 학습(Unsupervised Learning), 생성적 사전학습(generative pre-training) 기법, 트랜스포머(transformer)를 적용
  • 번역, 대화, 작문 등을 할 수 있으며, 단문의 경우 인간이 작성할 글과 부분이 어려운 수준

최근 GPT-3도 개발되었으나 공개되지 않음 (Microsoft에서 독점 라이센스 취득)

KoGPT2

  • KoGPT2는 이름에서 볼 수 있는 거처럼 GPT-2 모델을 파인튜닝한 한국어 언어모델이며 SKT-AI에서 한국어성능 한계 개선을 위해 개발
  • 학습에 사용된 데이터로는 위키 문장 500만개, 뉴스 문장 1억2000만개, 기타 자료 문장 940만개로 총 20GB의 데이터를 학습에 사용
  • KoGPT2에서 사용된 토크나이저는 SPM
    • 한글은 어미, 접사 등이 붙는 교착어의 형태이고, 단어들이 독립적인 단어로만 구성되어 있지 않기 때문에 한글 토큰화가 쉽지 않음
    • SPM은 충분히 효율적이므로 사전토큰화를 수행할 필요가 없음

UCK-GPT2

  • UCK-GPT2는 University Community KoGPT2의 줄임말로 대학 커뮤니티 게시글을 생성하는 모델
    • KoGPT2 모델을 파인튜닝한 모델
  • 대학교 커뮤니티인 에브리타임, 캠퍼스픽 대나무숲 게시판, 캠퍼스픽 모두를 위한 연애 게시판 데이터 22만개를 이용하여 학습
  • 커뮤니티 데이터의 특성을 고려하여 URL, LINK, 개행 문자를 무시하기 보단 문장의 어느 위치에 들어갈 것인가를 학습

Demo 사이트
https://master-gpt2-everytime-fpem123.endpoint.ainize.ai/?utm_medium=social&utm_source=endpoint&utm_campaign=medium%20kr&utm_content=everytime

관련 링크

[1] [AI 모델 탐험기] #4 대학 커뮤니티 게시글 생성기
[2] https://github.com/SKT-AI/KoGPT2