해당 포스트에서는 2023년을 마무리하며 한 해 인기있었던 최고의 오픈소스 소프트웨어 25선을 소개하는 글을 읽고 정리한 글입니다.
INTRO
연말이 다가오니 한 해를 돌아보는 컨텐츠들이 나타나기 시작합니다. 뉴스를 보던 중, 2023년 최고의 오픈소스 소프트웨어 25선을 소개하는 글을 보고, 개인적으로 관심이 가는 몇몇 소프트웨어를 추려 정리해 보았습니다.
제가 사용하고 있거나 추가정보를 알고 있는 경우에는 추가 메모해 두었으니 보시는 분들에게 도움이 되었으면 좋겠습니다.
소개
BOSSIE 2023 | 올해 최고의 오픈소스 소프트웨어 25선
위 자료는 올해 오픈소스 소프트웨어 25선을 소개하는 내용으로, 제가 평소 접하고 있는 Datalake, DB, Python부터 검토하고 있는 MLOps 관련 정보들이 있습니다.
제 경우에는 아래 내용이 흥미로웠습니다.
아파치 아이스버그 (Apache Iceberg)
- HDFS 데이터에 대용량 query 질의를 하기위해 사용되는 Hive는 처리 속도가 느리다는 단점
- 그것을 보완하기 위해 등장한 것이 아파치 아이스버그이고, 속도/호환성 측면에 강점
C파이썬 (Cpython)
- 모든 면에서 강한 파이썬이지만, 런타임 성능은 서비스 활용 측면에서 부족함
- 이를 보완하고자, 코어 파이썬 개발팀에서 Cpython을 참조 구현하여 오픈하였고 조만간 공식화 될 것으로 예상됨
- 참고로 NLP 분야에서는 inference를 Cpython을 활용해 재구현하는 경우가 있습니다.
랭체인 (LangChain)
- LLM 서비스 개발을 돕는 프레임워크로, 필요한 작업을 연결(chain)을 통해 효율적으로 작업할 수 있게 지원
라마2 (llama2)
- 라마(llama)는 메타AI에서 공개한 transformer 기반 대규모 AI언어 모델로, 학술 목적으로 공개하면서 알파카(Alpaca), 비큐나(Vicuna) 등 파생 모델들이 개발될 수 있었음 (KoAlpca, KoVicuna 등 한국에서도 활발하게 연구됨)
- 23년 7월 공개된 라마2(llama2)는 상업적 사용이 가능한 라이선스로 공개되면서, 더욱 많은 지지를 받고 있음 (다양한 기업에서 해당 모델로 서비스를 개발/연구 중임)
- Open LLM Leaderboard (https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
폴라스 (Polars)
- 파이썬의 판다스(Pandas)와 유사한 역할을 하는 라이브러리로, 판다스를 100% 호환하는 것은 아니지만 일부에 한해 최대 10배 속도 개선이 가능함 (메모리 사용도 절약 가능)
포스트그레SQL (PostgreSQL)
- 관계형 데이터베이스 중 하나로, 최근 가장 인기를 얻고 있음
- stackoverflow 에서 진행한 개발자 대상 survey 결과 : https://survey.stackoverflow.co/2023/
- 참고 : 프로그래밍 언어 Top 5 (1위 javaScript, 2위 HTML/CSS, 3위 Ptyhon, 4위 SQL, 5위 TypeScript)
Q로라 (QLoRA)
- 로라(LoRA)는 초대형 언어모델을 저사양 컴퓨터에서도 fine-tune을 통해 활용할 수 있게 도와주는 기술
- 이번 공개된 Q로라(QLoRA)는 보다 큰 모델을 다룰 수 있도록 도움
관련 링크
[1] BOSSIE 2023 | 올해 최고의 오픈소스 소프트웨어 25선