해당 포스트는 ChatGPT에 사용된 데이터 저작권 관련 뉴욕타임즈(NYT)와의 법적 논쟁 내용을 보고 개인적은 의견을 담아 정리한 글입니다.
INTRO
AI가 활성화 되면서 학습에 사용한 데이터 관련 저작권 이슈가 끊임없이 발생하고 있습니다. 웹페이지에 공개된 데이터라도 사용 시에는 항상 저작권 및 라이센스를 잘 확인해야 하며, 특히 데이터를 상업적 목적으로 사용하는 경우 법적 책임까지 발생할 수 있습니다.
아래 내용은 최근 AI 분야의 화두인 ChatGPT와 뉴욕타임즈(NYT, New York Times) 간 데이터 저작권 관련 법적 논쟁이 소개된 뉴스를 읽고 개인적인 의견을 담아 정리한 글입니다.
내용 요약
- 원문 기사보기 : AI시대 저작권 결전…챗GPT, '세기의 소송' 줄줄이 직면
- 뉴스 기사와 소설 등 인간이 만든 방대한 저작물을 수집한 생성형 인공지능(AI) ChatGPT가 저작권 침해 줄소송에 직면
- NYT에서는 자신들의 기사가 그대로 제공되고 있다고 주장
- OpenAI측 의견,
1) "챗GPT가 학습 콘텐츠를 암기해 자체 해석을 생성하지 않고 토씨 그대로 되풀이하는 현상은 전산 오류라고 항변. NYT가 그렇게 출력되도록 조작한 것으로 보인다고 주장."
2) "공개적으로 이용할 수 있는 인터넷 자료를 사용해 AI 모델을 학습시키는 것은 오랫동안 널리 쓰인 판례로 뒷받침되는 공정 이용"이라고 주장 - 오픈AI, 작년 AP통신과 뉴스 사용 계약을 맺고 사용료를 지불하고 있으며, 최근에는 미국의 폴리티코와 비즈니스 인사이드, 독일의 빌트 및 디벨트 등의 매체를 보유한 다국적 미디어 그룹 악셀 스프링어와도 저작권 관련 계약 -> NYT와도 저작권 협상을 했으나 NYT는 소송으로 방향을 틀었다.
- AP통신은 "지금까지 법원은 저작권법이 AI 시스템을 어떻게 다룰지 해석함에 있어 대부분 기술 회사의 편을 들었다"
1) "지난해 샌프란시스코 연방판사는 AI 이미지 생성기에 대한 첫 번째 대규모 소송의 많은 부분을 기각했다"
2) 캘리포니아의 한 판사도 페이스북의 모기업인 메타가 AI 모델을 만들기 위해 자신의 회고록을 무단 사용했다는 코미디언 사라 실버만의 주장도 기각했다고 전했다.
3) 미국 대법원도 2016년에 수백만 권의 책들을 디지털화하고 그것들의 일부분을 대중에게 보여주는 구글의 '온라인 도서관'이 저작권 침해 행위라는 저자들의 주장을 기각한 하급 법원의 판결을 인정한 바 있다.
결론
AI 학습에 사용된 데이터 관련 다양한 저작권 논쟁이 시작되긴 하였으나, 아직까지 사례가 없다보니 정확한 판단이 어려운 상황입니다. 개인적으로는 이번 뉴욕타임즈(NYT)의 소송은 이기기 위한 목적이 아닌 합의를 통한 개런티 확보 또는 사용료를 받아내기 위한 목적일 것이라고 판단되며, 최근 공개된 웹데이터를 활용하는 기업들이 많기에 하나의 사례가 나온다면 큰 파장이 있을거라 생각됩니다.