제목 | [산업동향] 24년 독일, 생성형 AI의 학습 현황과 제한점 |
---|
분류 | 성장동력산업 | 판매자 | 정한솔 | 조회수 | 32 | |
---|---|---|---|---|---|---|
용량 | 339.28KB | 필요한 K-데이터 | 5도토리 |
파일 이름 | 용량 | 잔여일 | 잔여횟수 | 상태 | 다운로드 |
---|---|---|---|---|---|
[산업동향] 24년 독일, 생성형 AI의 학습 현황과 제한점.pdf | 339.28KB | - | - | - | 다운로드 |
데이터날짜 : | 2024-10-31 |
---|---|
출처 : | 국책연구원 |
페이지 수 : | 8 |
1. 생성형 인공지능 모델이 야기하는 저작권 문제 개관
생성형 인공지능(AI) 시스템이 작동하기 위해서는 이의 ‘엔진’에 해당하는 AI 모델
(예: Chat-GPT, DALL-E, Stable Diffusion 등)이 필요하다.
이 모델이 이용자의 요청에 따라 산출물을 생성하기 위해서는 그 이전에 학습되어 있어야 한다.
AI 모델의 학습에는 대량의 데이터가 필요하다. AI 모델의 성능은 학습에 사용되는 데이터의 품질과 양에 따라 크게 좌우된다.
데이터를 대량으로 수집하는 방법을 일반적으로 ‘데이터 스크래핑’(Data Scraping)이라고 한다.
데이터 스크래핑은 소프트웨어 프로그램(‘봇’ 또는 ‘크롤러’라고 함)을 이용하여 인터넷을 체계적으로 검색하고,
웹사이트에 있는 특히 텍스트, 이미지, 동영상, 프로그램 코드 또는 기타 디지털 콘텐츠에서 정보를 추출한다. 이러한 방식으로
대량의 데이터가 자동으로 수집되어 분석되고 정리된 후 ‘데이터셋’(Dataset)이 만들어진다.
데이터셋을 제작하는 과정에서 타인의 저작물이 AI 개발자의 컴퓨터에 저장될 수 있다.
이러한 저장은 저작권법의 복제와 관련된다.
나아가서 이 데이터셋은 AI 모델을 학습시키는 데 사용된다. AI 모델의 학습 과정에서도 복제가 발생할 수 있다.
마지막으로, 학습을 종료한 AI 모델이 ChatGPT나 Stable Diffusion과 같이 이용자에게 제공되는 경우 학습한
타인의 저작물이 산출물로 나타날 수 있다. 이러한 결과물이 저작권법의 복제에 해당하는지 문제가 된다.
만일 이용자가 AI 모델의 프롬프트(Prompt)를 통하여 생성한 산출물이 타인의 저작권을 침해하는 경우 이에 대한 책임이
누구에게 귀속되는지도 문제 된다.
이처럼 생성형 AI 모델의 경우 AI 학습을 준비하기 위한 데이터셋의 제작 과정, 이 데이터셋을 이용한 모델의 학습 과정,
이 모델을 이용한 새로운 콘텐츠의 생성 과정에서 저작권과 관련한 다양한 문제들이 야기되고 있다.
독일 함부르크 지방법원은 2024년 9월 27일 크네쉬케 대 라이온(Kneschke vs. LAION) 사건에서 데이터셋의 제작 과정에서
발생하는 저작권 침해와 이러한 침해가 텍스트 및 데이터 마이닝(TDM) 제한 규정으로 정당화될 수 있는지에 대하여 최초로 판결했다.
※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.