제목 | [기술동향] 데이터 품질과 생성형 인공지능 기술 동향 |
---|
분류 | 성장동력산업 | 판매자 | 이지훈 | 조회수 | 155 | |
---|---|---|---|---|---|---|
용량 | 434.52KB | 필요한 K-데이터 | 5도토리 |
파일 이름 | 용량 | 잔여일 | 잔여횟수 | 상태 | 다운로드 |
---|---|---|---|---|---|
[기술동향] 데이터 품질과 생성형 인공지능 기술 동향.pdf | 434.52KB | - | - | - | 다운로드 |
데이터날짜 : | 2024-07-15 |
---|---|
출처 : | 국책연구원 |
페이지 수 : | 7 |
1. 머리말
ChatGPT가 소개된 이후, AI로 인해 세상이 가파르게 달라지고 있다. 2024년 5월 22일엔 “오픈AI(OpenAI)가 배우 스칼릿 조핸슨(Scarlett Johansson)의 음성을 무단 학습·도용했다”는 기사가 나왔다1). 사람과 음성으로 대화할 수 있는 GPT-4o, 특히 스카이(Sky)의 목소리가 조핸슨의 그것과 너무나 닮아 논란이 불거진 것이다. 해당 기사엔 성우의 목소리를 무단으로 사용한 음성 AI
스타트업의 이야기도 함께 실려 있다.
생성형 AI의 핵심은 학습에 필요한 데이터다. 최근의 논란은 AI 모델 학습 시 허락을 받지 않고 사용했기에 벌어진 일이다. 오픈AI는 ChatGPT 출시 이후 다양한 저작권 침해 논란에 휩싸였다. 뉴욕타임스는 “오픈AI가 자사 콘텐츠를 무단 사용했다”며 지난해 저작권 침해 소송을 걸었다2). 또 IT 매체 더버지에 따르면, GPT-4 훈련을 위해 100만 시간이 넘는 유튜브(YouTube) 영상이 무단으로 사용됐다고 한다3).
반면 일론 머스크가 설립한 AI 기업 x AI는 8조 2,000억 원 규모의 대규모 투자 유치에 성공했다. 이는 일론 머스크가 보유한 SNS 서비스 X(구 트위터)를 바탕으로, 고화질 영화 53만 편 분량의 데이터를 확보할 수 있기 때문이다4). 오픈AI와 xAI의 상반된 사례는, 좋은 품질의 학습 데이터를 확보하는 것이 얼마나 어렵고 중요한지를 보여주고 있다.
컨설팅 업체 IDC(International Data Corporation)에 따르면, 글로벌 AI 시장에서 가장 빠른 성장세를 보이는 것은 생성형 AI 솔루션이다. 예상되는 연평균 성장률은 73.3%로서, 전체 AI 시장 성장률인 30.4%를 2배를 훌쩍 넘는다5).
이는 학습 데이터가 AI의 핵심이기 때문이다. 최근 한 분석기관의 추정에 따르면, 고품질 텍스트 데이터는 2026년, 이미지 데이터는 2030년대 후반이 되면 부족해질 것으로 전망된다6). 그 해결책으로서, 생성형 AI가 만들어 낸 데이터를 사용해 AI 성능을 높이려는 노력이 이어지고 있다7).
-------------------------------------------------------------------------------------------------------------------------------------------------------
※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.