제목 [산업분석] 챗 GPT 관련 분석
분류 성장동력산업 판매자 김민성 조회수 65
용량 5.79MB 필요한 K-데이터 7도토리
파일 이름 용량 잔여일 잔여횟수 상태 다운로드
[산업분석] 챗 GPT 관련 분석.pdf 5.79MB - - - 다운로드
데이터날짜 : 2023-02-28 
출처 : 국책연구원 
페이지 수 : 29 

1.  ChatGPT의 개념과 특징

  가. (개념) ChaTGPT는 OpenAI 社에서 제작한 대규모 인공지능 언어모델인 GPT(Generative Pretrained Transformer) 기술을 적용하여 개발한 대화 전용 인공지능 챗봇(Chat Generative Pre-trained Transformer, ChatGPT)을 말함.

  나. (특징) 사용자의 질문에 대한 일반적인 대화뿐만 아니라 창의적인 아이디어 도출을 위한 대화, 주제에 대한 간단한 에세이나 시나리오 작성, 소스코드 작성 및 코드 리뷰가 가능함.

    ChatGPT는 사용자와의 상호작용 없이 독립적인 정보만을 제공하는 기존 검색 엔진에 비해 사용자의 질문을 이해하고 답변을 준다는 점에서 사용자 친화적이고 새로운 답변을 생성한다는 측면에서 큰 차이가 존재함.

 

2. ChatGPT의 기반 기술(GPT+RLHF)

  가. GPT(Generative Pre-trained Transformer)

    GPT는 대규모의 사전학습 언어모델(Pretrained Language Model, PLM)로서 Tranfomer라는 문장 속 단어들의 관계를 파악하여 맥락과 의미를 파악하는 신경망 모델을 이용하여 인공지능이 할 수 있는 최선의 답변을 텍스트로 생성함.

    2018년에 개발된 GPT-1을 시작으로 2019년 GPT-2, 2020년에  GPT-3까지 개발되었으며8), 버전이 업그레이드하면서 모델의 크기가 커지고 성능이 우수해지고 있음.

  나. 인간 피드백을 통한 강화학습(Reinforcement Learning from Human Feedback, RLHF)

     인공지능이 강화학습을 할 때 인간이 추가 학습정보나 학습한 결과에 대한 평가 등을 제공(피드백)하여 알고리즘의 최적화를 통해 모델의 성능을 향상시키는 강화학습 방법임.

 

3. ChatGPT 학습과정

  가. (1단계) GPT-3.5를 통해서 약 5000억 개의 글자(토큰)로 이루어진 학습 데이터를 인공 신경망을 통해서 학습함.

  나. (2단계) GPT-3.5는 인간이 선호하는 답변을 생성할 수 있도록 기계학습 데이터 분석·분류 전문가가 작성한 질문으로 학습하여 미세 조정(Fine-tuning)된 GPT-3 모델임.

  다. (3단계) GPT-3.5 모델에게 질문을 하여 여러 가지 답변을 생성하도록 하고 생성된 답변들에 대해서 기계학습 전문가들이 점수를 주고 순위를 부여하도록 함. 미세 조정된 GPT-3.5 모델이 최고 순위의 답변을 도출하는 보상 모델을 만듦.

  라. (4단계) 미세 조정된 GPT-3.5 모델이 보상 모델을 통해 질문에 대하여 최적의 답변을 도출할 수 있도록 스스로 강화학습을 함.

 

4. 학습 데이터(GPT-3 기준)

  가. (Crawl) 2016년부터 2019년까지 웹크롤링을 통해서 수집한 데이터

  나. (WebText2) 레딧(Reddit)에서 2018년 1월 ~ 10월까지 게시글 중에서 최소 3 Karama (긍정이나 부정 표시개수) 이상의 게시글

  다. (Books1) 만료저작물들을 인터넷에서 수집하여 제공하는 프로젝트 구텐베르크(Project Gutenberg Corpus)의 책 자료일 것으로 추정

  라. (Books2) Bibliotik의 데이터일 것으로 추정

  마. (Wikipedia) 위키피디아를 통해서 수집한 자료

 

5. ChatGPT 시장규모

  가. 챗봇

    글로벌 챗봇 시장 규모는 2032년까지 연평균 19.92% 성장하여, 약 49억 달러의 시장을 형성할 것으로 전망임.

  나. ChatGPT

    출시 4일만에 하루 동안 해당 서비스를 이용한 이용자의 수(DAU26))는 100만 명을 돌파, 40일째에는 1,000만 명을 돌파, 현재 ChatGPT 일 사용자 수는 1,500만 명 으로 추정됨(2023.1.23. 기준).

    UBS 리서치에 따르면 ChatGPT는 1조 달러($1 trillion)의 가치가 있다고 발표함.

 

6. 인공지능 챗봇 서비스

  가. 마이크로소프트: 빙(Bing)

    마이크로소프트 빙 검색엔진에 ChatGPT보다 성능이 우수한 오픈AI 社의 새로운 언어모델인 프로메테우스(Prometheus)를 적용할 예정임.

  나. 구글: 바드(Bard)

    대화형 애플리케이션 언어 모델인 람다(LaMDA)31) 기반의 대화형 인공지능 챗봇으로 기자회견에서 시연을 통해 공개함.

  다. 네이버: 서치GPT

     네이버에서 올해 상반기에 네이버의 하이퍼클로바 모델을 기반으로 작동하는 새로운 검색 서비스인 ‘서치GPT’를 공개하겠다고 발표함.

  라. 바이두 어니봇

    대규모 언어모델인 어니 3.0(ETNIE 3.0) 기반의 대화형 인공지능 챗봇을 내부 테스트를 거쳐 2023년 3월에 출시할 예정임.

 

7. ChatGPT의 한계

  가. (정확성) ChatGPT에서 사용할 수 있는 데이터는 2021년 9월로 제한되기 때문에 입력된 질문에 대한 정보가 충분하지 않으면 잘못된 데이터로 답변을 채우거나 부정확한 정보를 산출(hallucinations)하는 경향이 있음.

  나. (편향성) ChatGPT 모델은 부적절한 요청에 대해서는 답변을 거부하도록 훈련되었지만 우회적인 질문을 통해 유해한 지침이나 쿼리에 응답하거나 편향된 답변을 산출할 수 있음.

  다. (접근 정보의 제한) 실시간 정보, 인터넷의 URL이나 참조를 제공하거나 위치기반 정보를 사용할 수 없음. 이에 따라 응용 프로그램의 기능과 응용 프로그램이 제공할 수 있는 서비스 유형 또한 제한됨.

  라. (다중모드 입·출력) 텍스트 모델이므로 이미지, URL, 오디오 또는 기타 입력 모드를 입력하거나 출력(제공)할 수 없음. 비언어적 수단을 이용할 수 없으므로 대화의 깊이나 질적 측면에서 한계가 존재함.

  마. (서비스 지속성) ChatGPT의 사용자 폭증에 따른 서버 용량 초과로 인한 네트워크 오류로 사용자의 접근에 제한이 발생하거나 일시적으로 서비스가 중단되는 현상이 발견되고 있음.

  바. (오·남용) ChatGPT를 활용한 과제, 시험 등 교육 분야에서 부정행위가 적발되는 등 오용, 남용되는 사례가 등장하고 있고 확대될 것으로 보임.

 

8. ChatGPT 관련 저작권 이슈

  가. 학습자료 이용의 저작권 문제

    GPT를 학습시키기 위해 크롤링을 통해 웹사이트에서 수집한 자료의 양은 570Gbyte라고 알려져 있음.

    인터넷에 공표된 저작물 중 상당 부분이 저작권법상 보호받는 저작물이기 때문에 해당 저작물의 수집·저장, 학습 과정에서 발생하는 전송 등의 과정을 고려해볼 때 학습자료에 대한 저작권 문제가 발생할 수 있음.

    다만, 인공지능의 학습자료의 데이터마이닝 과정에서 이루어지는 저작물 이용행위가 공정이용에 해당하는지는 검토가 필요함.

  나. CCL과 오픈소스 문제

    GPT가 학습한 자료에는 CCL(Creative Commons License)를 적용하고 있는 저작물이 상당수 있음

    GPT가 CCL 조건을 지키며 저작물을 학습시키고 있는지 여부, CCL 저작물을 학습하여 문장을 생성한다고 했을 때 CCL 저작물이 표현될 수 있다면 해당 라이선스 조건에 따라서 저작자표시 등의 이용조건 준수 여부가 문제 될 수 있음.

    ChatGPT가 학습한 소스코드나 학습한 소스코드를 통해 창작한 소스코드가 이러한 오픈소스 라이선스 저작물을 사용하였고, 오픈소스 라이선스의 사용조건을 지키지 않았다면 저작권 침해 문제가 발생할 수 있음.

  다. ChatGPT 생성물의 저작물성

    현행 저작권법상 저작자는 인간을 전제로 하기 때문에 ChatGPT의 생성물은 저작물로 인정받기 어려움.

 

화면 캡처 2023-03-07 150908.png



※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.

List of Articles
번호 분류 제목 K-데이터 판매자
K데이터 무통장 입금을 통한 충전 방법
5372 생명공학/바이오 [산업분석] 2022년 베트남 바이오의약품 글로벌 진출 전략 분석 9도토리 나혜선
5371 생명공학/바이오 [산업분석] 2022년 태국 바이오의약품 글로벌 진출 전략 분석 9도토리 나혜선
5370 생명공학/바이오 [산업분석] 2022년 대만 바이오의약품 글로벌 진출 전략 분석 9도토리 나혜선
5369 생명공학/바이오 [산업분석] 2022년 중국 바이오의약품 글로벌 진출 전략 분석 9도토리 나혜선
5368 생명공학/바이오 [산업분석] 2022년 일본 바이오의약품 글로벌 진출 전략 분석 9도토리 나혜선
5367 생명공학/바이오 [산업분석] 2022년 유럽 바이오의약품 글로벌 진출 전략 분석 9도토리 나혜선
5366 생명공학/바이오 [산업분석] 2022년 캐나다 바이오의약품 글로벌 진출 전략 분석 9도토리 나혜선
5365 생명공학/바이오 [산업분석] 2022년 미국 바이오의약품 글로벌 진출 전략 분석 9도토리 나혜선
5364 생명공학/바이오 [산업분석] 미국, 유럽의 바이오 의약품 인허가 절차 분석 9도토리 나혜선
» 성장동력산업 [산업분석] 챗 GPT 관련 분석 7도토리 김민성
5362 성장동력산업 [산업분석] 웹 3.0 산업 분석 7도토리 김민성
5361 성장동력산업 [산업분석] EU 역외 보조금 규제 분석 7도토리 김민성
5360 성장동력산업 [산업분석] 중국의 에너지절약, 저탄소 제품 인증 제도에 대한 분석 5도토리 김민성
5359 성장동력산업 [산업분석] 수출제한 기술 목록에 대한 분석 5도토리 김민성
5358 생명공학/바이오 [산업동향] 23년 EU 주요 환경규제와 대응전략 5도토리 김민성
5357 성장동력산업 [산업동향] 2023년 2월 소프트웨어 중심 이슈 분석 9도토리 김민성
5356 성장동력산업 [산업동향] 미국, EU, 영국의 사이버 보안 전략 분석 7도토리 김민성
5355 성장동력산업 [산업동향] 중국 오수처리 산업 동향 7도토리 김민성
5354 성장동력산업 [산업동향] 2022년 중국 남부지역 경제 동향 5도토리 김민성
5353 성장동력산업 [산업분석] 펜데믹 이후 중국 소비자 설문조사 보고서 5도토리 김민성