1. 개요 □ 커먼크롤 개념 및 필요성 ○ (정의) 커먼크롤 의미1) - 웹상의 데이터를 자동적으로 탐색하는 행위를 의미하나 웹 크롤링 데이터를 누구나 액세스, 분석하도록 공개 저장소에 유지·관리하는 개념 ※ 탐색된 데이터로부터 원하는 조건에 맞는 데이터를 추출·가공·저장하는 의미 포함 ○ (필요성) 미래사회의 핵심기술인 인공지능은 데이터양에 비례하여 고도화되기 때문에 각국은 데이터 수집· 활용에 주목하고 있는 상황 - 특정 조직에서 데이터를 직접 수집·가공하여 제공하는 방식은 많은 예산이 필요하여 데이터셋 규모의 확장이 제한적 ※ 공공 AI허브, 빅데이터 플랫폼, 공공데이터 포털 등에서는 정제된 데이터를 제공하지만 많은 예산이 필요 ○ 따라서 가공하지 않은 대규모 원시데이터를 누구나 사용할 수 있도록 플랫폼상에 저장·활용·분석할 수 있는 커먼크롤의 장점 재조명 - 알고리즘 개발·유통 활성화를 위한 한국어 기반의 간편하고 유연한 라이브러리 개방 및 서비스 지원 필요 ○ 크롤링된 데이터를 활용하면 언어번역 소프트웨어, 추세예측, 질병 역추적 등 다양한 목적으로 활용 가능 ※ 특히 언어영역은 많은 가능성을 보여주고 있는 GPT3, BERT와 같은 언어모델을 고려할 때 엄청난 양의 한국어 데이터 확보 및 공유 플랫폼 필요○ 설립목적 - 커먼크롤은 연구·분석을 목적으로 연구원, 기업, 개인에게 웹상의 데이터를 무료로 제공하는 미국의 비영리 조직 ※ 대기업 위주로 가능했던 고품질 크롤링 데이터를 중소·스타트업, 개인들에게도 제공하여 다양한 분석 및 아이디어를 창출 할 수 있도록 기회 제공을 목적으로 설립 ○ 데이터 형태 - 2008년 이후 페타바이트 규모의 데이터가 저장되어 있고 웹크롤 원시데이터, 추출된 메타데이터, 텍스트 데이터 포함 - 현재 WARC(Web ARCHive) 형식을 사용하여 크롤링 데이터를 저장하며 2013년 이전에는 ARC 파일 형식으로 저장 ※ WARC 형식을 사용하면 수백 테라바이트 규모의 커먼크롤 웹 아카이브를 보다 효율적으로 저장·처리 가능 ○ 데이터 사용 - 아마존(AWS) 지원 프로그램의 일환으로서 아마존 S3 저장소를 활용하며 HTTP 또는 S3에서 무료로 다운로드 가능