제목 [산업분석] 커먼크롤 분석과 국내 적용방안
분류 성장동력산업 판매자 장민환 조회수 73
용량 34.83MB 필요한 K-데이터 1도토리
파일 이름 용량 잔여일 잔여횟수 상태 다운로드
[산업분석] 커먼크롤 분석과 국내 적용방안.pdf 34.83MB - - - 다운로드
데이터날짜 : 2022-05-02 
출처 : 한국지능정보사회진흥원 
페이지 수 : 12 

1. 개요 □ 커먼크롤 개념 및 필요성 ○ (정의) 커먼크롤 의미1) - 웹상의 데이터를 자동적으로 탐색하는 행위를 의미하나 웹 크롤링 데이터를 누구나 액세스, 분석하도록 공개 저장소에 유지·관리하는 개념 ※ 탐색된 데이터로부터 원하는 조건에 맞는 데이터를 추출·가공·저장하는 의미 포함 ○ (필요성) 미래사회의 핵심기술인 인공지능은 데이터양에 비례하여 고도화되기 때문에 각국은 데이터 수집· 활용에 주목하고 있는 상황 - 특정 조직에서 데이터를 직접 수집·가공하여 제공하는 방식은 많은 예산이 필요하여 데이터셋 규모의 확장이 제한적 ※ 공공 AI허브, 빅데이터 플랫폼, 공공데이터 포털 등에서는 정제된 데이터를 제공하지만 많은 예산이 필요 ○ 따라서 가공하지 않은 대규모 원시데이터를 누구나 사용할 수 있도록 플랫폼상에 저장·활용·분석할 수 있는 커먼크롤의 장점 재조명 - 알고리즘 개발·유통 활성화를 위한 한국어 기반의 간편하고 유연한 라이브러리 개방 및 서비스 지원 필요 ○ 크롤링된 데이터를 활용하면 언어번역 소프트웨어, 추세예측, 질병 역추적 등 다양한 목적으로 활용 가능 ※ 특히 언어영역은 많은 가능성을 보여주고 있는 GPT3, BERT와 같은 언어모델을 고려할 때 엄청난 양의 한국어 데이터 확보 및 공유 플랫폼 필요○ 설립목적 - 커먼크롤은 연구·분석을 목적으로 연구원, 기업, 개인에게 웹상의 데이터를 무료로 제공하는 미국의 비영리 조직 ※ 대기업 위주로 가능했던 고품질 크롤링 데이터를 중소·스타트업, 개인들에게도 제공하여 다양한 분석 및 아이디어를 창출 할 수 있도록 기회 제공을 목적으로 설립 ○ 데이터 형태 - 2008년 이후 페타바이트 규모의 데이터가 저장되어 있고 웹크롤 원시데이터, 추출된 메타데이터, 텍스트 데이터 포함 - 현재 WARC(Web ARCHive) 형식을 사용하여 크롤링 데이터를 저장하며 2013년 이전에는 ARC 파일 형식으로 저장 ※ WARC 형식을 사용하면 수백 테라바이트 규모의 커먼크롤 웹 아카이브를 보다 효율적으로 저장·처리 가능 ○ 데이터 사용 - 아마존(AWS) 지원 프로그램의 일환으로서 아마존 S3 저장소를 활용하며 HTTP 또는 S3에서 무료로 다운로드 가능



※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.

List of Articles
번호 분류 제목 K-데이터 판매자
K데이터 무통장 입금을 통한 충전 방법
3550 성장동력산업 [산업분석] JP모건의 메타버스 비즈니스 전략 및 시사점 1도토리 오민아
3549 성장동력산업 [산업분석] 글로벌 은행들의 초개인화 뱅킹 사례와 시사점 1도토리 안소영
3548 성장동력산업 [산업동향] 항공운송 및 후방산업 격리의무 완화에 따른 수혜업종 전망 1도토리 안소영
3547 성장동력산업 [산업분석] 글로벌 PE사의 사업다각화 사례와 시사점 1도토리 안소영
3546 성장동력산업 [산업분석] 주요 양식어류 수급전망 고도화를 위한 모형 구축 연구 7도토리 안소영
3545 성장동력산업 [산업동향] 글로벌 수산물 수출 경쟁우위 및 결정요인 분석 7도토리 안소영
3544 성장동력산업 [정책분석] 중대재해처벌법 시행에 관련하여 항만에서 대응방안 연구 7도토리 안소영
3543 성장동력산업 [기술동향] 메타버스 기반 공공 서비스 및 공간정보 분야의 역할 3도토리 안소영
3542 성장동력산업 [기술동향] 스탠포드 「AI 인덱스 2021」을 통해 본AI 지표 조사의 변화 방향 3도토리 안소영
3541 성장동력산업 [정책분석] EU집행위원회 클라우드 합의문과 얼라이언스 1도토리 안소영
3540 성장동력산업 [정책분석] 미국 알고리즘에 관한 책임법안 발의 1도토리 안소영
3539 성장동력산업 [기술분석] OECD 인공지능 시스템 분류 프레임워크 분석과 시사점 3도토리 안소영
3538 성장동력산업 [기술동향] 알고리즘 영향평가 모델 사례(영국 헬스케어 분야) 3도토리 안소영
3537 성장동력산업 [기술동향] 민간 클라우드(SaaS) 이용사례 7도토리 안소영
3536 성장동력산업 [기술분석] 클라우드를 위한 제로 트러스트 보안 3도토리 안소영
3535 성장동력산업 [기술분석] 제로 트러스트를 기반으로 보안 실현을 위한 6x2 아키텍처 1도토리 안소영
3534 성장동력산업 [산업분석] 디지털 전환 시대, NIA가 전망한 환경 변화 13대 핫이슈 1도토리 장민환
3533 성장동력산업 [산업동향] ARK 인베스트를 통해 본 디지털 전환 방향 7도토리 장민환
» 성장동력산업 [산업분석] 커먼크롤 분석과 국내 적용방안 1도토리 장민환
3531 성장동력산업 [정책분석] 코로나19 이후 해외 스타트업 정책동향 및 주요 변화 3도토리 나혜선