데이터 자료실 - 데이터365 - [산업분석] 커먼크롤 분석과 국내 적용방안

콘텐츠 등록

제목	[산업분석] 커먼크롤 분석과 국내 적용방안

분류	성장동력산업	판매자	장민환	조회수		98
용량	34.83MB	필요한 K-데이터	1도토리

파일 이름	용량	잔여일	잔여횟수	상태	다운로드
[산업분석] 커먼크롤 분석과 국내 적용방안.pdf	34.83MB	-	-	-	다운로드

데이터날짜 :	2022-05-02
출처 :	한국지능정보사회진흥원
페이지 수 :	12

1. 개요 □ 커먼크롤 개념 및 필요성 ○ (정의) 커먼크롤 의미1) - 웹상의 데이터를 자동적으로 탐색하는 행위를 의미하나 웹 크롤링 데이터를 누구나 액세스, 분석하도록 공개 저장소에 유지·관리하는 개념 ※ 탐색된 데이터로부터 원하는 조건에 맞는 데이터를 추출·가공·저장하는 의미 포함 ○ (필요성) 미래사회의 핵심기술인 인공지능은 데이터양에 비례하여 고도화되기 때문에 각국은 데이터 수집· 활용에 주목하고 있는 상황 - 특정 조직에서 데이터를 직접 수집·가공하여 제공하는 방식은 많은 예산이 필요하여 데이터셋 규모의 확장이 제한적 ※ 공공 AI허브, 빅데이터 플랫폼, 공공데이터 포털 등에서는 정제된 데이터를 제공하지만 많은 예산이 필요 ○ 따라서 가공하지 않은 대규모 원시데이터를 누구나 사용할 수 있도록 플랫폼상에 저장·활용·분석할 수 있는 커먼크롤의 장점 재조명 - 알고리즘 개발·유통 활성화를 위한 한국어 기반의 간편하고 유연한 라이브러리 개방 및 서비스 지원 필요 ○ 크롤링된 데이터를 활용하면 언어번역 소프트웨어, 추세예측, 질병 역추적 등 다양한 목적으로 활용 가능 ※ 특히 언어영역은 많은 가능성을 보여주고 있는 GPT3, BERT와 같은 언어모델을 고려할 때 엄청난 양의 한국어 데이터 확보 및 공유 플랫폼 필요○ 설립목적 - 커먼크롤은 연구·분석을 목적으로 연구원, 기업, 개인에게 웹상의 데이터를 무료로 제공하는 미국의 비영리 조직 ※ 대기업 위주로 가능했던 고품질 크롤링 데이터를 중소·스타트업, 개인들에게도 제공하여 다양한 분석 및 아이디어를 창출 할 수 있도록 기회 제공을 목적으로 설립 ○ 데이터 형태 - 2008년 이후 페타바이트 규모의 데이터가 저장되어 있고 웹크롤 원시데이터, 추출된 메타데이터, 텍스트 데이터 포함 - 현재 WARC(Web ARCHive) 형식을 사용하여 크롤링 데이터를 저장하며 2013년 이전에는 ARC 파일 형식으로 저장 ※ WARC 형식을 사용하면 수백 테라바이트 규모의 커먼크롤 웹 아카이브를 보다 효율적으로 저장·처리 가능 ○ 데이터 사용 - 아마존(AWS) 지원 프로그램의 일환으로서 아마존 S3 저장소를 활용하며 HTTP 또는 S3에서 무료로 다운로드 가능

※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.

List of Articles

번호	분류	제목	K-데이터	판매자
		K데이터 무통장 입금을 통한 충전 방법
3649	성장동력산업	[산업동향] 글로벌 수산물 수출 경쟁우위 및 결정요인 분석	7도토리	안소영
3648	성장동력산업	[정책분석] 중대재해처벌법 시행에 관련하여 항만에서 대응방안 연구	7도토리	안소영
3647	성장동력산업	[기술동향] 메타버스 기반 공공 서비스 및 공간정보 분야의 역할	3도토리	안소영
3646	성장동력산업	[기술동향] 스탠포드 「AI 인덱스 2021」을 통해 본AI 지표 조사의 변화 방향	3도토리	안소영
3645	성장동력산업	[정책분석] EU집행위원회 클라우드 합의문과 얼라이언스	1도토리	안소영
3644	성장동력산업	[정책분석] 미국 알고리즘에 관한 책임법안 발의	1도토리	안소영
3643	성장동력산업	[기술분석] OECD 인공지능 시스템 분류 프레임워크 분석과 시사점	3도토리	안소영
3642	성장동력산업	[기술동향] 알고리즘 영향평가 모델 사례(영국 헬스케어 분야)	3도토리	안소영
3641	성장동력산업	[기술동향] 민간 클라우드(SaaS) 이용사례	7도토리	안소영
3640	성장동력산업	[기술분석] 클라우드를 위한 제로 트러스트 보안	3도토리	안소영
3639	성장동력산업	[기술분석] 제로 트러스트를 기반으로 보안 실현을 위한 6x2 아키텍처	1도토리	안소영
3638	성장동력산업	[산업분석] 디지털 전환 시대, NIA가 전망한 환경 변화 13대 핫이슈	1도토리	장민환
3637	성장동력산업	[산업동향] ARK 인베스트를 통해 본 디지털 전환 방향	7도토리	장민환
»	성장동력산업	[산업분석] 커먼크롤 분석과 국내 적용방안	1도토리	장민환
3635	생명공학/바이오	[산업분석] 차세대 의료분야 데이터 활용을 위한 표준화와 비즈니스 모델 연구	7도토리	장민환
3634	생명공학/바이오	[정책분석] 국내외 제약바이오기업의 ESG 대응 현황 및 시사점	3도토리	장민환
3633	성장동력산업	[정책분석] 코로나19 이후 해외 스타트업 정책동향 및 주요 변화	3도토리	나혜선
3632	성장동력산업	[산업분석] 선박 대체연료 확산이 해운산업에 대해 미치는 영향	3도토리	나혜선
3631	성장동력산업	[산업분석] 국내 산업의 탄소중립 달성에 대한 CCUS 역할	1도토리	나혜선
3630	성장동력산업	[산업분석] 메타버스 산업 생태계 및 사업화 요건	3도토리	나혜선

콘텐츠 등록

첫 페이지 305 306 307 308 309 310 311 312 313 314 끝 페이지

로그인