제목 | 데이터 유통과 데이터 품질 기술 현황 |
---|
분류 | 성장동력산업 | 판매자 | 조정희 | 조회수 | 38 | |
---|---|---|---|---|---|---|
용량 | 1.81MB | 필요한 K-데이터 | 3도토리 |
파일 이름 | 용량 | 잔여일 | 잔여횟수 | 상태 | 다운로드 |
---|---|---|---|---|---|
데이터 유통과 데이터 품질 기술 현황.pdf | 1.81MB | - | - | - | 다운로드 |
데이터날짜 : | 2021-06-03 |
---|---|
출처 : | 한국지능정보사회진흥원 |
페이지 수 : | 23 |
[ 목 차 ]
1. 데이터 생태계를 위한 메타데이터의 중요성
2. DCAT 표준
(1) 데이터 카탈로그 개요
(2) RDF 표준
(3) DCAT 2.0 분석
3. 데이터 품질 표준
(1) 데이터 품질 개요
(2) W3C 품질 표준
(3) 인공지능용 데이터 품질 척도
4. 결론 및 시사점
○ 인공지능이 전 산업 영역으로 빠르게 확산되고 이를 통한 사회변화가 가 속화되는 상황에서 인공지능 성능의 토대가 되는 양질의 데이터 확보는 4 차 산업혁명 산업 발전을 위해서 무엇보다 시급한 문제가 되었다. 이러한 상황에서 데이터 유통을 촉진하는 데이터 카탈로그 메타데이터의 이해와 적용은 매우 중요하다. ○ 데이터 카탈로그의 실현을 위해 W3C는 2014년에 DCAT(Digital Catalogue Vocabulary)을 제시하였고, 2020년에는 DCAT 2.0 버전으로 개정하였다. EU 도 DCAT을 확장한 DCAT-AP(DCAT Application Profile) 규약을 2015년에 제정하였고, 2020년에 2.0.1 버전으로 개정하였다. ○ 데이터의 품질을 평가하기 위해서도 메타데이터는 매우 중요한데, 데이터 자 체로는 품질을 평가할 수 없기 때문에 대상 데이터에 최신성, 정확성, 상호연 계성 등의 지표를 측정하여 메타데이터로 추가함으로써 데이터의 가치를 산정 할 수 있다. 또한 인공지능에 특화된 데이터 품질에 대한 관심이 고조되고 있 다. DQV와 같은 표준적인 방식으로 데이터 품질이 평가되고 가치가 산정되면, 데이터에 적절한 가격이 매겨질 수 있고 데이터 생산자의 생산 의욕과 데이터 유통의 신뢰도를 높일 수 있게 된다. ○ 세계 각국은 AI 산업의 활성화를 위해 데이터 생성과 유통을 가속화하고자 하 는 노력을 하고 있으며, EU 데이터 포털의 사례에서도 볼 수 있듯이 데이터 유통과 데이터 품질 표준을 적극 활용하고 있다. 국내에서도 한국지능정보사 회진흥원이 추진하는 통합데이터 지도(https://www.bigdata-map.kr) 사이트 가 DCAT 2.0을 기반으로 구축되고 있으며, 품질 부분이 보완된다면 더욱 활 성화될 것으로 기대된다. 한국지능정보사회진흥원 ❘ 5 ❘ 주 요 내 용 데이터 유통 및 데이터 품질 기술동향 1. 데이터 생태계를 위한 메타데이터의 중요성 인공지능 기술 경쟁력이 국가 경쟁력으로 간주되고 있는 4차 산업혁명 환경에서 데이터 는 혁신적인 가치를 창출하는 새로운 자원으로 주목받고 있으며, 방대한 양의 데이터에서 의미있는 정보를 추출하고 경제적 가치를 창출하는 빅데이터와 인공지능 기술은 4차 산업 혁명의 핵심 기반 기술로서 산업 전반에 큰 파급효과를 불러올 것으로 예상되고 있다. 특 히, 현재의 인공지능 기술이 모델 중심에서 데이터 중심으로 옮겨가면서 대량의 데이터를 확보하기 위한 각국의 경쟁이 치열해지고 있다. 주요 선진국들은 데이터 유통 생태계가 데이터 확보의 핵심이라는 것에 주목하여 데이터 를 효율적으로 유통하기 위한 다양한 방안을 제시하고 있다. 영국의 “오픈 데이터 정책”과 같은 것이 이러한 노력의 일환이며, 특히 EU의 경우 다양한 국가가 하나의 연합체에 들어 있기 때문에 개별 국가에서 산출된 데이터 공유나 유통에 대한 노력이 일찍부터 진행되어 왔다. 이러한 노력은 EU Open Data Portal과 European Data Portal의 발족과 이 두 데이터 포털이 통합된 EU의 공식 데이터포털 (https://data.europa.eu/)을 기반으로 한 생태계 구축으로 이어졌고, 2021년 5월 현재 이 데이터 포털을 통해 EU에서 생산된 130 만개 이상의 데이터가 유통되고 있다. 이렇듯 데이터의 유통을 통한 데이터 생태계 활성화를 위해서는 데이터 포털이 매우 중요 하나, 아쉽게도 데이터 포털의 구축만으로는 생태계 활성화가 되지 않는다는 점이 오랫동안 지적되어 왔다. 기본적으로 데이터 포털에 탑재된 데이터는 사이즈가 크기 때문에 소비자 측에서 데이터의 내용을 일일이 살펴볼 수 없다. 또한 생산자 입장에서도 복사가 구매 행위 의 완성인 디지털 경제에서 데이터를 모두 제공해서는 수익을 기대할 수 없다. 이러한 이유 때문에 데이터 유통 생태계에서는 개별 데이터의 특성을 제시하는 메타데이터(metadata) 의 도입은 필연적이다. 일반적으로 데이터를 위한 메타데이터는 기존의 다양한 메타데이터 유형 및 비정형 데이터를 위한 최소한의 코어 메타데이터를 제공함으로써, 이들을 통합, 연 계, 관리할 수 있어야 한다. 메타데이터(Metadata)는 “데이터에 관한 데이터”라는 의미이다. 예를 들어 도서관에서
※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.