제목 Naive ontology로 본 온라인동영상서비스(OTT)의 변화
분류 성장동력산업 판매자 박민혁 조회수 109
용량 1.35MB 필요한 K-데이터 1도토리
파일 이름 용량 잔여일 잔여횟수 상태 다운로드
Naive ontology로 본 온라인동영상서비스(OTT)의 변화.pdf 1.35MB - - - 다운로드
데이터날짜 : 2021-07-15 
출처 : 정부산하기관 
페이지 수 : 11 

01 배경 - 인터넷 프로토콜을 기반으로 콘텐츠를 전송하는 뉴미디어의 등장과 코로나19로 인한 실내(in-door) 콘텐츠 소모가 증가 하면서, 소위 뉴미디어에 의한 시장 및 산업의 변화가 급격하게 진행중임 - 뉴미디어 중에서도 특히 온라인동영상서비스(OTT, over-the-top)에 대한 시장 수요가 급격하게 증가하고 있음(방송매체 이용행태 조사 보고서, 2018년 42.7% → 2019년 52% → 2020년 66.3%) - 정하진(2021)은 2018년 이후의 온라인동영상서비스(OTT) 이슈 변화를 토픽모델링(Latent Dirichlet allocation, LDA) 기법을 적용해 분석함으로써, 미디어 환경 변화에 대한 시사점을 밝힘1) - 본 보고서는 연속적인 시간 흐름 속에서 온라인동영상서비스(OTT)에 대한 인식변화를 파악하기 위해, 지식 그래프 (knowledge graph) 형태의 원시적인 온톨로지를 도출함으로써 정하진(2021)의 분석 결과를 보완하는 관점에서 시사점을 도출하고자 함 1) 토픽모델링은 (1) 연도별 토픽을 각각 도출했기 때문에 시간 흐름에 따른 토픽 변화를 연속성 있게 관측하기 어렵고 (2) 토픽별 키워드 세트로 레이블링(labeling)을 해야 하는 방법론의 특성상 개별 토픽 간의 관계 등을 파악하기가 쉽지 않다는 제약이 있음 02 KISDI STAT Report 2021. 7. 15 / Vol. 21-13 02 데이터 수집, 가공 및 분석 방법 1. 데이터 수집 방법 - 수집 대상: 2018년 1월 1일부터 2021년 6월 30일까지 “온라인동영상서비스”와 “over the top”을 구문 검색어로 사용해 도 출된 네이버 뉴스 기사 본문 * OTT를 키워드로 활용하지 않은 이유는, 서구권에서 OTT가 이름(고유명사)으로 사용되는 단어이며 그 외 두문자어(acronym)를 검색쿼리(query)로 사용할 경우 나 타날 수 있는 기타기사를 사전에 제거하기 위함임 - 수집 방법: Python 기반 자체 크롤링 모듈 구현 2. 데이터 가공 방법 - “over the top”과 “온라인동영상서비스”를 검색쿼리로 각각 활용하기 때문에, 수집 후 중복기사는 url을 key값으로 제거함 - 뉴스기사의 본문을 크롤링한 후 두 번의 전처리를 거쳤는데, 첫 번째 전처리 과정에서는 뉴스 기사 본문에 삽입된 NON-ASCII 문자, 저작권, 기자 이름, 기자 이메일, 신문사명, html 태그 등을 제거했으며, 두 번째 전처리 과정에서는 ‘OTT’, ‘VOD’ 등의 두문자어, 동의어(방통위-방송통신위원회, 케이블 텔레비전-케이블 TV 등)를 처리함 - ‘5G’, ‘온라인동영상서비스’ 등 주요 키워드를 명사로 인식할 수 있도록 사용자 사전 추가 작업을 수행함 3. 데이터 분석 방법 - 본 보고서에서는 지식 그래프(knowledge graph) 형태의 온톨로지를 생성하기 위해, 저자가 제안한 일종의 순차적 네트워크 구축 알고리즘을 적용함2) * 온톨로지(ontology)란 단어 사이의 관계를 정의하고 있는 일종의 사전(dictionary)으로, 어떤 관심 분야를 개념화하기 위해 명시적으로 정형화한 어휘 집합을 의미함 - 알고리즘의 요지는 트리(tree) 구조를 형성하기 위해 먼저 단어 간 시맨틱 유사성(semantic similarity)을 도출하고 이를 바탕으로 구축된 假 네트워크에서 순환(circulation) 연결이 일어나지 않도록 네트워크 노드 간 경로를 탐색하는 것임 * 네트워크 이론에서 최소 신장 트리(minimum spanning tree)로 불리는 아이디어에서 착안하고 개발한 방법으로, 알고리즘 적용 시 사용자의 개입 없이 전체 문서를 대표하는 일반 키워드가 중심에 위치하고 이로부터 해당 중심 키워드를 설명할 수 있는 상세 키워드가 바깥쪽으로 퍼지도록 구성되는 것을 확인함 - 본 보고서에서는 위 알고리즘을 적용하고 도출한 결과물을 naive ontology로 명명함. 이는 시소러스(thesaurus)와 키워드 간 택소노미(taxonomy)를 제한적이나마 자동으로 구성함으로써 그 형태상 온톨로지의 특성을 갖추고 있기 때문임 * 시소러스: 개념의 대소관계, 동의어, 동음이의어, 관련어, 반의어 등의 정보 체계 * 택소노미: 트리형의 위계형 구조로 단어를 분류할 수 있는 정보 체계 - 분석 결과에서 각 단어들은 네트워크의 노드(node)로 단어 간의 관계는 엣지(edge)로 표현되며, 각 노드의 크기는 뉴스 기사 에서 다른 단어들과의 연결 중심성(eigenvalue centrality)을 의미하기 때문에 크기가 클수록 다른 단어 세트의 근간이 되고, 노드가 네트워크의 중심부에 위치할수록 상위어 주변부로 확장되어 이어지는 노드는 하위어에 해당함



※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.

List of Articles
번호 분류 제목 K-데이터 판매자
K데이터 무통장 입금을 통한 충전 방법
» 성장동력산업 Naive ontology로 본 온라인동영상서비스(OTT)의 변화 1도토리 박민혁
2119 성장동력산업 ICT뉴스심리지수 의미와 시사점 1도토리 박민혁
2118 성장동력산업 개인방송 이용 행태 및 이용자 특성 분석 1도토리 조정희
2117 성장동력산업 지상파 TV 방송 시청 고객 생존분석 1도토리 조정희
2116 성장동력산업 메타버스 인식 변화 분석: 경제인문사회연구회 빅데이터 플랫폼을 활용하여 1도토리 조정희
2115 성장동력산업 MZ세대의 미디어 이용행태 1도토리 박민혁
2114 성장동력산업 개인적 특성, 환경적 요인, 시간대와 요일효과를 고려한 OTT 선택 요인 분석: TV vs. OTT 1도토리 김민성
2113 성장동력산업 연령대별 SNS 이용행태에 따른 잠재프로파일 유형에 관한 연구 1도토리 김민성
2112 성장동력산업 중장년층의 미디어 비판적 이해능력과 자아존중감 1도토리 김민성
2111 성장동력산업 코로나19가 ICT 산업에 미치는 영향 분석: 생산지수와 BSI를 중심으로 1도토리 조정희
2110 성장동력산업 2021년 한국미디어패널 조사결과 주요 내용 1도토리 조정희
2109 성장동력산업 2021년 방송산업 실태조사 결과 주요 내용 1도토리 박민혁
2108 성장동력산업 ICT이머징이슈발굴 시스템을 통한 2021년 월간 반도체 산업 동향 1도토리 박민혁
2107 성장동력산업 온라인쇼핑 이용행태 변화 분석 - 한국미디어패널조사와 통계청 「온라인쇼핑 동향」을 활용하여- 1도토리 박민혁
2106 성장동력산업 메타버스 세상의 디지털 플랫폼 규제 3도토리 박민혁
2105 성장동력산업 美·中 데이터 패권 경쟁과 대응전략 3도토리 김민성
2104 성장동력산업 2021 인공지능(AI) 중요 이슈 및 전망 3도토리 김민성
2103 성장동력산업 디지털 수출입 규범: 세계 트렌드와 시사점 3도토리 노민우
2102 성장동력산업 위성인터넷 : 스타링크가 우리에게 주는 시사점 3도토리 이지훈
2101 성장동력산업 [연구동향] 안전한 데이터 활용을 위한 데이터 위험관리 1도토리 이지훈