01 ICT뉴스심리지수(ICT News Sentiment Index: ICT NSI) 개발 배경 ● (배경) 기존 조사통계의 한계를 극복하고 향후 비중이 더욱 확대될 비정형데이터의 활용성을 제고하기 위해 정보통신정책 연구원은 학계의 연구자들과 함께 ICT산업 전망 및 파급효과분석을 위한 ICT뉴스심리지수를 개발하고 있음1) - ICT 산업 동향과 관련된 통계지표들은 시차를 두고 공표를 하고, 공표된 수치들이 여러 차례 걸쳐 수정이 이루어지기 때문에 ICT 산업의 동향을 시의성 있게 파악하고 대외환경 변화에 따른 파급효과를 분석하는 데 한계가 있음 * 조사통계는 대체로 모집단과 대상 기업을 선정하고 전화 등을 활용하여 매출액, 업황 등에 대한 조사를 실시하고 그 결과를 취합하여 공개하기 때문에 시차가 발생 - 연구진은 ICT뉴스심리지수를 개발함으로써 한편으로는 산업생산지수나 경기실사지수(BSI, Business Survey Index)와 같은 기존의 지표들을 보완하고 다른 한편으로는 이를 계량모형에 결합함으로써 분석의 예측력을 높이고자 시도 ● (필요성) 거시경제의 상황을 온라인 뉴스를 활용하여 측정하고자 하는 시도가 다양하게 이루어지고 있으나, ICT 산업의 동향을 파악하기 위한 시도는 없었으며, 텍스트기반의 지수를 활용하여 국내 경제를 전망하는 시도는 없었음 - 뉴스 기사를 활용하여 거시경제의 동향을 측정하고자 하는 대표적인 시도로 Northwestern 대학의 Baker 교수와 스탠 포드의 Bloom 교수가 개발한 Economic Policy Uncertainty(EPU) Index가 있으며 우리나라에서도 최근 KDI가 우리 나라 EPU를 개발하여 공개 - 한편, 한국은행에서는 경제뉴스기사를 긍정과 부정기사로 분류하고 이를 활용하여 뉴스심리지수를 개발하여 공개하고 있음 - 그러나, ICT 산업에 특화된 텍스트 기반 지수는 현재 없으며 이를 활용한 경제전망 및 파급효과 분석 사례도 매우 제한적 ● 본고에서는 ICT뉴스심리지수를 소개하고 기존의 통계지표와 비교함으로써 그 의미를 생각해보고자 함 1) 본 리포트는 경제인문사회연구회 「데이터기반 미래예측 및 정책지원 사업」의 세부 과제인 「비정형 데이터를 결합한 ICT 산업전망 계량모형 개발」에서 개발한 ICT 뉴스심리지수를 중심으로 소개하고 있으며, 지수개발에는 연세대학교 임종호 교수와 세종대학교 최준연 교수가 참여 02 KISDI STAT Report 2021. 7. 30 / Vol. 21-14 02 데이터 소스 및 방법론 ● (데이터)국내 30여개의 미디어로부터 2010년 1월 1일부터 2021년 6월 30일까지 매주 2,000여개의 ICT산업과 관련된 기사를 수집하고 각 기사에서 ICT 시장 동향 및 전망에 관한 문장을 추출 ● (지수구축 개요) 수집된 기사의 문장을 중심으로 BERT 기반 모형에 의해 기사를 ICT전망 관련여부와 기사의 긍·부정을 분류 하고 연구진에 의해 분류된 2,000개의 기사를 학습데이터로 활용하여 파인튜닝을 거친 후 주별 100개의 기사를 추출하여 Weighted Probability Ratio 방식으로 지수를 산출 ※ 본 연구에서는 사전기반으로 분류하는 방법도 시도하였으나 최종적으로 BERT기반 모형으로 확정하였으며, 주별 소스와 기사 수의 편의를 방지하기 위해 층화계통 추출을 통해 매주 100개의 기사를 추출 - (BERT) BERT-multilingual-cased 모형으로 각 문장을 ICT전망과 관련된 경우 1, 그렇지 않은 경우를 0으로 분류하고, 전망과 관련된 문장은 다시 긍정인 경우 1, 중립인 경우 0, 부정인 경우를 2로 분류, 관련이 없는 경우를 9로 분류하고 지수화하기 위해서 긍정과 부정으로 분류된 경우만 활용 - (Probability Ratio) 문장이 긍정전망으로 분류될 확률을 p, 부정전망으로 분류될 확률을 (1-p)로 하여 감성점수를 아래와 같이 계산하고 기사별로 포함된 문장의 평균값을 구해서 주별로 합산 감성점수 ※ 감성점수는 마이너스 1과 1 사이의 값을 가지며, 모든 기사가 긍정인 경우 1, 부정인 경우가 -1 - (Weighted Probability Ratio) BERT 기반 모형으로 ICT 전망과 관련된 문장으로 분류될 확률과 Probability Ratio에서 구해진 감성지수를 동시에 활용하여 최종 수치를 도출