● 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 머신러닝과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있고, IBM의 ‘왓슨’이라는 질의응답 시스템이 제퍼디 퀴즈 쇼에서 인간 챔피언을 상대로 우승하는 사건도 있었다.
● 텍스트로 이루어진 빅데이터를 처리하기 위해서는 다양한 언어분석 기반기술이 필요하다. 대표적인 언어분석 기술로 형태소분석 기술과 개체명인식 기술이 있다.
● 형태소분석 기술은 의미를 가진 최소 단위인 명사, 동사, 형용사, 부사, 조사, 어미 등의 형태소를 분석하는 기술이다.
● 개체명은 인명, 지명, 기관명 등과 같은 고유 명사를 말하며, 필요에 따라서는 지위, 관계 등의 일반 명사 등도 대상이 된다. 개체명 인식 기술은 텍스트에 출현한 개체명을 자동으로 인식하는 기술이다.
● 예전에는 문어체로 이루어진 텍스트 데이터를 처리하는 요구가 많이 있었지만, 최근에는 음성인식과 같은 다양한 인공지능 기술의 발전으로 구어체 텍스트 데이터에 대한 요구사항이 많아지고 있다. 구어체 텍스트 데이터 분석을 위해서는 축약어와 같은 구어체 텍스트 데이터에서 많이 출현하는 특성을 고려한 언어분석 기술이 필요하다.
● 기존의 문어체 언어분석 기술을 구어체 텍스트 분석에 적합한 형태소 분석 기술과 개체명 인식 기술을 개발하였고, 구어체 텍스트 데이터를 분석하여 활용하고 싶은 곳에서 효과적으로 사용할 수 있도록 구어체 언어분석 기술을 기술이전하고자 한다.