코로나19 세계적 유행으로 디지털 기반 비대면 소통이 익숙해지고 있는 가운데 자연어 음성인식 AI 기술이 스마트폰이나 자동차, 가전을 비롯한 다양한 서비스로 진화하며 일상 생활 속에 빠르게 적용되고 있음 ▶ 최근 자연어 음성인식은 종단형(End-to-End) 트랜스포머 인공지능 모델과 수 만 시간의 음성데이터 학습으로 실환경 인식율이 대폭 개선되어 자연스러운 발화 음성이 가능함에 따라 단순 명령어에서 대화형 AI 서비스로 확산 ▶ 본 고에서는 딥러닝 인공지능 기반 자연어 음성인식 기술의 최신 연구 동향과 산업 현황을 분석하고 시사점을 제안하고자 함 ◈ (정의 및 활용 분야) 자연어 음성인식(Speech-to-Text)은 자유발화 음성을 가독성 있는 텍스트로 자동변환하는 인공지능 기술로, 머신과의 커뮤니케이션을 인간의 언어로 실현하는 궁극의 인터페이스 또는 인터랙션 기술로 정의 [그림 1] 인공지능 주요 분야 자료: 김상훈(2022) 개 요 주요내용 2 AI TREND WATCH ▶ 인공지능은 인간의 뇌 신경계와 학습 원리를 뇌인지 컴퓨팅으로 구현한 기술로, 시각지능, 청각지능 및 언어지능으로 크게 구분할 수 있으며, 음성인식은 말을 알아 듣고 이해할 수 있는 능력인 청각지능에 해당하는 인공지능 핵심 기술 ▶ 음성인식 시스템은 크게 3가지 주요 모델로 구성되는데, 화자의 음성이 어떤 소리인지 분별 능력을 학습한 음향 모델, 단어의 다양한 발음패턴을 기억하는 발음사전, 단어 간의 관계 또는 문법을 학습한 언어 모델로 나눔 [그림 2] 음성인식 시스템 구성도 자료: 김상훈(2022) ▶ 음성신호만의 고유한 특성을 처리하기 위해서, 발화 음성의 시작과 끝을 자동으로 검출하는 끝점검출(EPD: End-Point Detection) 기술, 음성신호의 주파수 특성을 잡음환경에서도 뚜렷하게 분석 추출하는 전처리 기술, 숫자나 영문, 문장부호를 복원하는 후처리 기술이 실제 환경에서 성능을 크게 좌우 ▶ 다양한 스마트 기기의 보급과 맨-머신 음성 인터페이스 접목을 통한 사용자 편의성 개선으로 기존 컴퓨터, 전화 ARS, 스마트폰에서 AI 스피커, 스마트 TV, 커넥티드 카, 의료지원시스템, 자동통역, 대화 로봇, 키오스크, 원격회의시스템 등을 통해 일상생활 속으로 적용이 확산되고 있음