제목 | [산업분석] 사이버 보안 기술 현황과 정보통신산업의 첨단 기술 현황 |
---|
분류 | 성장동력산업 | 판매자 | 국준아 | 조회수 | 31 | |
---|---|---|---|---|---|---|
용량 | 3.75MB | 필요한 K-데이터 | 7도토리 |
파일 이름 | 용량 | 잔여일 | 잔여횟수 | 상태 | 다운로드 |
---|---|---|---|---|---|
[산업분석] 사이버 보안 기술 현황과 정보통신산업의 첨단 기술 현황.pdf | 3.75MB | - | - | - | 다운로드 |
데이터날짜 : | 2024-12-11 |
---|---|
출처 : | 국책연구원 |
페이지 수 : | 34 |
음성 딥페이크 탐지기술 동향
I. 딥러닝 기반 음성 합성기술
최근 한 TV 방송에서 노래를 듣고 가수가 부르는 것인지 AI 모델이 부르는 것인지 맞추는 프로그램이 방영되어 인기를 얻고 있다.
이렇게 가수의 음성을 학습하여 가수와 똑같이 노래 부르는 AI 모델을 만드는 딥러닝 기술이 크게 발전하고 있다.
AI 모델이 사람의 음성을 학습하여 동일한 언어 습관으로 말하는 딥러닝 모델은 2017년 구글에 의해 등장하였다.
이 타코트론(Tacotron)이라는 모델은 기존에 음소를 연결하여 음성을 생성하는 레거시 TTS(Text-to-Speech) 시스템에서
들었던 부자연스러운 음성과 달리 매우 매끄럽고 그 사람의 말하는 습관까지 표현하는 획기적인 것이었다.
[그림 1]은 TTS와 보이스 컨버전(voice conversion) 처리 과정을 보여 주고 있는데 TTS의 일반적인 메커니즘은 언어학적인 조합이나
음향 모델링을 통해 사람과 비슷하게 들리는 음성을 생성하는 것으로, 먼저 텍스트 분석 단계에서 입력된 텍스트는 음소, 강세, 억양 등 언어적 특성으로 분석한다.
이후, 이 분석된 텍스트에 언어 규칙을 적용하여 발음과 강세를 포함한 음성 표현으로 변환하고, 음향 모델링을 통해 음성 파형을
생성한다. 생성된 음성 파형은 다양한 합성 기술을 사용하여 실제 음성으로 변환되며, 마지막으로 운율을 추가해 자연스러운 음성을
만든다
---------------------------------------------------------------------------------------------------------------------------------------------------------
※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.