Ⅰ. 서론 2018년 개봉한 영화 “Ready Player One”에서는 주 인공이 가상세계와 현실세계를 넘나들며 활약하는 모습을 보여주며, 최근 관심의 대상이 된 메타버스 서비스의 미래상을 보여주었다. 코로나19 팬데믹 사태로 인한 사회적 거리두기 정책과 맞물리며, 메 타버스에서는 다양한 기관 및 조직의 공식 모임 또 는 행사를 비대면으로 시행하는 사례가 급증하고 있고, 가상인간을 통한 광고, 연예인 및 아이돌 그 룹이 탄생하며, 디지털, 모바일 환경에 익숙한 MZ 세대를 중심으로 미디어의 대변혁이 일어날 것을 조심스럽게 예측하도록 부추기고 있다. 기술적으로 보면, 가상세계에서 현실세계와 구별 되지 않는 자연스러운 활동을 제공하기 위해서는 완 전 몰입이 가능한 고품질 멀티모달 휴먼 인터페이스즉 충실한 오감의 제공이 중요하다. 오감 중에서도 가장 중요한 감각 중 하나인 청각 기술에서 떠오르고 있는 Immersive Audio는 주어진 음향 공간에 완전 몰 입함으로써 실제로 현장에 있는 듯한 실재감의 체험 이 가능한 새로운 음향 솔루션이라고 할 수 있다. Immersive Audio의 가장 중요한 특징은 휴먼 인터 페이스 환경이 청취자의 Yaw, Pitch, Roll에 의한 머 리의 회전을 포함하는 X, Y, Z 축의 자유로운 움직임 을 추적하여 대응함으로써 6DoF(Degree of Freedom) 사용자 상호작용을 제공한다는 것이다. 6DoF의 음 향 공간에서 몰입감/실재감을 제공하기 위해서는 시각 경험과 완벽히 일치되는 공간음향 경험이 중 요한데, 이를 위해서는 음향에 의한 공간정보 인지 능력인 Echolocation이 발현되는 조건이라고 할 수 있는 음향적 Motion Parallax와 임의 공간 내에서의 청취자의 움직임에 따라 기대하게 되는 음향의 변 화를 얼마나 잘 재현해 내는지가 중요한 성능 요인 이 된다고 할 수 있다. MPEG(Moving Picture Experts Group)에서는 이러 한 추세에 따라 VR(Virtual Reality)/AR(Augmented Reality) 어플리케이션을 위한 몰입형 미디어 기술 로서 MPEG-I Immersive Media 표준화를 추진하고 있다. MPEG 오디오 그룹(SC29/WG6)에서는 2024 년 완료를 목표로 MPEG-I Immersive Audio 표준화 를 진행하고 있으며, 그림 1과 같이 표준화 범위는 6DoF MPEG-I Immersive Audio 메타데이터 비트 스트림과 실시간 렌더링 기술이 포함되어 있다[1]. 2022년 1월에 제안기술의 평가 결과를 바탕으로 RM0(Reference Model 0) 기술이 선정되었으며, 4월에 는 Working Draft 문서 및 RM0 Reference SW를 발 간할 예정이다[2]. 본고에서는 MPEG-I Immersive Audio 표준화 현 황과 기술 동향을 CfP(Call for Proposal) 평가 결과와 CfP에 제안된 기술들을 중심으로 설명하고자 한다. 이어지는 Ⅱ장에서는 MPEG-I Immersive Audio 기 술 표준화 현황에 관하여 기술하고, Ⅲ장에서는 CfP 평가 결과와 그에 따른 RM0 개발 일정 및 계획을 요약하여 기술한다. Ⅳ장에서는 RM0 기술로 선정 된 기술들을 중심으로 Immersive Audio의 기술 동향 을 살펴보려고 하며, Ⅴ장에서는 Immersive Audio 서비스 전망과 함께 결론을 맺고자 한다. Ⅱ. MPEG-I Immersive Audio MPEG-I Immersive Audio 기술은 그림 1에서 나 타낸 것과 같이 이전에 표준화가 완료된 MPEG-H 3D Audio 기술을 기본 코덱으로 사용하고 있고, VR/AR 어플리케이션의 6DoF 사용자 상호작용을 통한 사용자 경험을 제공하기 위한 MPEG-I 메타데 이터를 전송하는 비트스트림과 MPEG-I Immersive Audio 렌더러를 표준화 범위에 포함하고 있다. MPEG-I에서는 표준화를 위하여 6DoF 오디오의 요구사항을 정의하고 있는데, 요약하면 다음과 같 다[3]. ● 공간음향 재생: 청취자의 6DoF 움직임과 일치 하는 사용자 경험 제공 ● 비트스트림: 미디어 및 메타데이터의 효과적인 표현과 압축 제공 ● 재생 방법: 헤드폰 및 멀티채널 스피커 재생 ● 음원 모델: 지향성 및 볼륨 음원 제공공간음향 렌더링: 설득력 있는 실내 혹은 물리 적 음향 현상 제공 ● 장애물 효과: 방 구조 및 환경의 기하학적 장애 물에 의한 투과, 회절 효과 제공 ● 도플러 효과: 고속 이동 음원에 의한 피치 변화 효과 제공 ● 사용자 음원: 로컬 및 원격 사용자의 현장음이 주어진 환경에 현장감 있게 렌더링될 것 6DoF 청취자 상호작용은 그림 2와 같이 머리의 회 전과 신체의 움직임을 모두 추적하여 그에 맞는 공간 의 음향 경험을 재현해 주는 기술로서, 기존의 제작 단계에서 완성된 멀티채널 기반의 콘텐츠를 일방적 으로 소비하던 형태에서 직접 공간을 돌아다니며 물 리적 공간과 상호작용하면서 실시간으로 변화되는 몰입형 음향 경험을 소비하는 형태로 변화된다. 이러한 특징에 의해 6DoF 오디오 렌더러는 공간 음향 모델링과 렌더링을 동시에 수행하여야 하므 로 일반적인 하드웨어 사양으로는 실시간 구현하 는 것이 매우 어렵다. MPEG-I에서는 이러한 문제 를 해결하기 위하여 콘텐츠 저작단계 및 모델링 단 계에서 미리 결정할 수 있는 파라미터 생성을 인코 더에서 수행하고, 디코더에서는 청취자의 움직임 에 따라 실시간 렌더링에 필요한 처리만 수행하는 구조로 설계하였다[4]. 그림 3은 이러한 MPEG-I Immersive Audio 기술의 기본 구조 및 주관 평가를 위한 인터페이스를 나타내고 있으며, 기존 표준 기 술인 MPEG-H 3D Audio 코덱 기술과 MPEG-I 인 코더 및 비트스트림과 실시간 렌더링 기술로 구분 되어 있다. 인코더의 범위를 예측 가능한 범위로 한 정하기 위하여 공용 입력 포맷으로 EIF(Encoder Input Format)를 규정하고 있으며, 렌더러는 실시간 주관 평가를 위하여 외부 인터페이스를 규정하고 있다. 인코더의 EIF는 MPEG-I Immersive Audio 콘텐 츠의 공간음향 장면 표현을 위하여 음원의 종류, 음 원의 형상, 음원의 지향성 등 음원의 정보와 공간 구 조 정보, 공간 재료 정보, 음향 환경 정보, 각 객체의 움직임 및 사용자 상호작용을 위한 갱신 정보 등을 포함하고 있다[5]. MPEG-I Immersive Audio 인코더 는 EIF의 공간음향 장면 정보를 이용하여 공간음향 의 렌더링에 필요한 메타데이터를 생성하며, 이 메 타데이터는 비트스트림으로 전송되어 공간음향의 실시간 렌더링 처리에 사용된다. MPEG-I Immersive Audio 렌더러는 VR 헤드셋의 센서로부터 청취자의 움직임 및 머리 회전 정보를 입력받아 청취자의 현 재 위치 및 머리 방향에 대응하는 공간음향을 재생 하게 된다. MPEG-I Immersive Audio CfP 주관평가 에서는 실시간 렌더러 성능 평가를 위하여 VR 영상 솔루션인 Unity와 연동하여 실시간 6DoF AV 사용