카메라를 이용하여 환경에 대한 3차원 지도를 생성하고, 카메라 위치를 추정하는 기술은 다양한 분야에 적용이 가능하다. 예를 들면, 자율주행차를 위한 차량 위치 및 환경 인지, AR/VR 디바이스를 활용한 가상 정보 증강, 의료 내시경의 네비게이션 등이 있다. 본 고에서는 카메라를 이용한 3차원 환경 복원 기술과 카메라 자세 변화를 추정하는 Visual SLAM 기술 동향에 대해 살펴보고자 한다. 구체적으로 영상으로부터 특징점을 추출하여 3차원 복원 및 측위를 수행하던 기존의 기하학적 방식과 최근 비약적으로 발전하고 있는 딥러닝을 활용한 방식들을 소개한다. 또한, 기하학적 방법과 딥러닝 기반의 방법을 융합한 하이브리드 방식 의 Visual SLAM 기술들에 대해서도 소개한다. 마지막으로 SLAM과 관련된 국내외 시장 동향에 대해서 논의하고자 한다. I. 서론 미지의 환경에서 다양한 센서들을 이용하여 위치를 추정하고 3차원 환경 지도를 생성하는 기술을 SLAM(Simultaneous Localization and Mapping) 또는 SfM(Structure from Motion)이라고 한다. 본 기술은 1990년대부터 꾸준히 연구되고 있으며 컴퓨터 처리 속도가 개선되고 카메라와 라이다 등의 센서 기술이 발전함에 따라 실제 많은 분야에 응용되고 있 다. 예를 들면, [그림 1]과 같이 로봇에 장착된 카메라를 이용하여 위치를 추정하고 환경 구조를 파악함으로써 목적지점까지 자율주행이 가능하다[1]. 3차원 환경 지도 생성 및 위치 추정을 위한 대표적인 센서로는 카메라, 레이저 센서 등이 있으며, 카메라로는 단안 카메라, 양안 카메라(stereo camera) 및 RGB-D 카메라 등이 있 * 본 내용은 김정호 책임연구원(☎ 031-739-7480, jhkim77@keti.re.kr)에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다. Visual SLAM 기술개발 동향 Chapter 01 기획시리즈-스마트 모빌리티 정보통신기획평가원 3 다. 레이저 센서는 수직 해상도(vertical resolution)에 따라서 2D LiDAR와 3D LiDAR로 분류된다. 단일 카메라의 경우 센서의 크기가 작고, 다양한 디바이스에 적용이 가능하지만 단일 영상으로부터 뎁스(depth) 정보를 추정하기 위한 알고리즘이 추가적으로 필요하다. 양안 카메라의 경우 양안 영상으로부터 정합을 통해 거리 정보를 계산할 수 있으나 처리 시간이 필요하며 측정 가능한 거리가 양안 카메라 사이의 거리에 따라서 제한된다. RGB-D 센서는 별도의 계산 없이 뎁스 정보를 바로 획득할 수 있기 때문에 양안 카메라 대비 처리 속도가 빠르고, 조밀한(dense) 지도 데이터를 구축할 수 있는 장점이 있으나 실외 환경에서 적용하기 어렵다. 2D LiDAR 센서는 가격이 저렴하고, 데이터양이 적어서 실시간 처리가 가능하지만 움직임의 자유도(degree-of-freedom)가 높은 경우 적용이 어렵다. 이와는 반 대로 3D LiDAR 센서의 경우 많은 수의 3D 포인트들을 제공하기 때문에 조밀한 3차원 복원 및 6자유도의 움직임 추정이 가능하지만 센서가 무겁고 가격이 비싸다는 단점이 있다. [표 1]은 각 센서 유형에 따른 지도 생성 및 위치 추정 결과를 보여준다. 카메라를 이용하여 SLAM을 수행할 경우 시간이 지남에 따라서 오차가 누적되므로 최종 생성된 지도와 위치 추정의 오차가 매우 커지는 경우가 있다. 오차가 발생하는 원인은 주변 환경과 조도 변화에 따라서 센서 관측치(observation)에 대한 노이즈 또는 모호성(ambiguity) 이 존재하기 때문이다. 이러한 문제점을 극복하기 위한 Visual SLAM 기술은 크게 기하하적 방법, 학습을 이용한 방법 그리고 학습과 기하학적 방법을 융합한 하이브리드 방법으로 나눌 수 있다. 본 고에서는 오차가 누적되는 문제를 해결하기 위한 개발 동향에 대해서 분석하고, 실제 응용되고 있는 분야와 시장 동향에 대해서 살펴보고자 한다.