Ⅰ. 서론 영상 객체 추적은 사용자로부터 동영상의 특정 프레임에 나타난 임의의 객체를 포함하는 영역을 입력받아 이후의 동영상에서 선택된 객체를 자동 으로 추적하는 기술을 의미한다[1]. 영상 객체 추 적은 영상 보안, 로보틱스, 비디오 분석, 자율주행 자동차 등과 같이 동영상을 이용하는 다양한 응용 분야에서 활용될 수 있기 때문에 오래전부터 많은 연구가 수행되고 있다. 초기의 영상 객체 추적 기 술은 얼굴이나 사람과 같이 특정한 단일 대상을 추 적하는 것이 목표였다. 하지만 현재에는 사용자가 지정하는 임의의 객체를 추적할 수 있는 알고리즘 이 개발되고 있으며, 추적 대상뿐만 아니라 추적하 는 대상의 수도 확대되어 다중 객체들을 동시에 추 적하기 위한 알고리즘에 대한 연구도 활발히 진행 되고 있다. 특히 최근에는 컴퓨터 비전의 다른 분 야와 마찬가지로 영상 객체 추적에도 심층 신경망 을 활용하는 연구가 주를 이루고 있고, 그 결과로 객체 추적 기술도 빠르게 발전되고 있다. 영상 객체 추적 기술은 추적 대상의 수(단일, 다 중) 및 추적을 위한 방법론에 따라 다양하게 분류된 다. 본고에서는 심층 신경망을 활용하는 객체 추적 기술 중 주로 단일 객체 추적을 위해 활용되고 있는 Siamese 네트워크를 사용하는 알고리즘들을 소개하 고자 한다. 심층 신경망을 분류기로 이용하는 온라 인 추적기들과 비교해 Siamese 네트워크 기반 추적기 들은 뛰어난 정확도 및 강인성과 함께 추적 속도 측 면에서 매우 우수하다. 이런 이유로 로봇과 같이 실 시간성이 요구되는 환경에서 특히 유용하게 활용될 수 있다. 독자들은 본고를 통해 Siamese 네트워크 기 반 객체 추적 기술의 발전 과정을 파악할 수 있을 것 으로 예상된다. Ⅱ장에서는 Siamese 네트워크 기반 추적 알고리즘들의 소개에 앞서 매년 영상 객체 추 적 기술들의 도전 과제를 제시하여 기술 발전에 이 바지하고 있는 VOT(Visual Object Tracking) 대회에 대 해 간략히 살펴본다. Ⅲ장에서는 Siamese 네트워크를 영상 객체 추적에 적용한 효시적인 연구를 포함하여 CVPR, ICCV, ECCV와 같이 저명한 컴퓨터 비전 학 회에서 발표된 10개의 알고리즘을 살펴본다. 마지막 으로 Ⅳ장에서는 Siamese 네트워크 기반 객체 추적 기 술의 발전 과정을 정리하고 향후 전망을 소개한다. Ⅱ. Visual Object Tracking 대회 ICCV 2013 워크숍에서 처음 시작된 VOT 대회 [2-10]는 영상 객체 추적 알고리즘들의 우수성을 겨루는 행사로 매년 ICCV나 ECCV에서 열리는 워 크숍을 통해 개최되고 있다. VOT 대회는 객체 추 적 알고리즘들을 객관적으로 평가할 수 있는 토대 를 제공한다는 점에서 큰 의미가 있다. VOT 대회 에서 공개하는 데이터셋 이외에도 영상 객체 추 적 알고리즘 개발에 다른 데이터셋들이 활용되기 도 한다. 예를 들면 VOT와 비슷한 시기에 공개된 OTB[11]도 여전히 많은 연구자가 활용하고 있고, 최근에 공개된 TrackingNet[12], LaSOT[13], GOT10k[14]와 같은 데이터셋은 VOT에서 제공하는 데 이터셋보다 규모도 크고 더욱 다양한 동영상을 포 함하고 있다. 하지만 VOT 대회는 체계적으로 정 리된 데이터셋과 성능 평가 방법을 공개하는 데에 그치지 않고, 매년 데이터셋을 도전적으로 업데이 트함과 동시에 참가자들을 모집하고 순위를 공개 함으로써 객체 추적 기술 연구자들에게 다른 형태 의 동기부여를 제공하고 있다. 1. 역사 및 변화 VOT 대회는 해가 지남에 따라 눈에 띄는 변화 들을 거쳐왔다(그림 1 참조). 2013년에는 추적 대상 이 영상에서 가려지거나 사라지지 않는 시나리오