Ⅰ. 서론 4차 산업혁명 시대를 지나며 ICT 응용 분야는 많은 발전을 하고 있다. 특히 인공지능(AI: Articial Intelligence) 분야는 핵심 기술로 여러 영역에 실제 로 적용되기 위해 다양한 연구가 진행되고 있다. 기본적으로 인공지능 기술을 접목하기 위해서는 기술에 기반이 되는 양질의 데이터가 필요하다. 이 는 인공지능 기술의 성능 향상에 영향을 주기 때문 에 매우 중요한 문제이다. 그 중, 산업 현장에 자주 사용되는 시계열 데이터는 시간 동기화에 맞추어 오랜 시간 수집되어야 의미가 있는 데이터로서 인 공지능 기술에 쓰일 수 있다. 하지만, 현실에서는 예상치 못한 상황들(예, 정전, 통신장애 등)의 발생 으로 인한 정보 누락이 발생하여 분석에 적절하지 못한 경우가 많다. 때로는 수집된 데이터의 절반이상이 누락되어 있는 경우도 존재한다. 이러한 데 이터를 그대로 인공지능 기술에 적용하기에는 무 리가 있고, 기존 데이터를 버리고 다시 수집하기에 는 많은 시간 소요와 정전 등 예상치 못한 상황이 발생하지 않을 것이라는 보장도 없다. 따라서 이와 같은 문제의 해결 방안으로는 수집을 다시 하기보 다는 기존 수집된 데이터의 결측값을 대치하여 사 용하는 것이다. 이를 위해, 정확한 결측값 대치 및 처리 방법에 관한 다양한 연구가 진행되었고, 본고 에서는 결측치 종류 및 결측치 처리 기술 연구 동 향을 소개하고자 한다. 본고의 구성은 다음과 같다. Ⅱ장에서는 결측치 데이터의 종류에 대하여 정의하고, Ⅲ장에서는 결 측치 처리에 관한 연구 동향을 통계적 기법, 행렬 기반 기법, 회귀분석 기법, RNN(Recurrent Neural Network) 기반 기법, GAN(Generative Adversarial Network) 기반 기법과 같이 크게 다섯 분류로 나누 어 소개한다. 마지막 Ⅳ장 결론에서는 연구 동향에 맞추어 앞으로의 결측치 처리 기법에 관한 시사점 을 제시하고 마무리한다. Ⅱ. 결측치 데이터 종류 1. 완전 무작위 결측(MCAR) 결측값의 첫 번째 종류는 완전 무작위 결측 (MCAR: Missing Completely At Random)이다. MCAR은 전체에 걸쳐 무작위하게 누락된 경우로 변수의 종류, 변수의 값과 상관없이 비슷한 분포 로 누락된 데이터를 의미한다. 이 경우 통계적으 로 누락 패턴을 파악해 볼 수 있다. 이러한 형태의 결측치는 분석에 크게 영향을 주지 않지만 실제로 MCAR인 경우는 거의 없다. 2. 무작위 결측(MAR) 무작위 결측(MAR: Missing At Random)은 어떤 특 정 변수에 대하여 데이터가 누락되는 경우를 의미 하며, 결측값의 경우가 자료 내의 다른 변수와 관 련이 있다. 다만, 그 변수의 값과는 관계가 없다. 예를 들어, 설문 대상자가 뒷면이 있는지 모르고 설문을 진행하여 특정 변수들에 국한되어 누락된 경우가 해당한다. 3. 비무작위 결측(MNAR) 비무작위 결측(MNAR: Missing Not At Random)의 경우는 누락되는 부분들이 무작위로 누락되는 것 이 아닌 누락된 변수의 값이 누락된 이유와 관련이 있는 경우이다. 대부분의 결측 데이터는 MNAR인 경우가 많다. 예를 들어, 시계열 데이터의 경우 측 정 센서의 고장이나 네트워크 통신 문제 등으로 누 락되는 경우는 변수의 값이 누락된 이유와 관련 있 기 때문에 MNAR에 해당한다. 결측치 데이터 종류 중에서 (1) MCAR와 (2) MAR의 경우는 무작위로 누락되어 있는 경우이 기 때문에 결측값을 제거한 데이터를 이용하여 분석을 진행하는 것이 좋다. 반면, (3) MNAR의 경우는 결측값의 발생이 무분별하기 때문에 결측 값이 있는 데이터를 제거하고 분석을 진행할 경 우, 모델이 편향적으로 학습될 수 있기 때문에 일 반화된 모델을 설계하는 것에 어려움이 존재한다. 따라서 이의 경우에는 단순한 결측치 제거가 아닌 상황에 맞는 결측치 보간 및 처리 방법이 매우 중요 하다.