제목 시계열 데이터 결측치 처리 기술 동향
분류 성장동력산업 판매자 조정희 조회수 96
용량 906.87KB 필요한 K-데이터 1도토리
파일 이름 용량 잔여일 잔여횟수 상태 다운로드
시계열 데이터 결측치 처리 기술 동향.pdf 906.87KB - - - 다운로드
데이터날짜 : 2021-08-01 
출처 : 정부산하기관 
페이지 수 :

Ⅰ. 서론 4차 산업혁명 시대를 지나며 ICT 응용 분야는 많은 발전을 하고 있다. 특히 인공지능(AI: Articial Intelligence) 분야는 핵심 기술로 여러 영역에 실제 로 적용되기 위해 다양한 연구가 진행되고 있다. 기본적으로 인공지능 기술을 접목하기 위해서는 기술에 기반이 되는 양질의 데이터가 필요하다. 이 는 인공지능 기술의 성능 향상에 영향을 주기 때문 에 매우 중요한 문제이다. 그 중, 산업 현장에 자주 사용되는 시계열 데이터는 시간 동기화에 맞추어 오랜 시간 수집되어야 의미가 있는 데이터로서 인 공지능 기술에 쓰일 수 있다. 하지만, 현실에서는 예상치 못한 상황들(예, 정전, 통신장애 등)의 발생 으로 인한 정보 누락이 발생하여 분석에 적절하지 못한 경우가 많다. 때로는 수집된 데이터의 절반이상이 누락되어 있는 경우도 존재한다. 이러한 데 이터를 그대로 인공지능 기술에 적용하기에는 무 리가 있고, 기존 데이터를 버리고 다시 수집하기에 는 많은 시간 소요와 정전 등 예상치 못한 상황이 발생하지 않을 것이라는 보장도 없다. 따라서 이와 같은 문제의 해결 방안으로는 수집을 다시 하기보 다는 기존 수집된 데이터의 결측값을 대치하여 사 용하는 것이다. 이를 위해, 정확한 결측값 대치 및 처리 방법에 관한 다양한 연구가 진행되었고, 본고 에서는 결측치 종류 및 결측치 처리 기술 연구 동 향을 소개하고자 한다. 본고의 구성은 다음과 같다. Ⅱ장에서는 결측치 데이터의 종류에 대하여 정의하고, Ⅲ장에서는 결 측치 처리에 관한 연구 동향을 통계적 기법, 행렬 기반 기법, 회귀분석 기법, RNN(Recurrent Neural Network) 기반 기법, GAN(Generative Adversarial Network) 기반 기법과 같이 크게 다섯 분류로 나누 어 소개한다. 마지막 Ⅳ장 결론에서는 연구 동향에 맞추어 앞으로의 결측치 처리 기법에 관한 시사점 을 제시하고 마무리한다. Ⅱ. 결측치 데이터 종류 1. 완전 무작위 결측(MCAR) 결측값의 첫 번째 종류는 완전 무작위 결측 (MCAR: Missing Completely At Random)이다. MCAR은 전체에 걸쳐 무작위하게 누락된 경우로 변수의 종류, 변수의 값과 상관없이 비슷한 분포 로 누락된 데이터를 의미한다. 이 경우 통계적으 로 누락 패턴을 파악해 볼 수 있다. 이러한 형태의 결측치는 분석에 크게 영향을 주지 않지만 실제로 MCAR인 경우는 거의 없다. 2. 무작위 결측(MAR) 무작위 결측(MAR: Missing At Random)은 어떤 특 정 변수에 대하여 데이터가 누락되는 경우를 의미 하며, 결측값의 경우가 자료 내의 다른 변수와 관 련이 있다. 다만, 그 변수의 값과는 관계가 없다. 예를 들어, 설문 대상자가 뒷면이 있는지 모르고 설문을 진행하여 특정 변수들에 국한되어 누락된 경우가 해당한다. 3. 비무작위 결측(MNAR) 비무작위 결측(MNAR: Missing Not At Random)의 경우는 누락되는 부분들이 무작위로 누락되는 것 이 아닌 누락된 변수의 값이 누락된 이유와 관련이 있는 경우이다. 대부분의 결측 데이터는 MNAR인 경우가 많다. 예를 들어, 시계열 데이터의 경우 측 정 센서의 고장이나 네트워크 통신 문제 등으로 누 락되는 경우는 변수의 값이 누락된 이유와 관련 있 기 때문에 MNAR에 해당한다. 결측치 데이터 종류 중에서 (1) MCAR와 (2) MAR의 경우는 무작위로 누락되어 있는 경우이 기 때문에 결측값을 제거한 데이터를 이용하여 분석을 진행하는 것이 좋다. 반면, (3) MNAR의 경우는 결측값의 발생이 무분별하기 때문에 결측 값이 있는 데이터를 제거하고 분석을 진행할 경 우, 모델이 편향적으로 학습될 수 있기 때문에 일 반화된 모델을 설계하는 것에 어려움이 존재한다. 따라서 이의 경우에는 단순한 결측치 제거가 아닌 상황에 맞는 결측치 보간 및 처리 방법이 매우 중요 하다.



※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.

List of Articles
번호 분류 제목 K-데이터 판매자
K데이터 무통장 입금을 통한 충전 방법
2228 성장동력산업 중국 기업 디지털 전환 청서 1도토리 장민환
2227 성장동력산업 대만 전자산업 관련 주요 동향 1도토리 장민환
2226 성장동력산업 유럽 메탄 전략이 천연가스 수급에 미치는 영향 1도토리 조현상
2225 성장동력산업 경제적 측면에서 EU의 대중국 기조 변화 1도토리 조현상
2224 성장동력산업 중국의 RCEP 참여에 따른 영향 고찰 1도토리 조현상
2223 성장동력산업 ’22년 독일 디지털 환경의 새로운 변화 1도토리 정한솔
2222 성장동력산업 중국 14차 5개년 지능형제조발전규획 1도토리 노민우
2221 성장동력산업 중국 14차 5개년 원자재산업발전규획 1도토리 국준아
2220 성장동력산업 인도 반도체·디스플레이 제조 생태계 개발 프로그램 1도토리 국준아
2219 성장동력산업 경제개발협력기구(OECD), 국경을 초월한 정부 혁신 달성의 주요 내용과 시사점 3도토리 정한솔
2218 성장동력산업 반도체 부족 사태 현황 정보요청 결과 1도토리 정한솔
2217 성장동력산업 ’22 다보스 어젠다 주요 쟁점 및 시사점 1도토리 정한솔
2216 성장동력산업 자동차산업 탄소중립 대응 동향 1도토리 노민우
2215 성장동력산업 순환경제 시대 재활용이 소재산업에 미치는 영향 1도토리 노민우
2214 성장동력산업 첨단제조 혁신을 통한 기업 ESG 지원 방안 1도토리 국준아
2213 성장동력산업 ’22년 주목해야 할 12가지 기술 동향 1도토리 국준아
2212 성장동력산업 (산업·기술동향) 글로벌 공급망 과제 및 대응 방향성 1도토리 국준아
2211 성장동력산업 EU 회원국의 글로벌 가치사슬 관련 정책과 시사점 1도토리 노민우
2210 성장동력산업 '22년 아시아 지역 경제 전망 1도토리 노민우
2209 성장동력산업 각국 투자심사제도 동향 1도토리 정한솔