제목 시계열 데이터 결측치 처리 기술 동향
분류 성장동력산업 판매자 조정희 조회수 38
용량 906.87KB 필요한 K-데이터 1도토리
파일 이름 용량 잔여일 잔여횟수 상태 다운로드
시계열 데이터 결측치 처리 기술 동향.pdf 906.87KB - - - 다운로드
데이터날짜 : 2021-08-01 
출처 : 정부산하기관 
페이지 수 :

Ⅰ. 서론 4차 산업혁명 시대를 지나며 ICT 응용 분야는 많은 발전을 하고 있다. 특히 인공지능(AI: Articial Intelligence) 분야는 핵심 기술로 여러 영역에 실제 로 적용되기 위해 다양한 연구가 진행되고 있다. 기본적으로 인공지능 기술을 접목하기 위해서는 기술에 기반이 되는 양질의 데이터가 필요하다. 이 는 인공지능 기술의 성능 향상에 영향을 주기 때문 에 매우 중요한 문제이다. 그 중, 산업 현장에 자주 사용되는 시계열 데이터는 시간 동기화에 맞추어 오랜 시간 수집되어야 의미가 있는 데이터로서 인 공지능 기술에 쓰일 수 있다. 하지만, 현실에서는 예상치 못한 상황들(예, 정전, 통신장애 등)의 발생 으로 인한 정보 누락이 발생하여 분석에 적절하지 못한 경우가 많다. 때로는 수집된 데이터의 절반이상이 누락되어 있는 경우도 존재한다. 이러한 데 이터를 그대로 인공지능 기술에 적용하기에는 무 리가 있고, 기존 데이터를 버리고 다시 수집하기에 는 많은 시간 소요와 정전 등 예상치 못한 상황이 발생하지 않을 것이라는 보장도 없다. 따라서 이와 같은 문제의 해결 방안으로는 수집을 다시 하기보 다는 기존 수집된 데이터의 결측값을 대치하여 사 용하는 것이다. 이를 위해, 정확한 결측값 대치 및 처리 방법에 관한 다양한 연구가 진행되었고, 본고 에서는 결측치 종류 및 결측치 처리 기술 연구 동 향을 소개하고자 한다. 본고의 구성은 다음과 같다. Ⅱ장에서는 결측치 데이터의 종류에 대하여 정의하고, Ⅲ장에서는 결 측치 처리에 관한 연구 동향을 통계적 기법, 행렬 기반 기법, 회귀분석 기법, RNN(Recurrent Neural Network) 기반 기법, GAN(Generative Adversarial Network) 기반 기법과 같이 크게 다섯 분류로 나누 어 소개한다. 마지막 Ⅳ장 결론에서는 연구 동향에 맞추어 앞으로의 결측치 처리 기법에 관한 시사점 을 제시하고 마무리한다. Ⅱ. 결측치 데이터 종류 1. 완전 무작위 결측(MCAR) 결측값의 첫 번째 종류는 완전 무작위 결측 (MCAR: Missing Completely At Random)이다. MCAR은 전체에 걸쳐 무작위하게 누락된 경우로 변수의 종류, 변수의 값과 상관없이 비슷한 분포 로 누락된 데이터를 의미한다. 이 경우 통계적으 로 누락 패턴을 파악해 볼 수 있다. 이러한 형태의 결측치는 분석에 크게 영향을 주지 않지만 실제로 MCAR인 경우는 거의 없다. 2. 무작위 결측(MAR) 무작위 결측(MAR: Missing At Random)은 어떤 특 정 변수에 대하여 데이터가 누락되는 경우를 의미 하며, 결측값의 경우가 자료 내의 다른 변수와 관 련이 있다. 다만, 그 변수의 값과는 관계가 없다. 예를 들어, 설문 대상자가 뒷면이 있는지 모르고 설문을 진행하여 특정 변수들에 국한되어 누락된 경우가 해당한다. 3. 비무작위 결측(MNAR) 비무작위 결측(MNAR: Missing Not At Random)의 경우는 누락되는 부분들이 무작위로 누락되는 것 이 아닌 누락된 변수의 값이 누락된 이유와 관련이 있는 경우이다. 대부분의 결측 데이터는 MNAR인 경우가 많다. 예를 들어, 시계열 데이터의 경우 측 정 센서의 고장이나 네트워크 통신 문제 등으로 누 락되는 경우는 변수의 값이 누락된 이유와 관련 있 기 때문에 MNAR에 해당한다. 결측치 데이터 종류 중에서 (1) MCAR와 (2) MAR의 경우는 무작위로 누락되어 있는 경우이 기 때문에 결측값을 제거한 데이터를 이용하여 분석을 진행하는 것이 좋다. 반면, (3) MNAR의 경우는 결측값의 발생이 무분별하기 때문에 결측 값이 있는 데이터를 제거하고 분석을 진행할 경 우, 모델이 편향적으로 학습될 수 있기 때문에 일 반화된 모델을 설계하는 것에 어려움이 존재한다. 따라서 이의 경우에는 단순한 결측치 제거가 아닌 상황에 맞는 결측치 보간 및 처리 방법이 매우 중요 하다.



※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.

List of Articles
번호 분류 제목 K-데이터 판매자
K데이터 무통장 입금을 통한 충전 방법
2209 성장동력산업 [기업분석] 현대일렉트릭 미국과 중동 해외에서 불어오는 훈풍 1도토리 장민환
2208 성장동력산업 [산업분석] 오락 - 중소형 드라마 에이스토리, 삼화네트웍스 실적 발표 1도토리 노민우
2207 성장동력산업 [산업분석] 철강-철광석 가격은 결국 수급이 결정한다 1도토리 강정훈
2206 성장동력산업 클라우드 활용 제조업 디지털 트랜스포메이션 전략 7도토리 조정희
2205 성장동력산업 해외 배터리 공급망의 변화가 불러온 기회 및 과업 3도토리 국준아
2204 성장동력산업 2021 주요 통상국들의 수입구조 변화와 한국 수출 경쟁력 검토 3도토리 류지원
2203 성장동력산업 수출이 국민경제에 끼친 기여 효과 검토 3도토리 조정희
2202 성장동력산업 미국의 테이퍼링이 신흥국 경제 및 한국의 수출에 미치는 영향 3도토리 조정희
2201 성장동력산업 韓·中 수교 30주년 통상구조 변화 및 시사점 3도토리 조정희
2200 성장동력산업 中 진출 韓 기업들의 최근 경영 환경 전망 및 시사점 3도토리 조정희
2199 성장동력산업 필(必)환경 ESG 시대, 패션산업 친환경 트렌드와 시사점 1도토리 나혜선
2198 성장동력산업 中 탄소중립 정책 및 시사점 7도토리 나혜선
2197 성장동력산업 CES 2022를 통해 본 COVID-19 공존시대 혁신 트렌드 1도토리 류지원
» 성장동력산업 시계열 데이터 결측치 처리 기술 동향 1도토리 조정희
2195 성장동력산업 경계없는 세상과 사용자 인증기술 동향 1도토리 조정희
2194 성장동력산업 해외 우정기관의 친환경 차량 운영 동향 1도토리 나혜선
2193 성장동력산업 다이아몬드 모형을 적용한 우리나라 ICT 소재, 부품, 장비 산업의 경쟁력 강화 방향 1도토리 나혜선
2192 성장동력산업 산업용 계측 기술 동향 1도토리 나혜선
2191 성장동력산업 실내 가상 경기를 위한 햅틱 AR 스포츠 기술 1도토리 류지원
2190 성장동력산업 MBMS 기반 지상파 방송 기술 동향 1도토리 류지원