1. 머리말 영상, 음성, 언어 데이터 등을 딥러닝 기술을 바탕으로 처리하는 인공지능(AI)이 여러 분야에서 활용되고 있다. 활용 효과는 적용 분야에 따라 논란이 있지만 앞으로 더욱 많은 분야에서 더욱 많이 활용되라는 점에는 이견이 없는 듯하다. 이에 따라 AI의 보안과 신뢰성, 역기능에 대한 관심이 고조되고 있다. AI의 보안은 AI기술을 활용해 악성코드탐지, 침입탐지 같은 기존의 보안 문제를 해결하는 ‘AI 를 이용한 보안(AI for security)’과 시스템 보안이나 소프트웨어 보안과 별개로 AI 모델이 갖는 별도의 취약점을 방어하기 위한 ‘AI를 위한 보안(security for AI)’으로 나눌 수 있다. AI의 신뢰성 분야는 특정 데이터 집합으로 학습된 AI가 도메인이나 시점 등이 다른 데이터 환경에서 성능을 유지하는 문제와, AI의 판단 이유를 분석하여 AI 오동작 등의 원인을 파악하기 위한 설명가능한 AI(XAI, eXplainable AI)를 포함한다. AI의 역기능에는 딥페이크와 같이 AI를 이용해 사람을 속이는 문제와, 학습데이터 편향에 의한 인종차별과 같은 AI 오동작 등이 포함된다. 한편, 자율주행 자동차의 오동작 같은 문제는 AI 안전성(Safety) 분야에서 따로 다뤄지고 있다. 프라이버시 이슈는 AI의 역기능 중에 하나지만, 따로 더 세분화할 필요가 있는 중요한 이슈다. 우선 AI 학습에 사용되는 데이터는 많은 경우 개인의 민감정보를 담고 있다. 프라이버시 보호를 위해 비식별 처리를 하면 AI 학습을 위한 데이터로서의 유용성이 크게 감소한다. 또 이미지와 영상, 생체 신호 등의 비정형 데이터는 개인이 식별되는 유형이 매우 다양하여 비식별화하는 방법이 확립되어 있지 않은 실정이다. 한편, 학습이 완료된 AI에서 학습데이터를 추출하거나, 특정인이 학습데이터에 포함되어 있는지를 판단하는 것이 가능하여 또 다른 프라이버시 문제가 되고 있다. AI 스피커 등 AI 기기를 통해 개인정보가 수집, 유출되는 경우도 있어 다양한 고려가 필요하다. 본고에서는 AI를 위한 보안과 AI 학습데이터 프라이버시 이슈를 중점적으로 살펴본다. 2. AI를 위한 보안 2.1 AI에 대한 적대적 공격 AI 모델이 구동되는 OS 등 시스템 보안과 소프트웨어 보안과 별개로 AI 모델은 고유의 보안 취약점을 갖고 있다. 2014년 AI 모델에 대한 기만공격이 알려진 이래 공격자 측면에서 여러 Ⅰ 기술표준이슈 ----• ICT Standard Weekly 제1079호 • --------------------------------------------------------------- 2 가지 공격이 가능하다는 것이 연구되어 왔다. AI 모델에 대한 공격은 AI의 학습단계와 활용단계에 따라 나눌 수 있는데, 학습단계에서는 학습데이터에 오염데이터를 주입하여 모델의 정확도를 떨어뜨리는 오염 공격과 특정 패턴을 포함한 이미지를 특정 클래스로 분류하는 백도어 공격이 가능하다. 학습된 AI 모델을 활용하는 단계에서는 데이터를 변조하여 모델의 오분류를 유도하는 기만 공격, 학습에 사용된 데이터 복원이나 멤버십 추론, 모델 복제 등의 공격이 가능하다. 오염 공격(Poisoning attack)은 학습데이터 중 개 사진에 고양이 레이블을 붙이는 것 같은 오염데이터를 포함하여 학습된 모델의 정확도를 떨어뜨리는 공격이다. 공격자의 목표는 최소한의 오염데이터 비율로 최대한 정확도 저하를 유도하는 것이다. 오염 공격이 발생하는 시나리오는 세 가지 정도가 알려져 있다. 첫째, 아웃소싱을 통해 학습데이터를 구축하거나 AI 모델을 개발할 때 오염데이터를 주입하는 경우이다. 둘째, 이미 학습된 모델에 자신의 학습데이터를 추가하여 일종의 커스터마이징을 수행하는 전이학습(transfer learning)에서 사용되는 스승모델을 오염데이터로 학습시켜 배포할 수 있다. 셋째, 분산된 클라이언트가 로컬모델을 학습한 후 가중치(weights) 집합 등 학습 파라미터를 중앙 서버로 전송하여 글로벌 모델을 만드는 연합학습에서, 특정 클라이언트가 오염데이터를 학습하여 생성된 파라미터를 서버로 전송하는 경우이다. 백도어 공격(backdoor attack)은 학습데이터에 트리거(trigger)라고 불리는 특정한 패턴을 포함하여 학습하고, 활용단계에서 트리거를 포함한 입력 데이터에 대해 특정 클래스로 분류하도록 하는 공격을 의미한다. 다른 방식으로, 학습데이터에 트리거를 포함하지 않고 모델의 특정 파라미터를 수정하여 트리거가 포함된 입력 데이터에 반응하게 할 수도 있다. 이러한 백도어 공격은 오염 공격과 마찬가지로 아웃소싱 개발이나 전이학습 때 발생할 수 있다. 트리거의 종류는 특정 위치에 특정 패턴을 고정적으로 포함하는 정적(static) 트리거와 객체의 경계선 역영에 특정 색상을 주입하는 식으로 이미지에 따라 트리거가 달라지는 동적(dynamic) 트리거가 있다. 이미지의 밝기를 영역에 따라 달리하거나, 다른 이미지 또는 텍스트와 합성하거나, 이미지를 회전시키거나 형태를 약간 찌그러뜨리는 종류의 트리거도 있다. 사람 얼굴의 경우 특정 악세사리를 착용한 사진이나, 딥페이크 등에 활용되는 이미지 인페이팅(image inpainting) 기술을 활용한 이미지 합성 기법이 사용되기도 한다. [그림 1]은 여러 종류의 트리거의 예시를 보여준다. 정적트리거 동적트리거 생성 이미지 합성 액세서리 이미지 인페인팅 출처: 자체 [그림 1] 여러 가지 백도어 트리거 예시 기만 공격(evasion attack)은 대표적인 활용단계 공격이다. 학습을 마친 AI 모델의 활용단계에 입력되는 데이터를 변조하여 오분류를 유도하는 공격인데, 이때 변조된 데이터를 적대적 예제