Ⅰ. 서론 초거대 신경망[1-6]의 등장으로 영상과 언어 를 포함한 모든 인공지능 활용분야의 인식 성능 이 비약적으로 증가했다. 특히 2018년 OpenAI의 GPT[1] 구조를 시작으로 자연어처리 분야는 무한 한 가능성을 맞이하고 있다. 2021년 기준 인공지 능 기반 자연어처리 모델의 학습 규모는 1.6조[6] 에 육박한다. 이는 매년 10배씩 신경망 구조가 커 지고 있으며, 현재와 같은 추세를 따르면 3년 후 초 거대 신경망은 사람의 시냅스 수에 도달할 것으로 예상되는 정도다(그림 1 참조). 그뿐만 아니라 영상 처리 분야도 초거대 신경망의 구조를 따라가고 있 다. ImageNet 사물 인식 대회의 2021년 기준 상위 3 개의 신경망 모델은 모두 초거대 인공신경망의 핵 심 구조(Transformer)[7]를 차용하면서 인식 성능을 경신하는 중이다[8]. 이제 신경망의 학습 규모와 관계없이 종국엔 높 은 인식 성능으로 잘 학습된 신경망을 만들 수 있 다. 신경망은 더욱 전문적이고 구체적인 대답을 하 게 될 것이다. 하지만 문제는 하드웨어이다. 잘 만 든 신경망이 서비스 수준까지 이어지려면 가능한 한 짧은 학습시간과 빠른 처리속도, 그리고 낮은 메모리사용량이 요구된다. 하지만 이 모든 것을 오 롯이 하드웨어의 발전에만 맡기기에는 개발 시간 과 비용이 많이 든다. 결국 신경망의 경량화 알고 리즘 연구가 같이 수반되어야 진정한 고속/저비용 학습 반도체를 구현할 수 있다. 본고에서는 경량화 알고리즘의 한 종류인 양자 화를 통한 저정밀 데이터 타입 및 학습 기법의 연 구 동향과 이를 지원하는 AI 반도체 연구 동향에 대해 소개한다. Ⅱ. 저정밀도 학습의 배경 1. 신경망에서의 저정밀도 연산 신경망의 경량화 연구는 다양한 방식으로 진행 되고 있다. 신경망의 불필요한 파라미터를 제거하 는 기법(Pruning), 비슷한 정확도를 내면서 보다 소 규모의 신경망 구조로 재학습하는 기법(Knowledge Distillation), 신경망 연산을 저정밀 데이터 타입으 로 수행하는 기법(Quantization) 등이 널리 연구되 고 있다. 이 중에 가령 GPU와 같은 실제 연산 하드 웨어와 직접적으로 연결되는 경량화 기법은 양자 화(Quantization)이다. 일반적으로 신경망의 연산함 수 입출력에 양자화 모듈을 추가하여 데이터의 포 맷을 변환한다. 그리고 전용 연산함수를 호출한 뒤 출력 데이터 타입을 캐스팅하는 방식으로 신경망 에 구현된다(그림 2). 양자화 기법의 전제 조건은 하드웨어에 해당 저 정밀도 데이터 타입으로 연산 가능한 연산기능 이 탑재되어 있어야 한다는 것이다. 또한 이러한 저정밀 데이터 연산기는 기존의 단정밀도(FP32) 연산기보다 월등히 높은 초당 연산량과 낮은 전 력사용량 특성을 가져야 한다. 이에 기반하여, NVIDIA A100 GPU의 Tensor Core는 총 5가지의 저정밀도 데이터 연산기를 탑재하고 있다[9]. 부 동소수점 연산으로 FP16과 BF16을 지원하고, 정 수 연산으로 INT8, INT4, 그리고 Binary 타입을 지원한다. 따라서 양자화 분야를 연구하는 많은