제목 | [산업동향] 대형 멀티모달 모델(LMM) 산업의 현황 보고서 |
---|
분류 | 성장동력산업 | 판매자 | 국준아 | 조회수 | 35 | |
---|---|---|---|---|---|---|
용량 | 17.01MB | 필요한 K-데이터 | 7도토리 |
파일 이름 | 용량 | 잔여일 | 잔여횟수 | 상태 | 다운로드 |
---|---|---|---|---|---|
[산업동향] 대형 멀티모달 모델(LMM) 산업의 현황 보고서.pdf | 17.01MB | - | - | - | 다운로드 |
데이터날짜 : | 2024-10-02 |
---|---|
출처 : | 국책연구원 |
페이지 수 : | 23 |
대형 멀티모달 모델(LMM) 벤치마크 동향 조사
대형 멀티모달 모델(Large Multimodal Model, LMM)은 대형 언어 모델(Large Language Model, LLM)에 시각, 청각 등의
멀티모달 정보를 통합하여 학습한 거대 인공지능 모델을 말한다.
LMM은 LLM의 강력한 언어 이해와 생성 능력을 바탕으로 멀티모달 데이터를 대규모로 학습함으로써 다중감각을 아우르는
이해와 생성 능력을 획득하게 된다.
LMM은 GPT-3, PaLM 등의 LLM처럼 수십억 ~ 수백억 개의 파라미터를 가진 거대 모델로서 방대한 양의 다중감각 결합 데이터를
사전 학습하고 명령어 조정(Instruction Tuning)이나 맥락 내 학습(In-Context Learning) 등의 기법을 통해 활용된다.
LMM은 다중감각 정보를 포함한 데이터를 대상으로 다양한 과업을 수행할 수 있다.
예를 들어, LMM의 대다수를 차지하는 시각-언어모델(VLM: Vision-Language Model)이 수행할 수 있는 과업은 광범위한 분야를
대상으로 한 시각 질의응답(Visual Question Answering), 이미지 캡셔닝(Image Captioning), 비디오 요약(Video Summary),
텍스트 기반 이미지 생성 (Text-to-Image Generation) 등을 포함한다.
최근 주요 대형 언어 모델들이 다양한 멀티모달 데이터를 처리할 수 있도록 확장되고 있다. OpenAI의 GPT- 4V02)와 GPT-4o03), Anthropic의 Claude 304), Google의 Gemini 1.505) 등이 대표적인 예이다.
전반적으로 대형 인공지능 모델의 발전 방향은 멀티모달 모델로 빠르게 옮겨가고 있으며, 다양한 산업 분야에서의 활용 가능성을
크게 높이고 있다.
LMM 연구가 빠르게 발전하면서 다양한 모델들이 쏟아져 나오고 있지만, 정작 이 모델들의 성능을 종합적으로 평가할 수 있는
벤치마크는 부족한 상황이다.
기존의 단순한 이미지 분류나 캡셔닝 데이터셋으로는 LMM의 높은 수준의 시각-언어 이해와 추론 능력을 평가하기에 역부족이다.
또한 각 LMM마다 사전학습에 사용한 데이터가 제각각이라 동일한 조건에서의 공정한 비교가 어려운 문제점도 있다.
새로운 LMM이 기존 모델 대비 어떤 장단점이 있는지, 성능이 실제 응용에 적용 가능한 수준인지 객관적으로 판단하기가
쉽지 않기도 하다.
---------------------------------------------------------------------------------------------------------------------------------------------------------
※ 본 서비스에서 제공되는 각 저작물의 저작권은 자료제공사에 있으며 각 저작물의 견해와 DATA 365와는 견해가 다를 수 있습니다.