728x90
반응형

(개념) 시각 인코더를 거대 언어 모델(Large Language Model: LLM)에 결합하여 시각적 입력을 이해하고 텍스트로 응답할수 있도록 설계된 멀티모델 인공지능 시스템

 

장기 비디오 이해를 위한 시각-언어모델 기술 동향, 주간기술동향 2181호, 2025-07-02

 

https://arxiv.org/pdf/2312.07533

 

https://arxiv.org/pdf/2106.09685

 

[시각적 장기 맥락을 지원하는 대표 시각-언어 모델 구조도]

(a) LongVLM

(b) MovieChat

(c) AKS 

 

 

 

[그림 3] 시간 경계 인지형 추론이 가능한 시각-언어 모델 TimeChat 구조도

 

 

 

https://www.nvidia.com/en-us/on-demand/session/gtc24-s62384/

728x90
Posted by Mr. Slumber
,