LLM - 시각-언어 모델(Vision Language Model: VLM)

07.AI

Mr. Slumber 2025. 8. 4. 11:28

728x90

(개념) 시각 인코더를 거대 언어 모델(Large Language Model: LLM)에 결합하여 시각적 입력을 이해하고 텍스트로 응답할수 있도록 설계된 멀티모델 인공지능 시스템

[시각적 장기 맥락을 지원하는 대표 시각-언어 모델 구조도]

(a) LongVLM

(b) MovieChat

728x90