07.AI
LLM - 시각-언어 모델(Vision Language Model: VLM)
Mr. Slumber
2025. 8. 4. 11:28
728x90
반응형
(개념) 시각 인코더를 거대 언어 모델(Large Language Model: LLM)에 결합하여 시각적 입력을 이해하고 텍스트로 응답할수 있도록 설계된 멀티모델 인공지능 시스템





[시각적 장기 맥락을 지원하는 대표 시각-언어 모델 구조도]
(a) LongVLM
(b) MovieChat
(c) AKS





https://www.nvidia.com/en-us/on-demand/session/gtc24-s62384/
728x90