728x90
반응형
(개념) 시각 인코더를 거대 언어 모델(Large Language Model: LLM)에 결합하여 시각적 입력을 이해하고 텍스트로 응답할수 있도록 설계된 멀티모델 인공지능 시스템
[시각적 장기 맥락을 지원하는 대표 시각-언어 모델 구조도]
(a) LongVLM
(b) MovieChat
(c) AKS
https://www.nvidia.com/en-us/on-demand/session/gtc24-s62384/
728x90
'07.AI' 카테고리의 다른 글
RLM - 언어 추론 모델 (LRM; Language Reasoning Model) (5) | 2025.08.16 |
---|---|
LLM - Open AI, GPT-OSS (5) | 2025.08.16 |
LLM - 시각-추론 모델 QVQ (Qwen, QVQ-72B-Preview) (1) | 2025.08.04 |
인공지능 - 위험 관리 - AI 안전 기술 동향과 향후 과제 (D) (0) | 2025.08.02 |
LLM - 멀티모달 AI (1) | 2025.08.01 |