728x90
반응형
(개념) 텍스트, 오디오, 이미지, 비디오 등 다양한 데이터 유형을 통합해 처리하고 분석할 수 있는 AI 기술
(특징) 텍스트 기반 입력으로 이미지 기반 출력을 생성하거나, 이미지 데이터와 오디오 데이터를 결합해 새로운 이미지 데이터를 생성하는 등 입력과 출력의 데이터 양식이 다양
이기종 데이터들을 각각의 양식, 모달리티(Modality)라고 하는데,
멀티모달 AI에서 모달리티 연결은
모달리티가 어떻게 관련돼 있고 공통점을 공유하는지 명하는데 중요한 특성이다.
모달리티 간 연관된 정보가 통계적, 의미적 측면에서 공유되고 연결 및 고려되는 모습을 보여준다. 통계적 데이터 중심 관점에서의 연결은 다중모달 데이터 분포 패턴에서 식별된다. 반면, 의미적 접근방식은 모달리티가 고유한 정보를 공유하고 포함하는 방식에 대한 도메인 지식을 기반으로, 연결을 정의하고 있다.
따라서, 다양한 모달리티 정보 간 의미적 접근 방식을 기반으로, 멀티모달 AI 모델이 다양한 유형의데이터를 입력 및 처리하는 메커니즘을 고려해, 멀티모달 데이터의 품질특성을 정의할 수 있다.
http://weekly.tta.or.kr/weekly/files/20240509080557_weekly.pdf
728x90
'07.AI' 카테고리의 다른 글
LLM - 시각-추론 모델 QVQ (Qwen, QVQ-72B-Preview) (1) | 2025.08.04 |
---|---|
인공지능 - 위험 관리 - AI 안전 기술 동향과 향후 과제 (D) (0) | 2025.08.02 |
LLM - 딥시크 (DeepSeek) (4) | 2025.07.31 |
머신러닝 - 파인튜닝(fine-tuning) (4) | 2025.07.31 |
LLM - 성능 - 모델 최적화 - '테스트 타임 스케일링(test-time scaling)' 기법의 역설 (2) | 2025.07.30 |