(개념) 텍스트와 이미지를 동시에 처리하여 시각적 추론 능력을 대폭 강화한 혁신적인 모델
QVQ의 주요 특징
- 시각적 추론 강화
QVQ는 텍스트와 이미지를 통합하여 복잡한 문제를 해결하는 데 중점을 두고 설계되었습니다.- 이미지 인식, 데이터 분석, 문서 처리 등 다양한 작업에서 뛰어난 성능을 발휘합니다.
- 오픈 소스 제공
알리바바는 QVQ를 오픈 소스로 공개하여, 전 세계 개발자들이 이 모델을 활용하고 발전시킬 기회를 제공합니다.
이는 AI 생태계의 활성화와 기술 발전에 크게 기여할 것으로 보입니다. - 고성능 벤치마크 결과
- MMMU 벤치마크: 대학 수준의 시각적 이해 평가에서 70.3점을 기록.
- MathVista: 수학 문제 해결 벤치마크에서 71.4점으로 최고 성능 달성.
- 이는 기존 모델 'Qwen2-VL' 대비 큰 발전을 보여줍니다.
- 계층적 구조 및 정렬 메커니즘
QVQ는 고급 트랜스포머 아키텍처를 기반으로 텍스트와 이미지 데이터를 정확히 정렬하며 문맥을 유지합니다.- 다단계 시각 추론에서도 효율적인 결과를 제공합니다.
- 다양한 응용 분야
QVQ는 다음과 같은 분야에서 활용 가능성이 큽니다.- 문서 분석 및 요약
- 데이터 시각화 및 설명
- 산업 현장에서의 시각적 문제 해결
모델의 한계와 발전 가능성
- QVQ는 일부 테스트에서 여전히 오픈AI 'o1'(77.3점) 및 앤트로픽 '클로드 3.5 소네트'(70.4점)에 비해 성능이 낮은 점수를 기록했습니다.
- 연구팀은 특정 상황에서의 혼합 언어 문제와 환각 현상 가능성을 개선해야 한다고 밝혔습니다.
M2 64GB 랩톱에서 QVQ-72B-Preview-4bit 모델을 실행하여 이미지를 분석하는 방법을 설명함
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg 명령어를 사용함
결과:https://simonwillison.net/2024/Dec/24/qvq/#with-mlx-vlm
출처: https://news.hada.io/topic?id=18441
https://qwenlm.github.io/blog/qwen2.5-coder-family/
Qwen2.5-Coder Series: Powerful, Diverse, Practical.
GITHUB HUGGING FACE MODELSCOPE KAGGLE DEMO DISCORD Introduction Today, we are excited to open source the “Powerful”, “Diverse”, and “Practical” Qwen2.5-Coder series, dedicated to continuously promoting the development of Open CodeLLMs. Powerful
qwenlm.github.io
https://qwenlm.github.io/blog/qvq-72b-preview/
QVQ: To See the World with Wisdom
GITHUB HUGGING FACE MODELSCOPE KAGGLE DEMO DISCORD Language and vision intertwine in the human mind, shaping how we perceive and understand the world around us. Our ability to reason is deeply rooted in both linguistic thought and visual memory - but what
qwenlm.github.io
'07.AI' 카테고리의 다른 글
LLM - Open AI, GPT-OSS (5) | 2025.08.16 |
---|---|
LLM - 시각-언어 모델(Vision Language Model: VLM) (0) | 2025.08.04 |
인공지능 - 위험 관리 - AI 안전 기술 동향과 향후 과제 (D) (0) | 2025.08.02 |
LLM - 멀티모달 AI (1) | 2025.08.01 |
LLM - 딥시크 (DeepSeek) (4) | 2025.07.31 |