728x90
반응형
VQA(Visual Question Answering)
- 이미지와 그 이미지에 대한 질문이 주어졌을 때, 해당 질문에 맞는 올바른 답변을 하는 임무(task)임
- 이미지와 이미지에 대한 자연어 질문을 입력으로 받아 자연스러운 언어 응답을 출력으로 생성하는 알고리즘
예를 들어, 이전 이미지에 대한 질문을 봅시다. 최소한 두 가지 이유로 NLP가 필요합니다. 질문을 이해하고 대답을 생성해야합니다. 이것들은 NLP에서 잘 연구 된 텍스트 기반 Q & A의 일반적인 문제입니다. 주어진 다음 문장 :
파리에는 몇 개의 다리가 있습니까?
NLP Q & A 시스템은 일반적으로 다음과 같이 진행됩니다.
-
질문을 분류하거나 입력하십시오 : 이것은 "얼마나 많은"질문입니까, 응답은 숫자 여야합니다.
-
계산할 개체를 추출합니다 : 다리 .
-
카운트를 수행해야하는 컨텍스트 (이 경우 파리 의 도시)를 추출합니다 .
질문이 분석 된 후 시스템은 일종의 쿼리를 작성하고 지식 기반을 사용하여 대답을 얻습니다.
VQA 시스템은 이미지 컨텐츠에 대한 추론뿐만 아니라 광범위한 NLP 및 CV 작업을 해결할 수 있어야합니다.
*NLP : 자연어 처리
*CV : 컴퓨터 비전
전통적인 VQA는 언어모델과 같이 학습한 데이터를 기반으로 분석 또는 예측을 진행하기 때문에 추가적인 지식에 대한 정보가 부족하여 세계 지식을 필요로 하는 질문에 답변하는 것은 다루어진 적이 없음
- 최근에는 상식적 지식(Commonsense Knowledge)를 사용해야만 문제를 풀 수 있는 VQA가 더 관심을 받고 있음 실생활에서의 문제는 간단하지 않고 이미지에 존재하는 고유명사(named entities)에 대한 정보를 필요로 하는 경우가 많기 때문에 knowledge-aware Visual Quesiton Answering(KVQA)[32]이 제안됨
-KVQA 데이터 셋은 Wikidata를 기반으로 구축한 knowledge graph로부터 필요한 데이터를 추출함 데이터 셋에는 24,602개의 이미지에 포함된 18,880명의 사람에 대한 183,007개의 질문-답변 쌍이 포함됨

Teach Machine to Comprehend Text and Answer Question with Tensorflow - Part I
Architecture
Layer
https://www.kistep.re.kr/reportDetail.es?mid=a10305040000&rpt_tp=831-005&rpt_no=RES0220230075
R&D 투자 의사결정 지원을 위한 인공지능 기반 지능형 분석 모델 개발 시범 연구 | 사업조정 | 연
KISTEP 한국과학기술기획평가원
www.kistep.re.kr
728x90
'07.AI' 카테고리의 다른 글
생성형 AI - LLaMa - LlamaCloud, LlamaParse (0) | 2024.03.08 |
---|---|
딥러닝 - 스파이킹 뉴럴 네트워크(Spiking Neural Networks: SNN) (0) | 2024.03.07 |
생성형 AI - LLaMa - Ollama (0) | 2024.02.20 |
생성형 AI - 인공지능 챗봇(ChatGPT) - 메모리 및 새로운 제어 기능 추가 (0) | 2024.02.15 |
JTC 1/SC 42, AI 관리 시스템 표준(ISO/IEC 42001) (0) | 2024.02.10 |