728x90
반응형
VQA(Visual Question Answering)
- 이미지와 그 이미지에 대한 질문이 주어졌을 때, 해당 질문에 맞는 올바른 답변을 하는 임무(task)임
- 이미지와 이미지에 대한 자연어 질문을 입력으로 받아 자연스러운 언어 응답을 출력으로 생성하는 알고리즘
 
예를 들어, 이전 이미지에 대한 질문을 봅시다. 최소한 두 가지 이유로 NLP가 필요합니다. 질문을 이해하고 대답을 생성해야합니다. 이것들은 NLP에서 잘 연구 된 텍스트 기반 Q & A의 일반적인 문제입니다. 주어진 다음 문장 :
 
 파리에는 몇 개의 다리가 있습니까?
 
NLP Q & A 시스템은 일반적으로 다음과 같이 진행됩니다.
  • 질문을 분류하거나 입력하십시오 : 이것은 "얼마나 많은"질문입니까, 응답은 숫자 여야합니다.
  • 계산할 개체를 추출합니다 : 다리 .
  • 카운트를 수행해야하는 컨텍스트 (이 경우 파리 의 도시)를 추출합니다 .
질문이 분석 된 후 시스템은 일종의 쿼리를 작성하고 지식 기반을 사용하여 대답을 얻습니다.
 
VQA 시스템은 이미지 컨텐츠에 대한 추론뿐만 아니라 광범위한 NLP 및 CV 작업을 해결할 수 있어야합니다.
*NLP : 자연어 처리
*CV : 컴퓨터 비전

 

전통적인 VQA는 언어모델과 같이 학습한 데이터를 기반으로 분석 또는 예측을 진행하기 때문에 추가적인 지식에 대한 정보가 부족하여 세계 지식을 필요로 하는 질문에 답변하는 것은 다루어진 적이 없음

- 최근에는 상식적 지식(Commonsense Knowledge)를 사용해야만 문제를 풀 수 있는 VQA가 더 관심을 받고 있음 실생활에서의 문제는 간단하지 않고 이미지에 존재하는 고유명사(named entities)에 대한 정보를 필요로 하는 경우가 많기 때문에 knowledge-aware Visual Quesiton Answering(KVQA)[32]이 제안됨

 

-KVQA 데이터 셋은 Wikidata를 기반으로 구축한 knowledge graph로부터 필요한 데이터를 추출함 데이터 셋에는 24,602개의 이미지에 포함된 18,880명의 사람에 대한 183,007개의 질문-답변 쌍이 포함됨

 

VQA 접근법의 단순화 된 체계

 

그리드를 사용하여 주의력 통합

 

가장자리 상자를 사용하여 제안 된 영역의 예

 

KVQA 예시
Teach Machine to Comprehend Text and Answer Question with Tensorflow - Part I

Architecture

Layer

 

https://www.kistep.re.kr/reportDetail.es?mid=a10305040000&rpt_tp=831-005&rpt_no=RES0220230075

 

R&D 투자 의사결정 지원을 위한 인공지능 기반 지능형 분석 모델 개발 시범 연구 | 사업조정 | 연

KISTEP 한국과학기술기획평가원

www.kistep.re.kr

 

728x90
Posted by Mr. Slumber
,