이번 포스팅은 FVQA(Fact-based Visual Question Answering)에 대한 논문을 읽고 FVQA에 대해 알아보도록 하겠습니다.
FVQA를 이해하기 위해서는 FVQA의 기본이 되는 VQA를 먼저 알아야 합니다.
VQA(Visual Question Answering)
VQA는 이미지, 질문, 답을 모두 학습시켜 이미지와 이미지에 대한 질문이 주어지면 해당 질문에 알맞은 올바른 답변을 만들어 내는 작업을 말합니다.
그러나 VQA는 대답에 있어 외부 정보가 필요하지 않은 것은 제외됩니다. 다시 말해 상식이나 기본적인 사실 등 생각이 필요한 질문은 제외됩니다.
FVQA(Fact-based Visual Question Answering)
FVQA는 기존 VQA보다 더 깊은 추론을 요구하고, 상식이나 기본적인 사실에 대한 답변을 할 수 있는 VQA라고 생각하시면 됩니다.
FVQA는 지식 기반으로써 주로 외부 Knowledge-bases를 통해 VQA에 비해 좀 더 복잡하고 현실적인 질문을 통해 이미지를 더 깊게 이해할 수 있도록 도와줍니다.
FVQA는 물체 인식과 추론이 합쳐진 것으로 기존 VQA 시스템인 질문과 답변 데이터 세트에 외부 Knowledge-bases를 포함해 확장하는 것입니다.
FVQA를 이해하기 쉽게 아래 그림을 보면서 설명드리겠습니다.
먼저 그림 1을 보면 버스가 있는 사진을 볼 수 있습니다.
VQA로 질문을 하게 되면 버스 번호, 자동차의 수 등 이미지로만 확인할 수 있는 단순한 질문을 하고 답을 합니다.
그러나 FVQA로 질문을 하게 되면 '택시보다 싼 교통수단이 있습니까?'로 질문을 던져 이미지로만 확인할 수 없는 정보(버스가 택시보다 싸다는 것)를 추가적인 상식을 바탕으로 질문에 대한 답을 할 수 있습니다.
그림 2를 보면 주방 사진인 것을 확인할 수 있습니다.
마찬가지로 VQA로 질문을 하게 되면 이미지로 확인할 수 있는 냉장고, 오븐, 서랍 등 단순한 질문에 대한 답을 확인할 수 있습니다.
그러나 FVQA로 질문을 하게 되면 '이미지에서 음식을 차갑게 하는 것은 무엇입니까?'라고 질문을 던져 이미지로 확인할 수 없는 정보(음식을 차갑게 하는 것은 냉장고)를 추가적인 상식을 바탕으로 질문에 대한 답을 할 수 있습니다.
이처럼 FVQA를 사용하면 기존 VQA로 할 수 없는 이미지만 보고 확인할 수 없는 상식을 기반으로 질문에 대한 답을 할 수 있습니다.
FVQA를 사용하면 더 많은 응용분야에 활용될 수 있을 것으로 보입니다.
논문을 읽고 간단하게 리뷰를 해보았어요.
제가 읽고 정리한 것이라 부족한 것이 있을 수도 있어 참고 부탁드릴게요.
종종 논문을 읽고 리뷰해 보도록 해볼게요!
이번 포스팅을 마칠게요 :)
참고 문헌: 'FVQA: Fact-based Visual Question Answering' Peng Wang∗ , Qi Wu∗ , Chunhua Shen, Anthony Dick, Anton van den Hengel
'IT 공부 기록' 카테고리의 다른 글
VMware 1 - VMware에서 Windows 설치하기 및 VMware Network 설정 (0) | 2021.09.28 |
---|---|
IT 기초 1 (1) | 2021.09.27 |
FW, IDS, IPS (1) | 2021.07.23 |
SSL: Self-Supervised Learning (자기 지도 학습) (0) | 2021.01.13 |
인프라란 무엇인가 (0) | 2020.11.09 |