Thales : Expliquer l’impact des graphes de connaissances dans les systèmes VQA

La réponse visuelle aux questions (Visual Question Answering VQA [1]) a été introduite pour combler le fossé entre le traitement du langage naturel et les applications de compréhension des images dans l’espace commun de la vision et du langage. La plupart des benchmarks VQA calculent une représentation de la question en utilisant des techniques d’intégration de mots et des réseaux neuronaux récurrents (RNN), ainsi qu’un ensemble de descripteurs d’objets comprenant des coordonnées de boîtes englobantes et des vecteurs de caractéristiques d’images. Les représentations des mots et des images sont ensuite fusionnées et transmises à un réseau pour former un modèle VQA. Toutefois, ces approches ne sont d’aucune utilité lorsque des connaissances allant au-delà du contenu visuel sont nécessaires. L’intégration des connaissances externes présente plusieurs avantages. Les connaissances externes et les faits à l’appui peuvent améliorer la représentation relationnelle entre les objets détectés dans l’image, ou entre les entités en question et les objets dans l’image. Elles fournissent également des informations sur la manière dont la réponse peut être obtenue à partir de la question. Par conséquent, la complexité des questions peut être augmentée selon la base de connaissances de support.

Faculty Supervisor:

Christian Gagné;Pascal Germain

Student:

Partner:

Thales Canada Inc (Montreal, QC)

Discipline:

Computer science

Sector:

Management of companies and enterprises; Manufacturing; Professional, scientific and technical services

University:

Université Laval

Program: