Réponse visuelle aux questions(VQA) à l’aide de réseaux neuronaux récurrents et de réseaux neuronaux convolutifs
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
University of Tlemcen
Abstract
Ce travail de fin d’études porte sur la conception et l’évaluation d’un système de Visual
Question Answering (VQA), une tâche multimodale combinant vision par ordinateur et
traitement du langage naturel. L’objectif est de permettre à un modèle d’apprentissage
profond de répondre à des questions en langage naturel à partir d’images contenant des
informations complexes. Pour cela, une architecture bimodale a été proposée, combinant
un réseau de neurones convolutifs (CNN) pour le traitement des images, et un réseau
LSTM pour l’analyse des questions textuelles.
Trois architectures CNN ont été testées : ResNet18, MobileNetV2, et EfficientNet B0/B1, en utilisant le jeu de données CLEVR. Les performances ont été évaluées à l’aide
de métriques telles que la précision, la fonction de perte, les courbes d’apprentissage et
les matrices de confusion. Les résultats ont montré des performances comparables entre
les modèles, avec un léger avantage pour ResNet18 en termes de précision.
Ce travail contribue au développement des systèmes VQA et ouvre la voie à l’utilisation
de modèles plus avancés pour améliorer les performances dans les tâches multimodales.