Réponse visuelle aux questions(VQA) à l’aide de réseaux neuronaux récurrents et de réseaux neuronaux convolutifs

dc.contributor.authorTahraoui, Nour El Houda
dc.date.accessioned2025-11-10T09:21:35Z
dc.date.available2025-11-10T09:21:35Z
dc.date.issued2025-06-30
dc.description.abstractCe travail de fin d’études porte sur la conception et l’évaluation d’un système de Visual Question Answering (VQA), une tâche multimodale combinant vision par ordinateur et traitement du langage naturel. L’objectif est de permettre à un modèle d’apprentissage profond de répondre à des questions en langage naturel à partir d’images contenant des informations complexes. Pour cela, une architecture bimodale a été proposée, combinant un réseau de neurones convolutifs (CNN) pour le traitement des images, et un réseau LSTM pour l’analyse des questions textuelles. Trois architectures CNN ont été testées : ResNet18, MobileNetV2, et EfficientNet B0/B1, en utilisant le jeu de données CLEVR. Les performances ont été évaluées à l’aide de métriques telles que la précision, la fonction de perte, les courbes d’apprentissage et les matrices de confusion. Les résultats ont montré des performances comparables entre les modèles, avec un léger avantage pour ResNet18 en termes de précision. Ce travail contribue au développement des systèmes VQA et ouvre la voie à l’utilisation de modèles plus avancés pour améliorer les performances dans les tâches multimodales.
dc.identifier.urihttps://dspace.univ-tlemcen.dz/handle/112/25213
dc.language.isofr
dc.publisherUniversity of Tlemcen
dc.subjectVisual Question Answering
dc.subjectapprentissage profond
dc.subjectréseaux convolutifs (CNN)
dc.subjectLSTM
dc.subjectfusion multimodale
dc.subjectCLEVR.
dc.titleRéponse visuelle aux questions(VQA) à l’aide de réseaux neuronaux récurrents et de réseaux neuronaux convolutifs
dc.typeThesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
version final VQA.pdf
Size:
2.65 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections