Réponse visuelle aux questions(VQA) à l’aide de réseaux neuronaux récurrents et de réseaux neuronaux convolutifs
| dc.contributor.author | Tahraoui, Nour El Houda | |
| dc.date.accessioned | 2025-11-10T09:21:35Z | |
| dc.date.available | 2025-11-10T09:21:35Z | |
| dc.date.issued | 2025-06-30 | |
| dc.description.abstract | Ce travail de fin d’études porte sur la conception et l’évaluation d’un système de Visual Question Answering (VQA), une tâche multimodale combinant vision par ordinateur et traitement du langage naturel. L’objectif est de permettre à un modèle d’apprentissage profond de répondre à des questions en langage naturel à partir d’images contenant des informations complexes. Pour cela, une architecture bimodale a été proposée, combinant un réseau de neurones convolutifs (CNN) pour le traitement des images, et un réseau LSTM pour l’analyse des questions textuelles. Trois architectures CNN ont été testées : ResNet18, MobileNetV2, et EfficientNet B0/B1, en utilisant le jeu de données CLEVR. Les performances ont été évaluées à l’aide de métriques telles que la précision, la fonction de perte, les courbes d’apprentissage et les matrices de confusion. Les résultats ont montré des performances comparables entre les modèles, avec un léger avantage pour ResNet18 en termes de précision. Ce travail contribue au développement des systèmes VQA et ouvre la voie à l’utilisation de modèles plus avancés pour améliorer les performances dans les tâches multimodales. | |
| dc.identifier.uri | https://dspace.univ-tlemcen.dz/handle/112/25213 | |
| dc.language.iso | fr | |
| dc.publisher | University of Tlemcen | |
| dc.subject | Visual Question Answering | |
| dc.subject | apprentissage profond | |
| dc.subject | réseaux convolutifs (CNN) | |
| dc.subject | LSTM | |
| dc.subject | fusion multimodale | |
| dc.subject | CLEVR. | |
| dc.title | Réponse visuelle aux questions(VQA) à l’aide de réseaux neuronaux récurrents et de réseaux neuronaux convolutifs | |
| dc.type | Thesis |