Reconnaissance multimodale de l’affect par apprentissage profond

Loading...
Thumbnail Image

Journal Title

Journal ISSN

Volume Title

Publisher

University of Tlemcen

Abstract

La reconnaissance automatique de l’affect est un domaine de recherche crucial visant à amé liorer l’intelligence artificielle afin qu’elle puisse identifier de manière précise et automatique les états affectifs des humains. La complexité de ce domaine réside dans la diversité des expressions affectives, qui se manifestent à travers différents canaux, notamment les modalités physiques et physiologiques. Des études récentes indiquent que l’approche consistant à fusionner différentes modalités permet d’obtenir des résultats plus fiables et de mener à une analyse plus approfondie et complète de ces états affectifs. L’objectif principal de cette thèse est le développement de méthodes de reconnaissance automatique des émotions et du stress en exploitant deux modalités distinctes : les expressions faciales et le signal iPPG (Photopléthysmographie par imagerie). Les expressions faciales, modalité non verbale aisément acquise, offrent une représentation externe de l’état affectif des individus. D’autre part, le signal iPPG est utilisé comme mesure physiologique qui reflète les changements du rythme cardiaque avec l’état affectif. La fusion de ces deux modalités permet d’intégrer différentes caractéristiques propres à chaque modalité, ce qui représente l’avantage majeur de l’approche multimodale. Nos recherches se concentrent sur trois axes. En premier, nous avons proposé une nouvelle approche d’étude basée sur la classification des émotions humaines selon deux échelles, valence et arousal, en utilisant des signaux iPPG extraits de vidéos faciales. La mise en œuvre de cette méthode implique plusieurs étapes, telles que la collecte précise des signaux iPPG, leur prétraitement, et enfin la classification. En ce qui concerne la classification, nous avons proposé une architecture d’apprentissage profond combinant un réseau neuronal convolutif unidimensionnel 1D-CNN et un réseau de neurones mémoire à long terme LSTM. Le deuxième axe est concentré sur la reconnaissance automatique des émotions à partir des expressions faciales. Notre objectif était d’obtenir une classification précise des sept émotions de base, en tenant compte des différentes positions de tête, des regards variés, de l’âge et du sexe. Cette méthode est basée sur deux étapes importantes : le prétraitement des images, qui vise à conserver et clarifier les caractéristiques pertinentes de nos images, et classification par proposition d’une architecture d’apprentissage profond 2D-CNN. Le troisième axe de cette thèse concerne la conception d’un système multimodal de reconnaissance automatique du stress, s’appuyant sur les expressions faciales et les signaux iPPG. Une architecture 3D-CNN est proposée pour la classification en utilisant les données des expressions faciales, tandis qu’une architecture 1D-CNN est utilisée avec les signaux iPPG. Après l’extraction des caractéristiques de chaque modalité, une fusion de ces caractéristiques est appliquée, suivie de l’utilisation de couches entièrement connectées du réseau neuronal pour la classification des états de stress ou de non-stress. Les résultats que nous avons obtenus démontrent la puissance et l’efficacité des méthodes que nous proposons. Nous avons atteint une précision de classification de 73,33 % pour la valence à l’aide des signaux iPPG et de 96,55 % pour les expressions faciales dans différentes poses de la tête. Lesquelles surpassent celles des autres approches récemment proposées par différents chercheurs. De plus, nous avons démontré l’efficacité de la performance de l’approche multimodale par rapport à l’approche unimodale, atteignant une précision de validation de 100%.

Description

Citation