Détection automatique de contenus générés par IA dans les textes français.
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
University of Tlemcen
Abstract
L’évolution rapide des modèles d’intelligence artificielle générative, tels que GPT-4 et LLaMA,
a amplifié les défis liés à la détection de textes générés automatiquement, particulièrement en
langue française. Dans ce contexte, nous avons développé un système de détection automatique
des textes IA « TTDetect » basé sur le modèle CamemBERT, un Transformer pré-entraîné pour
le français, combiné à des analyses heuristiques des caractéristiques linguistiques. Notre
système, intégré dans une interface intuitive avec Streamlit, analyse les structures textuelles et
les similarités sémantiques. TTDetect est évalué sur un corpus de 2000 textes, il atteint un F1-
score de 90.9%. Ensuite, nous avons testé son efficacité sur différents domaines à savoir :
Journalisme , Education , Cybersécurité. Les résultats montrent une efficacité notable, avec un
potentiel d’amélioration via l’intégration de modèles hybrides et l’optimisation pour des textes
paraphrasés