Détection automatique de contenus générés par IA dans les textes français.

Abstract

L’évolution rapide des modèles d’intelligence artificielle générative, tels que GPT-4 et LLaMA, a amplifié les défis liés à la détection de textes générés automatiquement, particulièrement en langue française. Dans ce contexte, nous avons développé un système de détection automatique des textes IA « TTDetect » basé sur le modèle CamemBERT, un Transformer pré-entraîné pour le français, combiné à des analyses heuristiques des caractéristiques linguistiques. Notre système, intégré dans une interface intuitive avec Streamlit, analyse les structures textuelles et les similarités sémantiques. TTDetect est évalué sur un corpus de 2000 textes, il atteint un F1- score de 90.9%. Ensuite, nous avons testé son efficacité sur différents domaines à savoir : Journalisme , Education , Cybersécurité. Les résultats montrent une efficacité notable, avec un potentiel d’amélioration via l’intégration de modèles hybrides et l’optimisation pour des textes paraphrasés

Description

Citation

Collections