Veuillez utiliser cette adresse pour citer ce document : http://dspace1.univ-tlemcen.dz/handle/112/10817
Titre: Indexation contrôlée des textes biomédicaux orientée par l’extraction de connaissances.
Auteur(s): SOUIDI, Abdelhakim
Mots-clés: MEDLINE, chi-squared, SVM, Naïve Bayes, MeSH thesaurus, catégorisation de texte, Algorithmes d’apprentissage supervisé.
prétraitement, sélection de descripteurs, sac de mots, Indexation.
Date de publication: 26-mai-2016
Résumé: MEDLINE est la base bibliographique de référence dans le domaine biomédical. Cette dernière connait une croissance explosive dans les dernières années. L’indexation de cette ample base avec le thésaurus MeSH devient de plus en plus une tâche difficile pour un staff qualifié de la US-NLM. La catégorisation de texte (CT) à base des algorithmes d’apprentissage, étudiée dans le contexte d’indexation des références de MEDLINE, est une façon efficace afin d’aider ce groupe d’expert. Les algorithmes d’apprentissage supervisé, comme les SVM et la classification Naïve Bayes appliqués sur la représentation standard (sac de mots, ou en anglais : bag-of-words) affinée par des techniques de prétraitement montre des performances compétitives : une F-Mesure de 59.6% pour le classifieur NB, et F-Mesure de 58% pour les SVM avec des paramètres standards. Cependant, la représentation d’un texte peut engendrer un espace de dimension impressionnant entravant les classifieurs. La sélection de descripteurs est une tâche populaire qui consiste à retrouver les mots représentatifs et éliminent ceux qui ne le sont pas. Nous avons appliqué la méthode de sélection chi-2 (chi-squared) avec les techniques SVM et NB. Cette méthode accomplis des bonnes performances, une F-Mesure de : 62.7% pour les SVM et 65.9% pour le classifieur NB.
URI/URL: http://dspace.univ-tlemcen.dz/handle/112/10817
Collection(s) :Master en Génie Biomedical

Fichier(s) constituant ce document :
Fichier Description TailleFormat 
Ms.EBM.Souidi.pdf2,03 MBAdobe PDFVoir/Ouvrir


Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.