Veuillez utiliser cette adresse pour citer ce document : http://dspace1.univ-tlemcen.dz/handle/112/12647
Titre: Traitement des données biologiques par les méthodes ensemblistes.
Auteur(s): Saidi, Meryem
Mots-clés: Sélection d’instances, méthodes ensembliste, forêt aléatoire, marge ensembliste, reconnaissance automatique des globules blancs, images cytologique.
Instances selection, Ensemble methods, Random Forest, Ensemble margin, automatic recognition of white blood cells, cytological images.
Date de publication: 1-mar-2018
Editeur: 19-03-2018
Référence bibliographique: salle des théses.
Résumé: Le développement des modèles de classification est l’une des principales tâches dans le domaine de data mining. Toutefois, le volume élevé de données générées par différents domaines de recherche, allant du séquençage du génome humain, qui permet d’obtenir des niveaux d’expressions de plusieurs milliers de gènes, aux millions d’informations circulant sur internet rend l’utilisation des méthodes d’apprentissage automatique un vrai défi. D’où la nécessité d’une étape de prétraitement afin de préparer la base aux algorithmes d’apprentissage. L’induction d’un modèle de classification pour le diagnostic avec autant d’instances et de variables est un défi majeur dans le domaine de l’apprentissage statistique. D’où la nécessité de réduire ce nombre. Parmi les processus de prétraitements applicables sur une base, nous trouvons les méthodes de réduction : les algorithmes de sélection d’instances et de variables. Le sujet de cette thèse est orienté vers la recherche de méthodes efficaces de traitements des données médicales et biologiques. Nous nous sommes principalement intéressés à l’application d’une méthode de sélection d’instances pour nettoyer et réduire la base d’apprentissage avant la conception du classifieur. Au cours de nos recherches, nous avons pu étudier les différentes approches existantes ainsi que leur avantages et limitations. Nous nous sommes intéressés aux méthodes ensemblistes afin de pallier les problèmes rencontrés par les méthodes de sélection classiques. Les méthodes ensemblistes sont un ensemble d’algorithmes qui s’inspire du principe « l’union fait la force », en effet ces méthodes combinent les décisions individuelles de plusieurs algorithmes de classification faibles afin d’améliorer leurs performances pour classer de nouveaux exemples. Donc si on décide «à la majorité», alors on se trompe si et seulement si plus de la moitié du «comité» se trompe. En effet, la décision prise en groupe ne peut être fausse que si la majorité du groupe se trompe. Ceci rend les individus sur lesquels les classifieurs sont le plus en désaccord, les plus intéressants à traiter au cours de la sélection d’instance. Un algorithme de sélection d’instances basé sur les algorithmes ensemblistes et notamment sur l’algorithme Forêt aléatoire a été implémenté. Nous avons testé notre proposition sur plusieurs problèmes de classification de UCI Machine Learning Repository ainsi que sur une base d’image cytologique afin d’optimiser la segmentation automatique de globules blancs. Les résultats obtenus démontrent que notre proposition est aussi performante que les méthodes existantes tout en étant moins coûteuse.
URI/URL: http://dspace.univ-tlemcen.dz/handle/112/12647
Collection(s) :Doctorat LMD RSD

Fichier(s) constituant ce document :
Fichier Description TailleFormat 
Traitement-des-donnees-biologiques.pdfCD5,73 MBAdobe PDFVoir/Ouvrir


Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.