Traitement des données biologiques par les méthodes ensemblistes.
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
University of Tlemcen
Abstract
Le développement des modèles de classification est l’une des principales tâches
dans le domaine de data mining. Toutefois, le volume élevé de données générées
par différents domaines de recherche, allant du séquençage du génome humain,
qui permet d’obtenir des niveaux d’expressions de plusieurs milliers de gènes,
aux millions d’informations circulant sur internet rend l’utilisation des méthodes
d’apprentissage automatique un vrai défi. D’où la nécessité d’une étape de prétraitement
afin de préparer la base aux algorithmes d’apprentissage.
L’induction d’un modèle de classification pour le diagnostic avec autant d’instances
et de variables est un défi majeur dans le domaine de l’apprentissage statistique.
D’où la nécessité de réduire ce nombre. Parmi les processus de prétraitements
applicables sur une base, nous trouvons les méthodes de réduction : les
algorithmes de sélection d’instances et de variables.
Le sujet de cette thèse est orienté vers la recherche de méthodes efficaces de
traitements des données médicales et biologiques. Nous nous sommes principalement
intéressés à l’application d’une méthode de sélection d’instances pour nettoyer
et réduire la base d’apprentissage avant la conception du classifieur.
Au cours de nos recherches, nous avons pu étudier les différentes approches
existantes ainsi que leur avantages et limitations. Nous nous sommes intéressés
aux méthodes ensemblistes afin de pallier les problèmes rencontrés par les méthodes
de sélection classiques. Les méthodes ensemblistes sont un ensemble d’algorithmes
qui s’inspire du principe « l’union fait la force », en effet ces méthodes
combinent les décisions individuelles de plusieurs algorithmes de classification
faibles afin d’améliorer leurs performances pour classer de nouveaux exemples.
Donc si on décide «à la majorité», alors on se trompe si et seulement si plus
de la moitié du «comité» se trompe. En effet, la décision prise en groupe ne peut
être fausse que si la majorité du groupe se trompe. Ceci rend les individus sur
lesquels les classifieurs sont le plus en désaccord, les plus intéressants à traiter au
cours de la sélection d’instance.
Un algorithme de sélection d’instances basé sur les algorithmes ensemblistes
et notamment sur l’algorithme Forêt aléatoire a été implémenté. Nous avons testé
notre proposition sur plusieurs problèmes de classification de UCI Machine Learning
Repository ainsi que sur une base d’image cytologique afin d’optimiser la
segmentation automatique de globules blancs. Les résultats obtenus démontrent
que notre proposition est aussi performante que les méthodes existantes tout en
étant moins coûteuse.
Description
Citation
salle des théses.