Classification Semi-Supervisée des données Médicales.

Settouti, Nesma

Veuillez utiliser cette adresse pour citer ce document : http://dspace1.univ-tlemcen.dz/handle/112/11461

Titre:	Classification Semi-Supervisée des données Médicales.
Auteur(s):	Settouti, Nesma
Mots-clés:	Apprentissage semi-supervisé ; classi cation, méthodes d'ensemble ; Forêt Aléatoire. co- Forest ; sélection de variables ; données à grande dimension ; données médicales.
Date de publication:	2-jui-2016
Résumé:	En classification supervisée des données médicales, l'hypothèse de classement est apprise à partir d'un échantillon d'apprentissage généralement constitué de données étiquet ées par un ou plusieurs médecins, experts du domaine. Néanmoins, face aux importants volumes de données disponibles actuellement, le coût de l'étiquetage des données devient très coûteux. Ainsi, il est impraticable, voire impossible d'étiqueter toutes les données disponibles. Cependant, sachant que la performance d'un classifieur est liée au nombre de données d'apprentissage, la principale question qui ressort est comment amé- liorer l'apprentissage d'un classifieur en ajoutant des données non étiquetées à l'ensemble d'apprentissage. La technique d'apprentissage issue de la réponse à cette question est appel ée l'apprentissage semi-supervisé. Au cours de ces dernières années la classification semi-supervisée, qui fait usage des données non étiquetées pour améliorer la précision de l'hypothèse de classification ciblée, a connu un essor important dans le domaine de l'apprentissage artificiel. Les méthodes d'ensemble comme approche de classification, nous ofrent des taux erreurs minimales. Elles permettent de prendre naturellement en compte l'information apportée par les données non étiquetées dans l'apprentissage de la règle de classement. Ces algorithmes font appel de manière répétée à un apprenant de base pour produire diférentes hypothèses ; au moment de la prédiction, ces hypothèses sont combinées au sein d'un vote. L'intérêt des techniques de combinaison a été établi par les faits que : quel que soit le mode de production des hypothèses et quelles que soient les modalités du vote final, l'erreur globale observée est plus faible que celle de n'importe quelle hypothèse impliquée dans le vote. Dans ces méthodes, l'importance de la diversité des hypothèses a été justifiée d'où l'intérêt de l'algorithme de la Forêt Aléatoire par son ensemble d'arbres de décision. Ces derniers ont la particularité d'être sensibles à l'ordre de présentation des données, cela a permis à la Forêt Aléatoire d'être une méthode très adaptée pour la tâche de classification des données réelles. Dans cette thèse, nous nous appliquons sur la compréhension de cet algorithme des Forêts Aléatoires (RF) qui est considéré comme une technique de référence, compétitive avec la plupart des méthodes d'ensemble. De ce fait, avant d'aborder et d'élaborer notre approche en apprentissage semi-supervisé, nous consacrons toute une partie de cette thèse : à l'étude, l'optimisation et l'amélioration des performances de prédiction des RFs dans le contexte supervisé. Par la suite, nous détaillons notre problématique majeure à savoir l'étiquetage automatique par apprentissage semi-supervisé. Nous introduisons de manière progressive le concept d'apprentissage semi-supervisé dans les méthodes d'ensemble, en commençant par les Forêts Aléatoires en apprentissage semi-supervisé, l'algorithme co-Forest et son application à la segmentation d'images médicales, et en dernier lieu, notre contribution proposée au problème d'annotation des données médiales à grande dimension (l'approche Optim co-Forest). Dans la dernière partie de cette thèse, nous nous intéressons plus particulièrement à la sélection de variables en apprentissage supervisé et semi-supervisé. Le procédé de mesure de variables d'importance dans le paradigme des Forêts Aléatoires (RF) a eu une grande infiuence sur nos approches proposées. Afin d'améliorer l'eficacité de la sélection des ensembles de données à grande dimension, nous proposons notre approche d'évaluation de sélection de variables pertinentes en apprentissage semi-supervisé. Nos divers algorithmes d'apprentissage supervisé et semi-supervisé ont été testés sur des données médicales artificielles et réelles et ont abouti à des résultats encourageants. Ces évaluations ont été enrichies par une discussion sur les avantages et les limites de chacune des méthodes développées.
URI/URL:	http://dspace.univ-tlemcen.dz/handle/112/11461
Collection(s) :	Doctorat en GBM

Fichier(s) constituant ce document :

Fichier	Description	Taille	Format
Doct.EBM.Settouti.pdf		11 MB	Adobe PDF	Voir/Ouvrir

Affichage détaillé