Classification Semi-Supervisée des données Médicales.
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
En classification supervisée des données médicales, l'hypothèse de classement est
apprise à partir d'un échantillon d'apprentissage généralement constitué de données étiquet
ées par un ou plusieurs médecins, experts du domaine. Néanmoins, face aux importants
volumes de données disponibles actuellement, le coût de l'étiquetage des données
devient très coûteux. Ainsi, il est impraticable, voire impossible d'étiqueter toutes les
données disponibles. Cependant, sachant que la performance d'un classifieur est liée au
nombre de données d'apprentissage, la principale question qui ressort est comment amé-
liorer l'apprentissage d'un classifieur en ajoutant des données non étiquetées à l'ensemble
d'apprentissage. La technique d'apprentissage issue de la réponse à cette question est appel
ée l'apprentissage semi-supervisé. Au cours de ces dernières années la classification
semi-supervisée, qui fait usage des données non étiquetées pour améliorer la précision
de l'hypothèse de classification ciblée, a connu un essor important dans le domaine de
l'apprentissage artificiel.
Les méthodes d'ensemble comme approche de classification, nous ofrent des taux
erreurs minimales. Elles permettent de prendre naturellement en compte l'information
apportée par les données non étiquetées dans l'apprentissage de la règle de classement.
Ces algorithmes font appel de manière répétée à un apprenant de base pour produire
diférentes hypothèses ; au moment de la prédiction, ces hypothèses sont combinées au
sein d'un vote. L'intérêt des techniques de combinaison a été établi par les faits que :
quel que soit le mode de production des hypothèses et quelles que soient les modalités
du vote final, l'erreur globale observée est plus faible que celle de n'importe quelle
hypothèse impliquée dans le vote. Dans ces méthodes, l'importance de la diversité des
hypothèses a été justifiée d'où l'intérêt de l'algorithme de la Forêt Aléatoire par son
ensemble d'arbres de décision. Ces derniers ont la particularité d'être sensibles à l'ordre
de présentation des données, cela a permis à la Forêt Aléatoire d'être une méthode très
adaptée pour la tâche de classification des données réelles.
Dans cette thèse, nous nous appliquons sur la compréhension de cet algorithme des
Forêts Aléatoires (RF) qui est considéré comme une technique de référence, compétitive
avec la plupart des méthodes d'ensemble. De ce fait, avant d'aborder et d'élaborer
notre approche en apprentissage semi-supervisé, nous consacrons toute une partie de cette
thèse : à l'étude, l'optimisation et l'amélioration des performances de prédiction des RFs
dans le contexte supervisé.
Par la suite, nous détaillons notre problématique majeure à savoir l'étiquetage automatique
par apprentissage semi-supervisé. Nous introduisons de manière progressive le
concept d'apprentissage semi-supervisé dans les méthodes d'ensemble, en commençant
par les Forêts Aléatoires en apprentissage semi-supervisé, l'algorithme co-Forest et son
application à la segmentation d'images médicales, et en dernier lieu, notre contribution
proposée au problème d'annotation des données médiales à grande dimension (l'approche
Optim co-Forest).
Dans la dernière partie de cette thèse, nous nous intéressons plus particulièrement à la
sélection de variables en apprentissage supervisé et semi-supervisé. Le procédé de mesure
de variables d'importance dans le paradigme des Forêts Aléatoires (RF) a eu une grande
infiuence sur nos approches proposées. Afin d'améliorer l'eficacité de la sélection des
ensembles de données à grande dimension, nous proposons notre approche d'évaluation
de sélection de variables pertinentes en apprentissage semi-supervisé.
Nos divers algorithmes d'apprentissage supervisé et semi-supervisé ont été testés sur
des données médicales artificielles et réelles et ont abouti à des résultats encourageants.
Ces évaluations ont été enrichies par une discussion sur les avantages et les limites de
chacune des méthodes développées.