Classi cation partiellement supervisée des données médicales brutes.
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Les données partiellement supervisées, c'est un effet qui reflète une véritable problématique concernant la dificulté d'étiquetage manuel des données. En classification supervisée des données médicales, l'hypothèse d'apprentissage nécessite une connaissance apriori sur les données où le médecin a apporté l'étiquette nécessaire. Néanmoins, face aux volumes de données disponibles actuellement, la supervision des données médicales est devenue une tâche fastidieuse pour le médecin et parfois même coûteuse dans certaines applications. De ce fait, les données non étiquetées sont plus nombreuses et disponibles par rapport aux données étiquetées. Cependant, sachant que la performance d'un classieur est liée au nombre de données d'apprentissage, la principale question qui ressort est comment améliorer l'apprentissage d'un classi eur en intégrant des données non étiquet ées à l'ensemble d'apprentissage. La technique d'apprentissage issue de la réponse à cette question est appelée l'apprentissage semi-supervisé.
Dans cette thèse, nous détaillons notre problématique majeure à savoir l'étiquetage automatique par apprentissage semi-supervisé en se basant sur le principe d'autoapprentissage.
L'auto-apprentissage est un algorithme de référence en classi cation semi supervisée, son usage est fondamental dans plusieurs applications.
Dans l'autoapprentissage (self-training), nous entrainons un classifieur supervisé avec les données étiquetées. Ensuite ce classifieur est utilisé pour prédire les étiquettes manquantes des données non étiquetées. Les données nouvellement étiquetées avec un haut degré de con ance sont ajoutées à la base étiquetée. Le classi eur est ré-entrainé sur les nouvelles données et cette procédure est répétée jusqu'à satisfaire un critère d'arrêt (convergence).
Nous introduisons de manière progressive le concept d'auto-apprentissage dans des applications médicales. Une première partie dans cette thèse a été réservée pour la compréhension du principe d'auto-apprentissage par l'étude de l'algorithme SNNRCE.
Par la suite, nous détaillons notre contribution proposée au problème d'annotation des données médiales qui est portée sous le nom de R-COSET.
Dans la dernière partie de cette thèse, nous nous intéressons plus particulièrement à la segmentation des images médicales utilisant les procédés de classi cation.
La classification super-pixellique est devenue une méthode fréquente et importante dans la segmentation automatique. Une étude expérimentale est proposée dans cette thèse, nous mettons en discussion de manière empirique les considérations requises dans la classification super-pixellique à savoir l'information couleur de l'image et la caractérisation super-pixellique. La classification est effectuée par un apprentissage supervisé et semisupervis é afin de mettre en évidence l'importance du semi supervisé dans la segmentation des images médicales.