Développement d'un cadre générique pour le partitionnement des données RDF
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
University of Tlemcen
Abstract
Avec la croissance explosive des technologies web et l'avènement de l'ère numérique, le volume de
données générées et partagées sur le web a atteint des niveaux sans précédent. Cette explosion de la
création de données pose des défis significatifs en matière de gestion, de traitement et d'analyse de cet
afflux massif d'informations. Cette thèse s'inscrit dans le cadre du projet PQDAG, qui vise à développer
des outils avancés de gestion des données spécifiquement conçus pour assurer la mise à l’échelle et les
performances lors du traitement des Big RDF Data. Notre objectif principal était de proposer des
approches de partitionnement facilitant l'évaluation d'un grand nombre de requêtes SPARQL sans
nécessiter de jointures entre les partitions, réduisant ainsi le temps de communication sur le réseau. Pour
ce faire, nous avons appliqué et comparé plusieurs stratégies de partitionnement, y compris MPC
(Minimum Property Cut), Metis et K-means. Le but était de minimiser le nombre de jointures
inter-partitions et d'améliorer les performances de traitement des requêtes dans un environnement
distribué, tout en réduisant les coûts de communication entre les partitions. Grâce à cette recherche, nous
visons à identifier la solution la plus efficace pour relever les défis de la gestion des Big Data dans le
cadre du projet PQDAG, améliorant ainsi la capacité à gérer et analyser les données RDF à grande échelle
sur le web en parallèle.