Veuillez utiliser cette adresse pour citer ce document : http://dspace1.univ-tlemcen.dz/handle/112/22467
Affichage complet
Élément Dublin CoreValeurLangue
dc.contributor.authorGUEDDOUDJ, EL YAZID-
dc.date.accessioned2024-05-15T10:25:55Z-
dc.date.available2024-05-15T10:25:55Z-
dc.date.issued2023-11-04-
dc.identifier.urihttp://dspace1.univ-tlemcen.dz/handle/112/22467-
dc.description.sponsorshipL’explosion des données suscite de plus en plus l’intégration de nouveaux formats de données tels que les bases de données graphes et les données RDF (Resource Description Framework) au sein des entreprises qui vivent dans un monde hautement concurrentiel. En outre, les processus d’extraction, de transformation et de chargement (ETL) ont démontré une certaine maturité pour les sources de données traditionnelles, mais ils ne s’adaptent pas lorsqu’ils sont utilisés pour gérer des sources de données volumineuses et très variées qui impliquent des données RDF. Ces dernières contiennent une grande quantité de connaissances qui devraient être exploitées par les entreprises, équipées de la technologie d’entrepôt de données, pour augmenter leur valeur dans un monde hautement concurrentiel. L’émergence de nouvelles plateformes telles que le polystore représente également une opportunité pour le déploiement de matériel de pointe. Les processus ETL nécessitent deux phases importantes, notamment le partitionnement et l’allocation des données. De plus, les chercheurs sont motivés à développer et à inventer des processus ETL pour prendre en charge l’analyse en temps réel. Dans ce manuscrit : Dans un premier temps, nous proposons une modélisation conceptuelle des processus ETL à l’aide de de la notation BPMN (Business Process Modeling Notation). Ces processus sont automatiquement convertis en scripts à implémenter dans le framework Spark. La solution est conditionnée selon une nouvelle architecture ETL distribuée qui prend en charge à la fois le traitement par lots et par flux (stream). Pour rendre notre nouvelle approche plus concrète et évaluable, une étude de cas réel utilisant le benchmark LUBM (The Lehigh University Benchmark), qui implique des sources de données hétérogènes, est envisagée. Deuxièmement, nous proposons une nouvelle architecture pour les processus ETL nommée Open-Scala-ETL (Os-ETL), équipée d’une méthode de déploiement d’entrepôt de données basée sur un polystore, qui permet une analyse en temps réel. La solution Os-ETL vise à résoudre le problème de déploiement d’un entrepôt de données à structure graphe sur un polystore qui est une tâche difficile, avec deux phases à savoir le partitionnement et l’allocation des données. De plus, Os-ETL est une solution distribuée prenant en charge le traitement par lots et en continu (stream) à l’aide du framework Spark. Des scripts Scala sont exécutés dans ce dernier pour partitionner les graphes RDF et répartir les différents fragments obtenus, issus des différents sites. L’implémentation de l’Os-ETL est basée sur Apache Spark avec un déploiement ETL sur le polystore Spark SQL. La solution Os-ETL permet aux entreprises disposant d’une technologie d’entrepôt de données de gagner en performance, enen_US
dc.language.isofren_US
dc.publisherUniversity of tlemcenen_US
dc.subjectETL, Spark, Big Data, RDF, Partitioning, Data Warehouse, Polystore, Scalability, Design, BPMN.en_US
dc.titleSpark au service d’ETL pour la gestion des données RDF streamingen_US
dc.typeThesisen_US
Collection(s) :Doctorat LMD RSD

Fichier(s) constituant ce document :
Fichier Description TailleFormat 
Spark au service d ETL pour la gestion des donnees RDF streaming.pdf6,79 MBAdobe PDFVoir/Ouvrir


Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.