Spark au service d’ETL pour la gestion des données RDF streaming

GUEDDOUDJ, EL YAZID

Veuillez utiliser cette adresse pour citer ce document : http://dspace1.univ-tlemcen.dz/handle/112/22467

Affichage complet

Élément Dublin Core	Valeur	Langue
dc.contributor.author	GUEDDOUDJ, EL YAZID	-
dc.date.accessioned	2024-05-15T10:25:55Z	-
dc.date.available	2024-05-15T10:25:55Z	-
dc.date.issued	2023-11-04	-
dc.identifier.uri	http://dspace1.univ-tlemcen.dz/handle/112/22467	-
dc.description.sponsorship	L’explosion des données suscite de plus en plus l’intégration de nouveaux formats de données tels que les bases de données graphes et les données RDF (Resource Description Framework) au sein des entreprises qui vivent dans un monde hautement concurrentiel. En outre, les processus d’extraction, de transformation et de chargement (ETL) ont démontré une certaine maturité pour les sources de données traditionnelles, mais ils ne s’adaptent pas lorsqu’ils sont utilisés pour gérer des sources de données volumineuses et très variées qui impliquent des données RDF. Ces dernières contiennent une grande quantité de connaissances qui devraient être exploitées par les entreprises, équipées de la technologie d’entrepôt de données, pour augmenter leur valeur dans un monde hautement concurrentiel. L’émergence de nouvelles plateformes telles que le polystore représente également une opportunité pour le déploiement de matériel de pointe. Les processus ETL nécessitent deux phases importantes, notamment le partitionnement et l’allocation des données. De plus, les chercheurs sont motivés à développer et à inventer des processus ETL pour prendre en charge l’analyse en temps réel. Dans ce manuscrit : Dans un premier temps, nous proposons une modélisation conceptuelle des processus ETL à l’aide de de la notation BPMN (Business Process Modeling Notation). Ces processus sont automatiquement convertis en scripts à implémenter dans le framework Spark. La solution est conditionnée selon une nouvelle architecture ETL distribuée qui prend en charge à la fois le traitement par lots et par flux (stream). Pour rendre notre nouvelle approche plus concrète et évaluable, une étude de cas réel utilisant le benchmark LUBM (The Lehigh University Benchmark), qui implique des sources de données hétérogènes, est envisagée. Deuxièmement, nous proposons une nouvelle architecture pour les processus ETL nommée Open-Scala-ETL (Os-ETL), équipée d’une méthode de déploiement d’entrepôt de données basée sur un polystore, qui permet une analyse en temps réel. La solution Os-ETL vise à résoudre le problème de déploiement d’un entrepôt de données à structure graphe sur un polystore qui est une tâche difficile, avec deux phases à savoir le partitionnement et l’allocation des données. De plus, Os-ETL est une solution distribuée prenant en charge le traitement par lots et en continu (stream) à l’aide du framework Spark. Des scripts Scala sont exécutés dans ce dernier pour partitionner les graphes RDF et répartir les différents fragments obtenus, issus des différents sites. L’implémentation de l’Os-ETL est basée sur Apache Spark avec un déploiement ETL sur le polystore Spark SQL. La solution Os-ETL permet aux entreprises disposant d’une technologie d’entrepôt de données de gagner en performance, en	en_US
dc.language.iso	fr	en_US
dc.publisher	University of tlemcen	en_US
dc.subject	ETL, Spark, Big Data, RDF, Partitioning, Data Warehouse, Polystore, Scalability, Design, BPMN.	en_US
dc.title	Spark au service d’ETL pour la gestion des données RDF streaming	en_US
dc.type	Thesis	en_US
Collection(s) :	Doctorat LMD RSD

Fichier(s) constituant ce document :

Fichier	Description	Taille	Format
Spark au service d ETL pour la gestion des donnees RDF streaming.pdf		6,79 MB	Adobe PDF	Voir/Ouvrir

Affichage abbrégé