Ontology-supported schema enrichment of a relational data warehouse with multidimensional concepts from document-oriented data source

Autor: Ptiček, Marina
Přispěvatelé: Vrdoljak, Boris
Jazyk: angličtina
Rok vydání: 2022
Předmět:
Popis: The topic of this doctoral thesis is schematic integration of data that are stored in two different data models. Acquisition and integration of external data has the potential to improve predictive analytical models used in business intelligence. Analytical data are typically stored in a relational data warehouse, but the popularity of document-oriented data indicates their increasing availability in the information market. The relational model differs significantly from document-oriented model, which is characterized by semi-structuredness, heterogeneity, and absence of schema definition, all of which is a problem for their schematic integration. In this thesis, Semantic Web ontologies are used as a reconciling medium in bridging the differences between the multidimensional model in the relational implementation and the document-oriented dataset, which implies describing the relational data warehouse schema and the schema of the document-oriented dataset using ontologies to semi-automate their comparison and integration. The contribution of this thesis comprises two components: 1) method for ontology extraction from a document-oriented data source that results in an ontology suitable for multidimensional modeling, and 2) ontology-supported semi-automatic procedure for enrichment of a relational data warehouse schema with the multidimensional concepts found in a document-oriented data source. Ova doktorska disertacija se bavi shematskom integracijom podataka pohranjenih u dvama različitim podatkovnim modelima. Akvizicija i integracija vanjskih podataka je jedan od načina poboljšanja prediktivnih analitičkih modela korištenih u inteligentnom poslovanju. Analitički podatci su tipično pohranjeni u relacijskom skladištu podataka, no popularnost dokumentno-orijentiranih podataka nagoviješta njihovu sve veću dostupnost na tržištu informacija. Relacijski model se znatno razlikuje od dokumentno-orijentiranog, kojega karakterizira polustrukturiranost, heterogenost i odsutnost jasne definicije sheme, što predstavlja problem za njihovu shematsku integraciju. U ovoj disertaciji, ontologije semantičkog weba koriste se kao pomirbeni medij u premošćivanju razlika između multidimenzionalnog modela u relacijskoj implementaciji i dokumentno-orijentiranoga podatkovnog skupa, što podrazumijeva opisivanje sheme relacijskog skladišta podataka i sheme dokumentno-orijentiranoga podatkovnog skupa pomoću ontologija s ciljem poluautomatizacije njihove usporedbe i integracije. Doprinos ove doktorske disertacije sastoji se od dva dijela: 1) metode izvlačenja ontologije iz dokumentno-orijentiranoga podatkovnog izvora koja rezultira ontologijom prikladnom za multidimenzionalno modeliranje, i 2) ontologijama podržanog postupka obogaćivanje sheme relacijskog skladišta podataka multidimenzionalnim konceptima pronađenim u dokumentno-orijentiranom podatkovnom izvoru.
Databáze: OpenAIRE