Designing A Data Citation Framework for RDF* Stores
Autor: | Kovacevic, Filip |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2021 |
Předmět: | |
DOI: | 10.34726/hss.2021.89424 |
Popis: | Um zitierbare Daten und reproduzierbare Ergebnisse zu ermöglichen hat die RDA Data Citation Working Group 14 Empfehlungen veröffentlicht. Diese Empfehlungen wurden von Datenzentren für verschiedene Backend-Technologien übernommen. Bisher befinden sich RDF*-Stores bzw. Triple-Stores nicht unter diesen Backend-Technologien. In dieser Masterarbeit behandeln wir die Empfehlungen im Bezug auf RDF*- und Triple-Stores, designen ein RDF* Data Citation Framework, implementieren einen Prototypen des vorgestellten Frameworks und evaluieren ihn. Um Versionierung & Timestamping auf Triple-Ebene, mit dem Ziel die Anzahl der zusätzlich notwendigen Triples gering zu halten, zu implementieren, verwenden wir RDF* und SPARQL*.Mit Funktionstests zeigen wir, dass unser Prototyp den Empfehlungen genügt. Zusätzlich stellen wir Tests und Ergebnisse zur Laufzeit-Performance und zum Speicherverbrauch zu Abfragen von Live- und historischen Daten zur Verfügung, welche auf zwei versionierte RDF*-Datenbasen (FHIR und DBPedia) ausgeführt werden. Als RDF*-Store und Ablage für die zwei Datenbasen verwenden wir GraphDB. Die Ergebnisse deuten darauf hin, dass RDF* and SPARQL* für Versionierung & Timestamping verwendet werden können und dass Datenbasen, die über die Zeit unterschiedlich angereichert wurden (Insert vs. Update) sich auch unterschiedlich auf die Performance der Abfragen auswirken.Zu weiteren Einflüssen zählen die Implementierung der Filter und Joins in der Abfrage (engl. Timestamped Query) und die Größe der Daten- und Ergebnismenge. Um die “Query Uniqueness”-Empfehlung zu implementieren, welche darauf abzielt semantisch identische Abfragen mittels Normalisierung der Abfrage zu entdecken, zeigen wir, die SPARQL-Query-Algebra vom W3C im Normalisierungsprozess eingesetzt werden kann. Wirbehandeln und erwägen “Query Containment Solver” vom Stand der Kunst als Alternative, um semantisch identische Abfragen zu erkennen. Wir evaluieren zwei Query Containment Solver, JSAC und SpeCS, und vergleichen diese mit unserer SPARQL-Query-Algebra-basierten Implementierung. Die Ergebnisse deuten darauf hin, dass unsere Implementierung die höchste Abdeckung für SPARQL Abfragen der Version 1.1 hat und dass JSAC ein potenzieller Kandidat für die Implementierung von “Query Uniqueness” ist, sollte dieser “SPARQL 1.1”-konform werden. Unsere Implementierung ist auf Github verfügbar:https://github.com/GreenfishK/DataCitation To facilitate citable data and reproducible results The RDA Data Citation Working Group published 14 recommendations. These recommendations were adopted by data centers for different back-end technologies. So far, RDF* stores or triple stores are not among these back-end technologies. In this thesis we discuss the recommendations for RDF* and triple stores, design an RDF* Data Citation Framework, implement a prototype of the proposed framework and evaluate it. To implement the versioning & timestamping recommendationson triple-level, with the aim to keep the number of additionally required triples low, we employ RDF* and SPARQL*. With functional tests we show that our prototype is in accordance with the recommendations. We furthermore provide runtime performance and memory demand tests and results on querying live & historical data from two versioned datasets, namely FHIR and a DBPedia dataset. We imported the datasets into GraphDB, which we use as RDF* store.The results suggest that RDF* and SPARQL* can be used for versioning & timestamping and that the perfomance differs for datasets that were enriched with insert statements from those were update statements were used, even though the number of additionally added triples is the same for both. The performance furthermore depends on the way filters and joins areused in the timestamped query and on the dataset & result set size.To implement the Query Uniqueness recommendation, which aims to detect semantically identical queries by means of query normalization, we show how W3C’s SPARQL Query Algebra can be used in the normalization process. We consider and discuss state-of-the-art Query Containment Solvers as alternative approach to detecting semantically equivalent queries. We evaluate two of them, namely JSAC and SpeCS, and compare them with our SPARQL QueryAlgebra based implementation. The results suggest that our implementation has the highest coverage for SPARQL 1.1 queries and that JSAC has the potential to be used for implementing Query Uniqueness, once it becomes SPARQL 1.1 compliant. Our implementation is available on Github:https://github.com/GreenfishK/DataCitation |
Databáze: | OpenAIRE |
Externí odkaz: |