Knowledge Graph Construction from Unstructured Government Documents
Jazyk: | angličtina |
---|---|
Rok vydání: | 2022 |
Předmět: | |
DOI: | 10.26262/heal.auth.ir.341259 |
Popis: | Τα τελευταία χρόνια, το ερευνητικό ενδιαφέρον έχει στραφεί στην ανάκτηση δεδομένων κειμένου από έγγραφα. Τα έγγραφα ``κρύβουν” πληροφορίες, οι οποίες είναι υψίστης σημασίας, τόσο για δημόσιους όσο και για ιδιωτικούς οργανισμούς. Για δεκαετίες, τα συστήματα διαχείρισης εγγράφων έχουν χρησιμοποιηθεί για την αποθήκευση τεράστιου αριθμού κειμένων. Η τεχνολογική τους προσέγγιση επικεντρώνεται στην αποθήκευση τεράστιων ποσοτήτων δεδομένων κειμένου, τα οποία έχουν βελτιωθεί με μεταδεδομένα για τη διευκόλυνση της κατανόησης και της δυνατότητας αναζήτησης. Ωστόσο, αυτή η προσέγγιση έχει πολλούς περιορισμούς, επειδή απλώς αποθηκεύει μη αναγνώσιμες από μηχανή πληροφορίες κειμένου και βασίζεται εξ ολοκλήρου στα μεταδεδομένα που δημιουργήθηκαν με μη αυτόματο τρόπο, δηλαδή με το χέρι από ανθρώπους. Έτσι, ενδέχεται να περιέχουν αρκετές λανθασμένες πληροφορίες, αφού υπάρχει ο ανθρώπινος παράγοντας. Ο Σημασιολογικός ιστός και τα διασυνδεδεμένα δεδομένα συμπεριλαμβάνονται πλέον μέσα στις πιο εξελιγμένες (state-of-the-art) τεχνολογίες και είναι ο πιο αποτελεσματικός τρόπος οργάνωσης και περιγραφής των δεδομένων και ανάκτησης της πληροφορίας. Τα δεδομένα και οι σχέσεις μεταξύ τους περιγράφονται με ακρίβεια βάσει μοντέλων, κυρίως οντολογιών. Επομένως, προκειμένου να μετατραπούν οι πληροφορίες κειμένου σε δεδομένα αναγνώσιμα και διαχειρίσιμα από μηχανές, ο καλύτερος τρόπος είναι να κατασκευαστεί και να χρησιμοποιηθεί ένας γράφος γνώσης. Οι Γράφοι Γνώσης (Knowledge Graphs) είναι ένας τρόπος αναπαράστασης των δεδομένων σε γραφήματα, μέσω του οποίου είναι δυνατή η περιγραφή της σημασίας των δεδομένων καθώς και των σχέσεων μεταξύ τους. Ο κόμβοι των γραφημάτων αποτελούν οντότητες, ενώ οι ακμές απεικονίζουν σχέσεις. Τα Knowledge Graphs μπορούν να απεικονίσουν τους αμέτρητους τρόπους με τους οποίους είναι συνδεδεμένα τα δεδομένα μεταξύ τους. Κατασκευάζοντας, λοιπόν, και οργανώνοντας τα δεδομένα σε ένα γράφο γνώσης, σχηματίζονται σημασιολογικές σχέσεις, οι οποίες αυξάνουν την δυνατότητα αναζήτησης, επιτρέποντας τη σύνδεση δεδομένων, τη σημασιολογική, πλέον, αναζήτηση μεταξύ των δεδομένων και την παραγωγή καινούριας πληροφορίας και κατ’ επέκταση γνώσης. Σε αυτή την διπλωματική εργασία, επικεντρωθήκαμε στην κατασκευή ενός Γράφου Γνώσης από ελληνικά κυβερνητικά έγγραφα από την ΔΙΑΥΓΕΙΑ, η οποία είναι μια βραβευμένη ελληνική πύλη που περιέχει αποφάσεις της δημόσιας διοίκησης. Πιο συγκεκριμένα, εστιάσαμε στην εξαγωγή τριπλέτων της μορφής υποκείμενο-κατηγόρημα-αντικείμενο, από τα ελληνικά κυβερνητικά έγγραφα. Ωστόσο, τα ελληνικά είναι μια γλώσσα χαμηλών πόρων, όσον αφορά τον κλάδο της Επεξεργασία Φυσικής Γλώσσας και σε αυτή τη στιγμή υπάρχει πολύ περιορισμένος αριθμός εργαλείων. Ο γράφος Γνώσης που προέκυψε αποτελεί έναν υποδειγματικό γράφο, το οποίο απεικονίζει τις σημασιολογικές σχέσεις μεταξύ των δεδομένων κειμένου. Ωστόσο, για την πλήρη αξιοποίηση των Γραφημάτων Γνώσης στην ελληνική κυβερνητική πύλη, είναι αναπόφευκτη ανάγκη να υιοθετηθούν ορισμένα πρότυπα και διατυπώσεις των εγγράφων με κοινή συναίνεση και αποδοχή The last years, the research focus has turned to retrieve textual data from documents. Documents hide textual information, which is of the utmost importance for both, public and private organizations. For decades, document management systems have been used to store vast amounts of textual information. Their technological approach is centered on the storage of massive amounts of textual data, that has been enhanced with metadata to facilitate comprehension and searchability. Yet, this approach has several limits because it just stores non-machine-readable textual information and is entirely reliant on the metadata that were created manually by human beings, a process with significant low quality and completeness issues. In order to convert the hidden information into machine-readable data, the best way is to take advantage of the benefits of using a knowledge graph. By constructing and organizing the information into a knowledge graph, semantic relationships are formed, which increase searchability, by allowing data linking and semantic searching between the data. In this dissertation, the focus was on constructing a Knowledge Graph from Greek government documents from the DIAVGEIA portal, which is an award-winning Greek open government portal. More specifically, the focus was on extracting triples of the form subject-predicate-object, from the unstructured Greek government documents. However, Greek is a low-resource language and at this point a very limited number of tools exist. The resulted Knowledge graph consist a proof-of-concept graph, that illustrates the beneficial semantic relationships between the textual data. Yet, in order to fully utilize Knowledge Graphs on the Greek government portal, it is an inevitable need to adopt some patterns and formulations by common consent |
Databáze: | OpenAIRE |
Externí odkaz: |