Περίληψη |
Τα τελευταία χρόνια παρατηρείται μια έκρηξη στη δημοσίευση δεδομένων στον Παγκόσμιο Ιστό, κυρίως με τη μορφή Συνδεδεμένων Δεδομένων (Linked Data). Δεδομένα από διάφορες θεματικές περιοχές, π.χ. επιστημονικά, εταιρικά, κυβερνητικά κτλ., διατίθενται για ανοιχτή πρόσβαση και χρήση από εφαρμογές, μεμονωμένους χρήστες ή ακόμα και κοινότητες χρηστών. Δεδομένου του αυξανόμενου όγκου και της ετερογένειας των δεδομένων αυτών κρίνεται επιτακτική η ανάγκη για καταγραφή της πληροφορίας προέλευσης (provenance). Η γνώση της προέλευσης μάς δίνει τη δυνατότητα να υποστηρίξουμε αποτελεσματικά εφαρμογές που σχετίζονται με την αξιοπιστία, την φερεγγυότητα και την επαναληπτικότητα των δεδομένων. Ένα πλήθος από μοντέλα έχει ήδη προταθεί για την καταγραφή της πληροφορίας προέλευσης των αποτελεσμάτων μιας επερώτησης (query); τα περισσότερα από τα οποία αφορούν RDF ή σχεσιακά (relational) δεδομένα. Αντίθετα, και παρά τη σπουδαιότητα του προβλήματος, η έρευνα για την περίπτωση των ενημερώσεων (updates), και ειδικότερα των SPARQL ενημερώσεων, βρίσκεται ακόμα σε πρώιμο στάδιο. Στην εργασία αυτή, προτείνουμε ένα νέο μοντέλο για την καταγραφή και διαχείριση της πληροφορίας προέλευσης, σε επίπεδο τριπλέτας (triple) και γνωρίσματος (attribute), των αποτελεσμάτων των SPARQL ενημερώσεων. Το μοντέλο αυτό, το οποίο δανείζεται χαρακτηριστικά και ιδιότητες από τα ήδη υπάρχοντα μοντέλα του where και how είναι το πρώτο που υποστηρίζει τη χρήση αλγεβρικών εκφράσεων σε ενημερώσεις, ακολουθώντας την προσέγγιση του μοντέλου των provenance semirings. Από αλγοριθμικής σκοπιάς, παρουσιάζουμε έναν αλγόριθμο, ο οποίος υπολογίζει την πληροφορία προέλευσης για τα αποτελέσματα των SPARQL ενημερώσεων με βάση το προτεινόμενο μοντέλο, καθώς και έναν αλγόριθμο ανακατασκευής (reconstruction), ο οποίος χρησιμοποιεί την πληροφορία προέλευσης μιας τετραπλέτας (quadruple) για να δημιουργήσει μια SPARQL ενημέρωση, αποδεδειγμένα, συμβατή (compatible) με την αρχική. Μια SPARQL ενημέρωση είναι συμβατή με μια άλλη, αν διαφέρουν μόνο στα ονόματα των μεταβλητών που χρησιμοποιούν, και η πρώτη ενημέρωση περιέχει ένα γνήσιο υποσύνολο των ενώσεων (unions) που εμφανίζονται στη δεύτερη. Η παροχή ενός αλγορίθμου ανακατασκευής κρίνεται απαραίτητη ώστε να μπορέσουμε να περιγράψουμε πλήρως τη διαχείριση της πληροφορίας προέλευσης, καθώς φανερώνει τον καθοριστικό ρόλο της πληροφορίας αυτής στη διατήρηση της συνεκτικότητας (persistence) των αποτελεσμάτων των SPARQL ενημερώσεων.
|