Περίληψη |
Ο Σημασιολογικός Ιστός (ΣΙ) είναι μία εξελισσόμενη επέκταση του Παγκόσμιου Ιστού, στην οποία το περιεχόμενο μπορεί να εκφραστεί όχι μόνο σε φυσική γλώσσα αλλά και σε γλώσσες (π.χ. RDF/S) που επιδέχονται τυπικής ερμηνείας και καθιστούν εφικτή την παροχή προηγμένων υπηρεσιών αναζήτησης, διαμοιρασμού και ολοκλήρωσης πληροφορίας. Καθώς όμως η γνώση δεν είναι στατική, αλλά συνεχώς εξελίσσεται, απαιτούνται διάφορες τεχνικές για τη διαχείριση της εξέλιξής της. Μία τέτοια ανάγκη είναι αυτή της αρχειοθέτησης προηγούμενων εκδόσεων. Η αρχειοθέτηση εκδόσεων είναι χρήσιμη για διάφορους λόγους (διαλειτουργικότητα, ιχνηλασιμότητα, προέλευση). Για παράδειγμα στην Η-Επιστήμη (E-Science) η αποτυχία διατήρησης των προηγούμενων καταστάσεων των δεδομένων (επί των οποίων εκτελέστηκαν μεταγενέστερα πειράματα) θέτει σε κίνδυνο τη δυνατότητα επαλήθευσης των ερευνητικών αποτελεσμάτων.
Στην εργασία αυτή με τον όρο Βάση RDF (BR) θα αναφερόμαστε σε οποιοδήποτε σύνολο τριπλετών RDF/S. Το POI (Partial Order Index) είναι μία δομή που προτάθηκε πρόσφατα για την αποθήκευση πολλών (εκδόσεων) BRs, η οποία αξιοποιεί το ότι η RDF βασίζεται σε ένα μοντέλο δεδομένων γράφου, και άρα μία BR δεν έχει μία μοναδική σειριοποίηση (όπως έχουν τα κείμενα). Αυτή η ιδιαιτερότητα δικαιολογεί τη διερεύνηση κατευθύνσεων που δεν έχουν μελετηθεί στα πλαίσια των κλασσικών συστημάτων εκδόσεων για κείμενα (π.χ. στα συστήματα διαχείρισης εκδόσεων λογισμικού). Εν συντομία τo POI προσφέρει σημαντική εξοικονόμηση αποθηκευτικού χώρου σε σχέση με τη διαφορική αποθήκευση (delta-based storage), ιδιαίτερα αν υπάρχουν ΒRs οι οποίες σχετίζονται με σχέση υποσυνόλου.
Η εργασία αυτή επικεντρώθηκε σε μεθόδους για περαιτέρω μείωση των αποθηκευτικών απαιτήσεων του POI. Συγκεκριμένα, προτείνουμε μια έκδοση του POI που ονομάζουμε CPOI (Compact POI) η οποία χρησιμοποιεί διαφορικά (gapped) αναγνωριστικά τριπλετών και μεταβλητού μεγέθους κωδικοποιήσεις φυσικών αριθμών. Για τη δομή αυτή μελετήσαμε αναλυτικά τις συνθήκες υπό τις οποίες εγγυάται εξοικονόμηση χώρου σε σχέση με το απλό POI και άλλες επιλογές αποθήκευσης. Επειδή οι συνθήκες είναι ικανές (αλλά όχι και αναγκαίες), και προκειμένου να μετρήσουμε το λόγο συμπίεσης (compression ratio) που επιτυγχάνεται, αλλά και να αξιολογήσουμε συγκριτικά διάφορες πολιτικές ανάθεσης αναγνωριστικών, προχωρήσαμε και σε μια εκτενή πειραματική αξιολόγηση. Τα αποτελέσματα κατέδειξαν σημαντικά οφέλη χώρου, ήτοι ο απαιτούμενος χώρος (σε μεγάλα σύνολα συνθετικά παραγμένων δεδομένων) είναι κατά μέσο όρο περίπου 25 φορές μικρότερος από το χώρο των αρχικών δεδομένων και 3 φορές μικρότερος από τη διαφορική αποθήκευσή τους. Τέλος, ο χώρος που καταλαμβάνει το CPOI είναι περίπου το 60%-80% του χώρου που απαιτεί το απλό POI, ενώ η συμπιεσμένη αναπαράσταση των συνόλων του αντιστοιχεί στο 8% του χώρου που απαιτούν τα μη συμπιεσμένα σύνολα.
|