Περίληψη |
Τα τελευταία χρόνια δημιουργούνται όλο και μεγαλύτερα αποθετήρια μεταδεδομένων, συνήθως εκφρασμένων σε RDF/S, όπως για παράδειγμα συμβαίνει στο χώρο της πολιτισμικής κληρονομιάς. Το ISO21127 (CIDOC Conceptual Reference Model) είναι ένα πλούσιο εννοιολογικό μοντέλο (ή αλλιώς οντολογία) ικανό να περιγράψει τον κόσμο που φυλάσσεται σε τέτοια αποθετήρια. Απλούστερα μοντέλα, όπως εκείνα που αποτελούνται μόνο από «μεταδεδομένα πυρήνα» (core metadata), για παράδειγμα το Dublin Core, υστερούν ως προς την εκφραστικότητα και τις δυνατότητες που προσφέρουν για ολοκλήρωση πληροφοριών (integration) και για συλλογισμό (reasoning) επί αυτών. Ωστόσο, η πιο πολύπλοκη δόμηση δυσχεραίνει την αναζήτηση πληροφοριών: η δηλωτική διατύπωση επερωτήσεων SPARQL είναι πιο δύσκολη στο χρήστη λόγω του μεγάλου πλήθους κλάσεων και ιδιοτήτων της οντολογίας, ενώ η αναζήτηση μέσω λέξεων κλειδιών δεν αξιοποιεί την δόμηση της πληροφορίας.
Για να προσφέρουμε έναν εύκολο και αποτελεσματικό τρόπο αναζήτησης σε τέτοια αποθετήρια, προτείνουμε μια νέα προσέγγιση: εισάγουμε ένα απλούστερο σχήμα το οποίο αποτελείται από λίγες και «θεμελιώδεις» (fundamental) κλάσεις και σχέσεις και το οποίο χρησιμοποιείται μόνο για τις ανάγκες της αναζήτησης. Η αναζήτηση πληροφορίας μέσω αυτού του μοντέλου είναι ευκολότερη και πιο διαισθητική για τους χρήστες αφού το μέγεθος και η δομή του προσομοιάζει με αυτά των μεταδεδομένων πυρήνα που είναι οικεία στους χρήστες. Συνάμα η χρήση του προσφέρει μεγάλο βαθμό ανάκλησης αφού για κάθε θεμελιακή σχέση του σχήματος συμπεριλαμβάνουμε το σύνολο των πιθανών μονοπατιών επί του CIDOC-CRM και επίσης εκμεταλλευόμαστε τη διάδοση των ιδιοτήτων επί αυτών (property
propagation). Ωστόσο, ο στατιστικός χαρακτήρας που εισάγεται με την χρήση του property propagation (επειδή μια ιδιότητα δε διαδίδεται κατ’ ανάγκη) μπορεί να χειροτερεύσει το βαθμό ακρίβειας. Περαιτέρω ακρίβεια στην ανάκτηση μπορεί να επιτευχθεί εξειδικεύοντας τις θεμελιώδεις σχέσεις, ή εκφράζοντας επιπλέον περιορισμούς στις επερωτήσεις.
Για να δημιουργήσουμε τις απεικονίσεις των θεμελιωδών σχέσεων στο CIDOC-CRM δημιουργήσαμε μια «γλώσσα μονοπατιών» που να είναι εύκολη στο γράψιμο και κατανοητή από μη ειδήμονες χρήστες. Εν συνεχεία κατασκευάσαμε ένα εργαλείο που αξιοποιεί τη γλώσσα αυτή και επιτρέπει τη συγγραφή και τον έλεγχο εγκυρότητας των θεμελιωδών σχέσεων, την μετάφρασή τους σε SPARQL και επιπρόσθετα προσφέρει πλήθος άλλων υποστηρικτικών λειτουργιών.
Η προτεινόμενη προσέγγιση αποδείχτηκε ότι είναι ικανή να εκφράσει αληθινά ερωτήματα ανεξάρτητων ερευνητών του τομέα της πολιτισμικής πληροφορίας. Επίσης, εκτελέσθηκαν ερωτήματα σε πραγματικά αποθετήρια μεταδεδομένων και τα αποτελέσματα ήταν ενθαρρυντικά επιδεικνύοντας έως και 100% ανάκληση, όπου η πληροφορία του αποθετηρίου ήταν σωστά δομημένη. Επιδεικνύεται επίσης η ικανότητα βελτίωσης της ακρίβειας, με τη χρήση συνδυαστικών ερωτημάτων και εξειδικεύσεων.
|