Περίληψη |
Υπάρχουν χιλιάδες σύνολα δεδομένων που δημοσιεύονται σύμφωνα με τις αρχές των
Συνδεδεμένων Δεδομένων (Linked Data) και του Σημασιολογικού Ιστού (Semantic Web).
Πολλά από αυτά, όντας οργανωμένα σε RDF, βρίσκονται είτε σε Γνωσιακές Βάσεις
ανοικτού τομέα (π.χ. DBpedia, Wikidata) είτε σε συλλογές κλειστού τομέα (π.χ. DrugBank,
MarineTLO) και η εξερεύνησή τους είναι εφικτή μόνο μέσω συστημάτων πλοήγησης και
δομημένων γλωσσών όπως η SPARQL. Ωστόσο, οι τεχνικές αυτές είναι σύνθετες,
στερούνται ευελιξίας και συνήθως απαιτούν από κάποιον γνώση της οντολογίας που
περιγράφει τα δεδομένα. Αυτό έχει ως αποτέλεσμα να καταλήγουν να αξιοποιούνται
μόνο από ειδικούς χρήστες.
Η αναζήτηση μέσω λέξεων-κλειδιών (keyword-search) είναι η πιο ευρέως
χρησιμοποιούμενη μέθοδος αναζήτησης καθώς είναι φιλική προς τον χρήστη και
προσφέρει άμεση πρόσβαση στο περιεχόμενο, ενώ παράλληλα διατηρεί μεγάλη
εκφραστικότητα. Τα Συστήματα Ανάκτησης Πληροφοριών (Information Retrieval
Systems) είναι σχεδιασμένα για την αποτελεσματική αναζήτηση λέξεων-κλειδιών πάνω
από μεγάλο όγκο εγγράφων κειμενικής πληροφορίας. Για αυτόν τον σκοπό, υπάρχουν
διαθέσιμες διάφορες εξαιρετικά αποτελεσματικές και αποδοτικές μηχανές
αναζήτησης. Ένα τέτοιο παράδειγμα είναι η Elasticsearch, μια κατανεμημένη μηχανή
αναζήτησης κειμένου, η οποία παρέχει δυνατότητα κλιμακώσιμης αναζήτησης σε
οποιοδήποτε είδος πληροφοριών κειμένου.
Σε αυτήν την εργασία αναπτύξαμε μία υλοποίηση για αναζήτηση μέσω λέξεων-κλειδιών
πάνω από RDF δεδομένα, προσαρμόζοντας τις παραδοσιακές τεχνικές ανάκτησης
πληροφορίας (IR) για την ευρετηρίαση και την ανάκτηση. Συγκεκριμένα, δοκιμάζουμε
τρόπους με τους οποίους μια κυρίαρχη στην αγορά μηχανή αναζήτησης, όπως η
ElasticSearch, μπορεί να χρησιμοποιηθεί για την ευρετηρίαση RDF δεδομένων και την
παροχής αναζήτησης λέξεων-κλειδιών σε αυτά. Παρέχουμε μια ανάλυση των
διαφορετικών προσεγγίσεων που ακολουθήσαμε για να αντιμετωπίσουμε τις
προκλήσεις της ευρετηρίασης και της ανάκτησης δομημένης πληροφορίας και την
αξιοποίηση των δυνατοτήτων που μας δίνει ο RDF γράφος. Η απάντηση του συστήματος
αποτελείται από ταξινομημένες RDF τριπλέτες. Επίσης, παρέχουμε πολιτικές για την
κατάταξη των διαφορετικών οντοτήτων που περιέχονται στις τριπλέτες προκειμένου να
υποστηριχθεί και ο στόχος της κατάταξης οντοτήτων (entity-ranking).
Τα αποτελέσματα της αξιολόγησης των διαφορετικών προσεγγίσεων μας
περιλαμβάνουν (α) την αποδοτικότητα της ευρετηρίασης και της ανάκτησης και (β) την
ποιότητα της ανάκτησης. Δοκιμάζουμε την αποτελεσματικότητα του συστήματός μας
αξιολογώντας τη συνάφεια των οντοτήτων που κατασκευάζουμε πάνω από τη συλλογή
DBpedia-Entity, σχεδιασμένη για την αναζήτηση οντοτήτων μέσω της γνωσιακής βάσης
DBpedia και συγκρίνοντας τα αποτελέσματά μας με διάφορα συναφή συστήματα. Στα
αποτελέσματά μας παρουσιάζουμε την αποδοτικότητα της προτεινόμενης φιλικής προς
τον χρήστη προσέγγισης, η οποία εκμεταλλεύεται τα ισχυρά χαρακτηριστικά των
κλιμακώσιμων μηχανών αναζήτησης, ενώ μπορεί να εφαρμοστεί πάνω από οποιοδήποτε
σύνολο δεδομένων RDF χωρίς προηγούμενη γνώση του τομέα. Τα αποτελέσματα της
αξιολόγησης καταδεικνύουν ότι η Elasticsearch μπορεί να υποστηρίξει αποτελεσματικά
την αναζήτηση μέσω λέξεων-κλειδιών επί δεδομένων RDF, προσφέροντας
αποτελεσματικότητα εφάμιλλη εκείνης των συστημάτων που έχουν δημιουργηθεί
αποκλειστικά για RDF και χρησιμοποιούν οντο-κεντρικά ευρετήρια.
|