Your browser does not support JavaScript!

Αρχική    Using linked data for named entity extraction and disambiguation  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000399691
Τίτλος Using linked data for named entity extraction and disambiguation
Άλλος τίτλος Χρήση διασυνδεδεμένων δεδομένων για εξόρυξη και αποσαφήνιση οντοτήτων
Συγγραφέας Μπαριτάκης, Εμμανουήλ Μ.
Σύμβουλος διατριβής Τζίτζικας, Ιωάννης
Μέλος κριτικής επιτροπής Πλεξουσάκης, Δημήτριος
Φουντουλάκη, Ειρήνη
Περίληψη Με τον όρο Εξόρυξη Οντοτήτων αναφερόμαστε στη διαδικασία εντοπισμού οντοτήτων σε κείμενα και αρκετά συχνά στην σύνδεσή τους με σχετικούς (διαδικτυακούς) πόρους. Αυτή η διαδικασία είναι χρήσιμη σε πολλές εφαρμογές, όπως στην απάντηση επερωτήσεων, στην επισημείωση κειμένων, στην επεξεργασία αποτελεσμάτων αναζήτησης, κ.α. Ωστόσο, είναι αρκετά σύνηθες ένα όνομα οντότητας να αντιστοιχεί σε παραπάνω από μια κατηγορίες, λόγου χάρη ο όρος Αργεντινή μπορεί να αφορά είτε το είδος ψαριού Αργεντινή, είτε την ομώνυμη χώρα. Αυτό το πρόβλημα είναι γνωστό στη κοινότητα ως πρόβλημα της Αποσαφήνισης Οντοτήτων. Επιπρόσθετα, τα υπάρχοντα εργαλεία εντοπισμού και αποσαφήνισης οντοτήτων στερούνται μιας εύκολης και «ανοικτής» παραμετροποίησης, η οποία είναι σημαντική για τη δημιουργία εξειδικευμένων εφαρμογών. Για παράδειγμα, η υποστήριξη μιας νέας κατηγορίας οντοτήτων ή ο προσδιορισμός του τρόπου σύνδεσης των οντοτήτων με δεδομένα στο διαδίκτυο, είναι από πολύ δύσκολο έως ακατόρθωτο. Σε αυτήν την εργασία επικεντρωνόμαστε στο πως μπορούμε να εκμεταλλευτούμε τις διαθέσιμες σημασιολογικά οργανωμένες πληροφορίες, συγκεκριμένα τα Διασυνδεδεμένα Δεδομένα (Linked Data), για να παραμετροποιήσουμε ένα σύστημα εξόρυξης οντοτήτων καθώς και για να αποσαφηνίσουμε τις ευρεθείσες οντότητες. Προτείνουμε μια οντολογία RDF/S, που ονομάζεται Open NEE Configuration Model, η οποία επιτρέπει σε μια υπηρεσία εντοπισμού οντοτήτων να περιγράφει (και να εκφράζει ως Linked Data) τις προδιαγραφές της, καθώς και να παραμετροποιείται δυναμικά. Επίσης παρουσιάζουμε το X - Link, ένα εργαλείο εξόρυξης οντοτήτων που υιοθετεί το παραπάνω μοντέλο, που σε αντίθεση με άλλα συναφή εργαλεία, επιτρέπει στον χρήστη να προσδιορίζει, με εύκολο τρόπο, τις κατηγορίες οντοτήτων που τον ενδιαφέρουν για την εφαρμογή του (εκμεταλλευόμενος τα Linked Data). Εν συνεχεία, κινούμενοι ως προς αυτή την κατεύθυνση, εμβαθύνουμε στο πρόβλημα της αποσαφήνισης οντοτήτων, και πιο συγκεκριμένα στο πρόβλημα της επιλογής της κατάλληλης κατηγορίας για κάθε ευρεθείσα οντότητα. Για τον σκοπό αυτό προτείνουμε 3 μεθόδους, με κάθε μια να προσεγγίζει το πρόβλημα από διαφορετική σκοπιά. Η πρώτη βασίζεται εξολοκλήρου στα αποτελέσματα ενός NEE εργαλείου και θεωρεί ως πιθανότερη κατηγορία εκείνη με την μεγαλύτερη συχνότητα εμφάνισης στα αποτελέσματα. Η δεύτερη επεκτείνει την πρώτη και αξιοποιεί τις σημασιολογικές συσχετίσεις μεταξύ των οντοτήτων που έχουν εντοπιστεί, χρησιμοποιώντας τις σημασιολογικές τους ιδιότητες. Θεωρεί ως πιο πιθανή κατηγορία εκείνη που αντιστοιχεί στον σημασιολογικό πόρο που είναι πιο κοντά (στο σημασιολογικό γράφο) στους υπόλοιπους που εντοπίστηκαν. Η τελευταία μέθοδος χρησιμοποιεί αλγορίθμους μηχανικής μάθησης για την κατηγοριοποίηση του εκάστοτε κειμένου σε μια συγκεκριμένη κατηγορία, έχοντας πρώτα «εκπαιδευτεί» σε μια κατάλληλη συλλογή εγγράφων. Στη συνέχεια παρουσιάζουμε τα αποτελέσματα μιας εμπεριστατωμένης συγκριτικής αξιολόγησης που χρησιμοποιεί αποτελέσματα αναζήτησης από τη μηχανή αναζήτησης Bing. Τα αποτελέσματα της αξιολόγησης μας επιτρέπουν να εντοπίσουμε τα θετικά και τα αρνητικά κάθε μεθόδου. Πιο συγκεκριμένα, αξιολογήσαμε τις μεθόδους μας πάνω σε συλλογές εγγράφων διαφορετικού μεγέθους και υπολογίσαμε την ακρίβεια τους καθώς και τον απαιτούμενο χρόνο εκτέλεσης. Μετά το πέρας των πειραμάτων καταλήξαμε στο συμπέρασμα ότι η τρίτη μέθοδος (κατηγοριοποίηση εγγράφου) λειτουργεί καλύτερα σε όλες τις περιπτώσεις εκτός αυτής που το περιεχόμενο ενός εγγράφου είναι περιορισμένο, πχ. tweets , όπου έχει σχεδόν την ίδια ακρίβεια με την δεύτερη μέθοδο.
Φυσική περιγραφή vii, 84 σ. : πίν., εικ. ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα Διασυνδεδεμένα δεδομένα
Ημερομηνία έκδοσης 2016-03-18
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 626

Ψηφιακά τεκμήρια
No preview available

Κατέβασμα Εγγράφου
Προβολή Εγγράφου
Εμφανίσεις : 21