Περίληψη |
Η συγκεκριμένη εργασία ασχολείται διεξοδικά με το πρόβλημα εύρεσης
αποτελεσματικών και αποδοτικών μεθόδων για την ομαδοποίηση αποτελεσμάτων στις μηχανές αναζήτησης του Ιστού. Εν συντομία, η ομαδοποίηση αποτελεσμάτων παρέχει στους χρήστες μια γενική επισκόπηση των αποτελεσμάτων αναζήτησης, επιτρέποντας τους να εστιάσουν
την προσοχή τους σε εκείνα τα τμήματα της απάντησης που ανταποκρίνονται στις
πληροφοριακές τους ανάγκες.
Επιπλέον, η ομαδοποίηση αποτελεσμάτων μετριάζει το πρόβλημα της αμφισημίας των λέξεων της φυσικής γλώσσας. Εντούτοις, η σύνταξη (μονολεκτικών ή περιφραστικών) ονομάτων παρουσίασης για τις
παραγόμενες ομάδες είναι ένα δύσκολο πρόβλημα αφού τα ονόματα πρέπει αφενός να είναι συντακτικά ορθά
και αφετέρου να επιτρέπουν στο χρήστη να προβλέψει τα περιεχόμενα των ομάδων.
Συνάμα, η ομαδοποίηση αποτελεσμάτων αποτελεί τμήμα της διαδικασίας απάντησης επερωτήσεων επομένως η αποδοτικότητα είναι μια σημαντική απαίτηση.
Η εργασία αυτή κάνει μια επισκόπηση των μεθόδων που έχουν προταθεί και έχουν χρησιμοποιηθεί για την ομαδοποίηση αποτελεσμάτων και εστιάζει στον αλγόριθμο Suffix Tree Clustering (STC).
Ο STC είναι μια τεχνική στην οποία τα αποτελέσματα αναζήτησης (κυρίως τμήματα των κειμένων) ομαδοποιούνται γρήγορα (σε γραμμικό χρόνο), αυξητικά, και η κάθε ομάδα έχει μια φράση σαν όνομα.
Η εργασία αυτή προτείνει δύο νέες μέθοδους:
(α) μια παραλλαγή του STC, που λέγεται STC+, η οποία χρησιμοποιεί μια συνάρτηση βαθμολόγησης που ευνοεί τις φράσεις που εμφανίζονται στους τίτλους των εγγράφων και διαφέρει στον τρόπο με τον οποίο συγχωνεύονται οι υποψήφιες ομάδες, και (β) ενα νέο αλγόριθμο, που λέγεται HSTC, ο οποίος καταλήγει σε μια ιεραρχική δομή από ομάδες. Η συγκριτική αξιολόγηση με χρήστες έδειξε ότι οι χρήστες προτιμούν περισσότερο τους STC+ και HSTC από τον STC, και ότι ο HSTC είναι δύο φορές πιο γρήγορος από τους STC και STC+. Οι μέθοδοι αυτοί εφαρμόστηκαν πάνω στη μηχανή αναζήτησης Μίτος και το Google.
Επιπλέον, τα αποτελέσματα του HSTC ενσωματώθηκαν στο μοντέλο αλληλεπίδρασης των Δυναμικών Πολυδιάστατων Ταξινομιών που υποστηρίζει η μηχανή Μίτος, ως μια επιπλέον διάσταση που συμπληρώνει τι
;ς υπόλοιπες διαστάσεις (που είναι ανεξάρτητες περιεχομένου). Η ζεύξη αυτή έχει σαν αποτέλεσμα
μια αποτελεσματική, ευέλικτη και αποδοτική πλοηγητική εμπειρία. Τέλος, περιγράφονται και αναλύονται τα πειραματικά και εμπειρικά αποτελέσματα από την εφαρμογή αυτών των μεθόδων πάνω στη μηχανή Μίτος και στο Google.
|