Your browser does not support JavaScript!

Αρχική    Evaluating Continuous Top-k Queries over Text Streams  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000373221
Τίτλος Evaluating Continuous Top-k Queries over Text Streams
Άλλος τίτλος Αποτίμηση συνεχών κ-κορυφαίων επερωτήσεων επάνω σε ροές κειμενικών δεδομένων .
Συγγραφέας Βουζουκίδου, Νέλη Κωνσταντίνος
Σύμβουλος διατριβής Χριστοφίδης, Βασίλης
Bernd, Amann
Περίληψη Οι τεχνολογίες Web 2.0 έχουν μετατρέψει τον Ιστό από ένα περιβάλλον απλής δημοσίευσης σε ένα ζωντανό χώρο πληροφορίας, όπου οι μέχρι πρόσφατα τελικοί χρήστες έχουν μετατραπεί και οι ίδιοι σε παραγωγούς πληροφορίας. Εκτός από τις παραδοσιακές πηγές πληροφόρησης, όπως ιστοσελίδες Τύπου, σήμερα, κοινωνικά δίκτυα, ιστολογία χρηστών (blogs) και φόρουμ δημοσιεύουν σε καθημερινή βάση εκατομμύρια στοιχεία πληροφορίας (items). Δεδομένου του τεράστιου όγκου και της μεγάλης ποικιλομορφίας των πληροφοριών που παράγονται στο Web 2.0, υπάρχει μια επιτακτική ανάγκη για αποδοτικές και πραγματικού χρόνου μεθόδους φιλτραρίσματος πάνω σε ροές πληροφοριών που θα επιτρέπουν σε εκατομμύρια χρήστες να παρακολουθήσουν αποτελεσματικά ενδιαφέρουσες πληροφορίες σύμφωνα με προσωπικά κριτήρια. Στο πλαίσιο αυτό, οι χρήστες συνήθως εκδίδουν επερωτήσεις βασισμένες σε λέξεις - κλειδιά, οι οποίες μπορούν είτε να αποτιμηθούν απευθείας από μηχανές αναζήτησης, είτε να υποβληθούν σε υπηρεσίες Ειδοποίησης (Alerts), που αναλαμβάνουν να ειδοποιούν συνεχώς τον χρήστη για πρόσφατα δημοσιευμένα στοιχεία πληροφορίας που ταιριάζουν στα δικά του κριτήρια φιλτραρίσματος. Και στις δύο περιπτώσεις, χρησιμοποιούνται συναρτήσεις αποτίμησης προκειμένου να μετρηθεί η συσχέτιση του στοιχείου πληροφορίας με τους όρους που περιέχει η επερώτηση, καθώς επίσης και η σπουδαιότητα του στοιχείου πληροφορίας σύμφωνα με ποιοτικά κριτήρια ανεξάρτητα της επερώτησης. Για την αποτίμηση της σπουδαιότητας αυτής χρησιμοποιούνται παράμετροι όπως ηλικία της πληροφορίας, αξιοπιστία καθώς επίσης και σπουδαιότητα της θεματικής συλλογής στην οποία ανήκουν λόγω π.χ. του ότι περιγράφουν το ίδιο πραγματικό γεγονός. Η αποτελεσματικότητα της συνάρτησης αποτίμησης που χρησιμοποιείται, στηρίζεται στο πόσο καλά συνδυάζεται η συσχέτιση βασισμένη στους όρους με την σπουδαιότητα του στοιχείου πληροφορίας και αυτό γίνεται συνήθως χρησιμοποιώντας σταθμισμένο μέσο όρο πάνω στις δύο βαθμολογίες. Επιπλέον, για να μπορούμε να εγγυηθούμε ότι η πληροφορία που αποστέλλεται στους χρήστες είναι όσο το δυνατόν πιο πρόσφατη, χρησιμοποιείται συνδυασμός χρονικής εξασθένησης της βαθμολογίας με τεχνικές κυλιόμενων παραθύρων. Σε αυτή την εργασία, επικεντρωνόμαστε στο πρόβλημα εύρεσης αποδοτικών αλγορίθμων και δομών δεδομένων για επιγραμμική παρακολούθηση του περιεχομένου του Web 2.0 και πιο συγκεκριμένα στην αποδοτική αποτίμηση συνεχών κ-κορυφαίων επερωτήσεων επάνω σε κ ειμενικές ροές πληροφορίας. Πρέπει να τονιστεί, στο σημείο αυτό, ότι υπάρχοντα εμπορικά συστήματα ειδοποίησης μετατρέπουν μία συνεχή επερώτηση σε μία σειρά περιοδικά εκτελέσιμων στιγμιαίων επερωτήσεων. Αυτή η προσέγγιση εμπεριέχει σημαντικούς περιορισμούς: δεδομένων μεγάλων αριθμών επερωτήσεων χρηστών και μεγάλων ρυθμών δημοσίευσης πληροφορίας είναι πρακτικά αδύνατη η επαναλαμβανόμενη αποτίμηση όλων των επερωτήσεων αυτών σε σχεδόν κάθε νέα άφιξη στοιχείου πληροφορίας. Για αυτό το λόγο, τα εμπορικά συστήματα συνήθως μειώνουν τη συχνότητα αποτίμησης των επερωτήσεων και ως εκ τούτου σημαντικές ενημερώσεις πληροφορίας μπορεί να χαθούν. Αντίθετα με υπάρχουσα ερευνητική δουλειά σε συνεχείς κ-κορυφαίες κειμενικές επερωτήσεις, στην εργασία αυτή, θεωρούμε πολύπλοκες συναρτήσεις αποτίμησης που περιλαμβάνουν τόσο την κειμενική συσχέτιση του στοιχείου πληροφορίας με την επερώτηση, όσο και την σπουδαιότητα του, αλλά την νέα πληροφορία που προσφέρει ως προς το τι έχει ήδη δημοσιευτεί. Στη συνέχεια, προτείνουμε την αναπαράσταση των επερωτήσεων βασισμένοι στη βαθμολογία τους, κάτι που μας επιτρέπει να αποτιμήσουμε αποδοτικά το πρόβλημα της επιλογής επερωτήσεων χρηστών: η αποτίμηση, δεδομένου ενός στοιχείου πληροφορίας, των χρηστών εκείνων όπου η λίστα των κ-κορυφαίων αποτελεσμάτων πρέπει να ανανεωθεί, δηλαδή, πρέπει να εισαχθεί σε αυτές. Η καινοτομία της προσέγγισης που ακολουθούμε έγκειται στην αποτελεσματικότητα οριακών συνθηκών που έχουμε εξάγει προκειμένου να περιορίσουμε δραστικά το σύνολο επερωτήσεων που πρέπει να ελεγχθούν κατά τη διάρκεια της αποτίμησης και με μικρό επιπλέον κόστος λόγω της ανανέωσης των κ-κορυφαίων λιστών, για ένα αρκετά ευρύ φάσμα συναρτήσεων αποτίμησης (σταθμισμένο μέσο όρο βαθμολογίας βασισμένη στην επερώτηση και βαθμολογίας αναξάρτητης αυτής εφαρμόζοντας πάνω της συναρτήσεις εξασθένησης βαθμολογίας).
Φυσική περιγραφή vi, 57 σ. : εικ., πίν. ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα Algorithms
Continuous queries
Decay functions
Indexes
Top-k queries
text streams
Αλγόριθμοι
Δομές δεδομένων
Κ-κοερυφαίες ερωτήσεις
Ροές κειμενικών δεδομένων
Συναρτήσεις εξασθένησης βαθμολογίας
Συνεχείς ερωτήσεις
Ημερομηνία έκδοσης 2012-03-23
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 111

Ψηφιακά τεκμήρια
No preview available

Προβολή Εγγράφου
Εμφανίσεις : 8