E-Locus - Ιδρυματικό Καταθετήριο Πανεπιστημίου Κρήτης - A Methodological Framework for Statistical Analysis of Text from Social Media

Αρχική A Methodological Framework for Statistical Analysis of Text from Social Media

Αποτελέσματα - Λεπτομέρειες

[Προσθήκη στο καλάθι]

Κωδικός Πόρου

000379468

Τίτλος

A Methodological Framework for Statistical Analysis of Text from Social Media

Άλλος τίτλος

Ένα μεθοδολογικό πλαίσιο για τη στατιστική ανάλυση κειμένου από κοινωνικά μέσα

Συγγραφέας

Κλεισαρχάκη, Σοφία Ιωάννης

Σύμβουλος διατριβής

Χριστοφίδης, Β.
Κοτζίνος, Δ.
Τσαμαρδινός, Ι.

Περίληψη

Γινόμαστε μάρτυρες μιας απρόσμενης αύξησης του ενδιαφέροντος στα κοινωνικά μέσα που επιτρέπει στους χρήστες να επιτύχουν μια σχεδόν πραγματικού χρόνου ενημέρωση. Αρκετές σελίδες κοινωνικής δικτύωσης (π.χ. Facebook), ιστολόγια π.χ. Twitter) και κοινωνικά μέσα ενημέρωσης (π.χ. Digg) παράγουν σε καθημερινή βάση μεγάλο όγκο από περιεχόμενο προερχόμενο από τον χρήστη υπό την μορφή κειμένου μηνυμάτων, σχετιζόμενα με ένα ευρύ φάσμα ειδήσεων του πραγματικού κόσμου (προσωπικές, πολιτικές, εμπορικές κτλ). Η αυτοματοποιημένη ανάλυση τέτοιου είδους κοινωνικών ροών κειμένου έχει ήδη δημιουργήσει επιστημονική και εμπορική αξία. Αρκετές μέθοδοι συσταδοποίησης μηχανικής μάθησης έχουν προταθεί στο πλαίσιο αυτό τα τελευταία χρόνια. Ωστόσο, δεν υπάρχει ακόμη μια κοινώς χρησιμοποιούμενη μεθοδολογία για τη στατιστική ανάλυση του κειμενικού περιεχομένου που παράγε¬ται στα κοινωνικά μέσα ενημέρωσης η οποία να λαμβάνει υπόψη τις ιδιομορφίες των κοινωνικών ροών κειμένου. Για παράδειγμα, το Twitter κατακλύζεται από μηνύματα χαμηλής ποιότητας (σόλοικη σύνταξη, ανεπιθύμητα κτλ), προκαλώντας σημαντικό αν¬τίκτυπο στο εξαχθέν λεξιλόγιο και στην αναπαράσταση της βάρυνσης του. Επιπλέον, τα μηνύματα των χρηστών είναι ετερογενή και θορυβώδη κυμαινόμενα από προσωπικές ιστορίες μέχρι έκτακτες ειδήσεις, επηρεάζοντας το πλήθος και την ωφελιμότητα των συστάδων. Τα μηνύματα χαρακτηρίζονται από μια μη στατική κατανομή δεδομένων εξαιρετικά εξελισσόμενης συμπεριφοράς που πιθανόν προκαλεί εξέλιξη στο σχήμα, το κεντροειδές και την πυκνότητα των συστάδων. Στην παρούσα διατριβή παρακινο¬ύμενοι από τις προαναφερθείσες παρατηρήσεις και τα πενιχρά αποτελέσματα μερικών γνωστών αλγορίθμων συσταδοποίησης ενδιαφερόμαστε να κατανοήσουμε ποίες από τις ιδιομορφίες των κοινωνικών ροών κειμένου που υπάρχουν στην πραγματικότητα επη¬ρεάζουν την εξέλιξη της συμπεριφοράς των συστάδων οι οποίες εντοπίζονται αυτόματα από διάφορα είδη αλγορίθμων μηχανικής μάθησης. Ειδικότερα, εντός του πεδίου των δεδομένων μας έχουμε ενδείξεις ότι το κεντροειδές της συστάδας ενός θέματος κινε¬ίται μέσα σε ένα πολυδιάστατο χώρο υποδεικνύοντας μια μετατόπιση του θεματικού ενδιαφέροντος που συζητιέται στην πάροδο του χρόνου. Επιπλέον, το σχήμα των συστάδων επίσης αλλάζει με την πάροδο του χρόνου υποδεικνύοντας τη σύγκλιση ή απόκλιση των απόψεων των χρηστών. Βασιζόμενοι σε αυτό το μεθοδολογικό πλαίσιο, σκοπεύουμε να σκιαγραφήσουμε τις αδυναμίες αρκετών αλγορίθμων συσταδοποίησης, που προτάθηκαν στη βιβλιογραφία, να προσαρμόσουν τις αναλυόμενες συστάδες στις ιδιομορφίες των κοινωνικών ροών κειμένου και εν τέλει να βελτιώσουν την ποιότητα συσταδοποίησης τους.

Φυσική περιγραφή

v, 88 σ. : εικ., πίν. ; 30 εκ.

Γλώσσα

Αγγλικά

Θέμα

Centroid

Clustering algorithm

Density

Shape

Twitter

Αλγόριθμος Συσταδοποίησης

Κεντροειδές