Your browser does not support JavaScript!

Αρχική    Σύστημα ημι-αυτόματης κατηγοριοποίησης του περιεχομένου που συγκεντρώνει ένας δικτυακός τόπος από διαφορετικές πηγές (διαδίκτυο, εσωτερική πληροφορία)  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου uch.csd.msc//2006politopoulou
Τίτλος Σύστημα ημι-αυτόματης κατηγοριοποίησης του περιεχομένου που συγκεντρώνει ένας δικτυακός τόπος από διαφορετικές πηγές (διαδίκτυο, εσωτερική πληροφορία)
Άλλος τίτλος Web Content Classifier
Συγγραφέας Πολιτοπούλου, Ζωή
Περίληψη Η ανάπτυξη του διαδικτύου έχει προσφέρει στους χρήστες του μια πληθώρα πληροφοριών, η πλειονότητα των οποίων βρίσκεται διαθέσιμη σε μορφή κειμένου. Ο χρήστης είναι καθημερινά αντιμέτωπος με τα προβλήματα της αυτόματης λήψης αυτού του υλικού και της οργάνωσης του σε κατηγορίες με έναν αυτόματο ή ημι-αυτόματο τρόπο και φυσικά πριν το υλικό αυτό φτάσει να χρησιμοποιηθεί. Τα Συστήματα Διαχείρισης Περιεχομένου (ΣΔΠ) συνεισφέρουν σε αυτή την προσπάθεια δίνοντας στους χρήστες έναν ενιαίο τρόπο οργάνωσης και παρουσίασης του περιεχομένου τους. Κανένα όμως από τα υπάρχοντα ΣΔΠ δεν παρέχει έναν αυτόματο ή ημι-αυτόματο τρόπο για την λήψη και κατηγοριοποίηση των κειμένων. Σε αυτό το σημείο έρχονται να συνεισφέρουν οι γνωστές από παλιότερα Τεχνικές Κατηγοριοποίησης Κειμένου (Text Categorization – TC), οι οποίες μετεξελίσσονται και προσαρμόζονται στα δεδομένα του διαδικτύου. Η παρούσα εργασία ασχολείται με όλο το πρόβλημα της ανάκτησης και κατηγοριοποίησης κειμένου, ξεκινώντας από την διαδικασία λήψης από την πηγή είτε αυτή είναι κείμενο, είτε RSS, είτε το αποτέλεσμα της αναζήτησης μέσω Google API. Περιγράφει καταρχήν την διαδικασία λήψης και διαχείρισης κειμένου από τις παραπάνω πηγές. Μετέπειτα ασχολείται με την λεξικογραφική ανάλυση του κειμένου και παρουσιάζει έναν αλγόριθμο ο οποίος χρησιμοποιείται για την συγκεκριμένη εργασία. Αφού παραχθούν οι λέξεις κλειδιά κάθε κειμένου μετά οι λέξεις αυτές δίνονται στον αλγόριθμο κατηγοριοποίησης, ο οποίος προσπαθεί να εντάξει το υπό εξέταση κείμενο κάτω από μία από τις διαθέσιμες κατηγορίες. Οι κατηγορίες αυτές προκύπτουν από τη χρήση του προτύπου καταλόγου DMOZ, ο οποίος αποτελεί και την βάση των περισσότερων μηχανών αναζήτησης. Οι κατηγορίες περιγράφονται σε αντίστοιχες ιεραρχίες και προσφέρουν έναν τυποποιημένο και καθολικό τρόπο για να τις αναφέρει κανείς ή να περιγράψει πραγματικά αντικείμενα, ενέργειες, έγγραφα κτλ. ενώ μπορούν να χρησιμοποιηθούν και για την περιγραφή των χαρακτηριστικών του περιεχομένου ενός αντικειμένου. Ο συνδυασμός ενός αλγορίθμου κατηγοριοποίησης για το διαδίκτυο και του προτύπου καταλόγου DMOZ αποτελεί την πρώτη προσπάθεια που αναφέρεται στη βιβλιογραφία. Τέλος η διαδικασία της λήψης κειμένου από το διαδίκτυο και της μετέπειτα κατηγοριοποίησης του μελετάται στα πλαίσια λειτουργίας ενός ΣΔΠ και μάλιστα ενός ΣΔΠ Ελεύθερου Λογισμικού / Ανοικτού Κώδικα, κάτι το οποίο παρουσιάζεται για πρώτη φορά στη βιβλιογραφία. Παρουσιάζεται η δυνατότητα ενσωμάτωσης της διαδικασίας λήψης και κατηγοριοποίησης κειμένου στις διαθέσιμες προς τον τελικό χρήστη δυνατότητες του ΣΔΠ και η ανταλλαγή πληροφορίας με τα υπόλοιπα μέρη του συστήματος καθώς και τα προβλήματα και οι περιορισμοί που αντιμετωπίστηκαν εξαιτίας της ενσωμάτωσης στο ΣΔΠ. Τέλος παρουσιάζονται κάποια σενάρια χρήσης από όπου κανείς μπορεί να συμπεράνει πως η διαδικασία παράγει ικανοποιητικά αποτελέσματα και μπορεί να χρησιμοποιηθεί σε ένα περιβάλλον παραγωγής. Η όλη εργασία μπορεί να επεκταθεί με την χρήση περισσότερο εμπλουτισμένων περιγραφών μεταδεδομένων για τις κατηγορίες αλλά και την χρήση της γνώσης που αποκτάται από το σύστημα από τις διαδοχικές κατηγοριοποιήσεις. Τέλος θα είχε ιδιαίτερο ενδιαφέρον η παροχή της συγκεκριμένης διαδικασίας σαν ηλεκτρονικής υπηρεσίας (web service) ώστε να είναι εφικτή η χρήση της και από άλλα ΣΔΠ.
Ημερομηνία έκδοσης 2006-04-01
Ημερομηνία διάθεσης 2006-07-19
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 73

Ψηφιακά τεκμήρια
No preview available

Προβολή Εγγράφου
Εμφανίσεις : 4