Your browser does not support JavaScript!

Αρχική    Εξόρυξη γνώσεων από Βιοϊατρική Βιβλιογραφία – Το Σύστημα ΜINEBIOΤEXT: Ανακάλυψη συσχετίσεων μεταξύ γονιδίων, πρωτεϊνών και ασθενειών  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου uch.csd.msc//2006antonakaki
Τίτλος Εξόρυξη γνώσεων από Βιοϊατρική Βιβλιογραφία – Το Σύστημα ΜINEBIOΤEXT: Ανακάλυψη συσχετίσεων μεταξύ γονιδίων, πρωτεϊνών και ασθενειών
Άλλος τίτλος Mining the Biomedical Literature – The MineBioText system: Discovery of Gene, Protein and Disease Correlations
Συγγραφέας Αντωνακάκη, Δέσποινα
Περίληψη Η αυτόματη ανακάλυψη γνώσεων από έγγραφα βιοϊατρικού περιεχομένου ελεύθερης γραφής (free-texts) αποτελεί μια αναγκαιότητα κυρίως λόγω του τεράστιου, και συνεχώς αυξανόμενου, πλήθους σχετικών επιστημονικών αναφορών. Το βασικό πρόβλημα που κάνει αυτόν τον στόχο περισσότερο προκλητικό και δύσκολο είναι η υπεραφθονία καθώς και η ποικιλομορφία σχετικών γονιδιωματικών ορολογιών και των εμπλεκόμενων γονιδιακών/πρωτεϊνικών ορολογιών. Συγκεκριμένα, ένας γονιδιωματικός όρος, π.χ., γονίδιο ή πρωτεΐνη και η περιγραφή της λειτουργία, αλλά και σχετιζόμενες ασθένειες, αναφέρονται με πολλούς διαφορετικούς τρόπους σε σχετικά επιστημονικά έγγραφα ανάλογα με το ερευνητικό πλαίσιο και τις συμβάσεις ονοματολογίας που ο συντάκτης του εγγράφου αποδέχεται και ακολουθεί. Η εργασία που αναφέρεται σε αυτήν την μεταπτυχιακή διατριβή παρουσιάζει μεθόδους και τα εργαλεία για την αποδοτική και αξιόπιστη ανακάλυψη γνώσεων από τη σχετική βιοϊατρική βιβλιογραφία και αναφορές, και βασίζεται σε προηγμένες τεχνικές εξόρυξης γνώσης από κείμενα (text-mining). Συγκεκριμένα, συνδιαλέγεται και προσφέρει λύσεις στις παρακάτω ερευνητικές και αναπτυξιακές (Ε&Α) προκλήσεις: (α) Αυτόματη ανακάλυψη συσχετίσεων μεταξύ γονιδίων/πρωτεϊνών και μεταξύ γονιδίων/πρωτεϊνών και ασθενειών. Το θέμα προσεγγίζεται με τεχνικές και αλγοριθμικές διαδικασίες text-mining καθώς και τη δημιουργία και χρήση σχετικών στατιστικών μετρικών: (i) Προσδιορισμός, αναγνώριση και διαχείριση όρων σε βιοϊατρικά έγγραφα – για το σκοπό αυτό επινοήθηκε και προσαρμόστηκε κατάλληλα μια αλγοριθμική διαδικασία που χρησιμοποιεί την ευέλικτη και αποδοτική δομή δεδομένων Trie, και (ii) ταξινόμηση των όρων και (των πιθανών) σχέσεών τους ή, συνδέσεων – για το σκοπό αυτό η εντροπική μετρική υπολογισμού της αμοιβαίας πληροφορίας έχει κατάλληλα προσαρμοστεί και χρησιμοποιηθεί. (β) Κατασκευή δικτύου συσχέτισης γονιδίων/πρωτεϊνών (gene correlation network) – βασίζεται στην αξιολόγηση της δύναμης συσχέτισης (correlation strength) των προσδιορισμένων και αναγνωρισμένων γονιδιωματικών όρων στα διαθέσιμα έγγραφα. (γ) Κατηγοριοποίηση/Tαξινόμηση εγγράφων (κυρίως από την αποθήκη περιλήψεων PubMed) η οποία βασίζεται στην επινόηση και χρήση μιας μετρικής ταξινόμησης και την εισαγωγή σχετικής αλγοριθμικής διαδικασίας ταξινόμησης εγγράφων (texts classification) – η μετρική χρησιμοποιεί τη δύναμη συσχέτισης μεταξύ όρων που εμφανίζονται στα διαθέσιμα έγγραφα. Η αλγοριθμική διαδικασία στηρίζεται στην εκπαίδευση (training) του ταξινομητή εγγράφων με βάση έγγραφα-εκπαίδευσης από τη βάση/αποθήκη περιλήψεων PubMed και την εκ’ των προτέρων ταξινομησή τους (preassignment to classes) από σχετικά ερωτήματα στο PubMed, δηλ., θέτοντας το ερώτημα στο PubMed "καρκίνος του μαστού" τα ανακτημένα έγγραφα θεωρούνται ότι ανήκουν στην κατηγορία "καρκίνος-μαστού". (δ) Εκτεταμένα πειράματα για την επικύρωση (validation) και αξιολόγηση (evaluation) αποτελεσμάτων σε σχέση με την αξιοπιστία και ‘χρησιμότητα’ των συσχετίσεων που ανακαλύπτονται, καθώς και σε σχέση με την αξιοπιστία (ακρίβεια) κατάταξης και ταξινόμησης εγγράφων. (ε) Σχεδίαση και ανάπτυξη ενός εργαλείου – το σύστημα MineBioΤext, το οποίο ενσωματώνει όλες τις προαναφερθείσες τεχνικές και διαδικασίες με τις πρόσθετες λειτουργίες για τη δημιουργία του πεδίου-αναφοράς (domain of reference) σε ολοκληρωμένες διαδικασίες εξόρυξης γνώσης από βιβλιογραφικές αναφορές, π.χ., εκμετάλλευση πολλαπλών ονοματολογιών γονιδίων/πρωτεϊνών και ασθενειών, των συνωνυμών τους και των αντίστοιχων ελεύθερου-κειμένου περιγραφών τους, συλλογές εγγράφων, παραμετροποίηση διαδικασιών, οπτικοποίηση (visualization) αποτελεσμάτων κ.λπ.
Ημερομηνία έκδοσης 2006-04-01
Ημερομηνία διάθεσης 2006-07-19
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 141

Ψηφιακά τεκμήρια
No preview available

Προβολή Εγγράφου
Εμφανίσεις : 9