Your browser does not support JavaScript!

Αρχική    A Machine Learning method to classify sentences containing biomedical entities in academic text  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000453963
Τίτλος A Machine Learning method to classify sentences containing biomedical entities in academic text
Άλλος τίτλος Μια μέθοδος μηχανικής μάθησης για την ταξινόμηση προτάσεων που περιέχουν βιοϊατρικές οντότητες σε ακαδημαϊκά κείμενα
Συγγραφέας Μπουμπάκης, Απόστολος
Σύμβουλος διατριβής Καντεράκης, Αλέξανδρος
Περίληψη Στις μέρες μας, ο όγκος της βιοϊατρικής βιβλιογραφίας γίνεται ολοένα και μεγαλύτερος και έτσι η έρευνα για τη φυσική επεξεργασία γλώσσας (Natural Language Processing - NLP) σε κλινικά έγγραφα αποκτά πολύ σημαντικό ρόλο. Η αυτοματοποιημένη ανάλυση της βιοϊατρικής βιβλιογραφίας αναπτύσσεται ταχέως, διεγείροντας την ανάπτυξη αρκετών τεχνικών αυτόματης αναγνώρισης ονομαστικών οντοτήτων (Named Entity Recognition - NER) και ταξινόμησης εγγράφων. Ωστόσο, παρά την ύπαρξη τόσων πολλών τεχνικών για την ταξινόμηση των προτάσεων με βιοϊατρικές οντοτήτες, λίγα είδη οντοτήτων μπορούν εύκολα να αναγνωριστούν. Σκοπός αυτής της μελέτης είναι η παρουσίαση της τελευταίας λέξης της τενικής αναγνώρισης ονομαστικών οντοτήτων (Named Entity Recognition - NER), Bidirectional Encoder Representations from Transformers (BERT), με σκοπό την αναγνώριση/εξαγωγή των οντοτήτων Νοσήματα, Γονίδια, SNP και Χημικά, μέσα από βιοϊατρικά κείμενα. Ο λόγος για τον οποίο επιλέχθηκε το BERT είναι το γεγονός ότι είναι η πιο διαδεδομένη αρχιτεκτονική νευρωνικών δικτύων για την εκπαίδευση μοντέλων γλώσσας, έχοντας οδηγήσει σε σημαντικές βελτιώσεις σε διάφορες εργασίες φυσικής επεξεργασίας γλώσσας (Natural Language Processing - NLP). Γενικά, όσο περισσότερες είναι οι παράμετροι σε ένα μοντέλο BERT, τόσο καλύτερα είναι τα αποτελέσματα που λαμβάνονται. Δυστυχώς, λόγω του γεγονότος ότι η κατανάλωση μνήμης αυξάνεται με το μέγεθος αυτών των μοντέλων, εφαρμόστηκε η ελαφρύτερη παραλλαγή του μοντέλου BERT, το ditilBERT. Αυτή η τεχνική αξιολογήθηκε σε δύο εργασίες NER για κάθε οντότητα. Εν κατακλείδι, εκατοντάδες βιοϊατρικές εργασίες αναλύθηκαν σε μορφή XML, έπειτα αναλύθηκαν στις προτάσεις τους, ταξινομήθηκαν και επισημάνθηκαν ανάλογα, προκειμένου να δημιουργηθούν διαφορετικά σύνολα δεδομένων. Τέλος, πέρασαν από το μοντέλο BERT ώστε να αναγνωριστούν προτάσεις που περιλαμβάνουν (ή όχι) τις προαναφερθείσες οντότητες. Τα αποτελέσματα έδειξαν ότι με την κατάλληλη προεκπαίδευση του μοντέλου BERT, μπορεί να επιτευχθεί μεγάλη απόδοση αναγνώρισης, χωρίς εκτεταμένες απαιτήσεις για προσαρμογή (fine-tuning) και βελτιστοποίηση, ξεπερνώντας παράλληλα τα προηγούμενα μοντέλα στην τενική αναγνώρισης ονομαστικών οντοτήτων (Named Entity Recognition - NER) σε βιοϊατρικά κείμενα. Ωστόσο, υπάρχει οπωσδήποτε χώρος για περαιτέρω προσαρμογή και πολύ περισσότερη μελλοντική δουλειά και νέες προκλήσεις.
Φυσική περιγραφή 64 σ. : πίν. σχήμ. ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα Document classification
Entity recognition
Αναγνώριση οντοτητων
Ταξινόμηση κειμένων
Ημερομηνία έκδοσης 2023-04-05
Συλλογή   Σχολή/Τμήμα--Ιατρική Σχολή--Τμήμα Ιατρικής--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 372

Ψηφιακά τεκμήρια
No preview available

Κατέβασμα Εγγράφου
Προβολή Εγγράφου
Εμφανίσεις : 0