Περίληψη |
Η παρούσα διατριβή επικεντρώνεται στην πρόγνωση του καρκίνου του παχέος εντέρου και του
διαβήτη τύπου 2, χρησιμοποιώντας τις πληροφορίες που παρέχει το μικροβίωμα του ανθρώπινου
εντέρου. Η πρόβλεψη των εν λόγω ασθενειών βασιζόμενη στο μικροβίωμα των κοπράνων αποτελεί
μία πολλά υποσχόμενη μέθοδο πρόβλεψης καθώς είναι μη παρεμβατική, εξειδικευμένη και
ευαίσθητη. Τον τελευταίο καιρό αλγόριθμοι μηχανικής μάθησης, όπως o αλγόριθμος Random Forest,
χρησιμοποιούνται ευρέως ως προγνωστικά εργαλεία για ασθένειες. Η πλειοψηφία των
δημοσιευμένων εργασιών κάνουν χρήση των OTUs ή των ταξινομικών δεδομένων για την εκπαίδευση
και την αξιολόγηση των μοντέλων μηχανικής μάθησης. Από την άλλη, η παρούσα διατριβή
επικεντρώνεται στη χρήση της β ποικιλότητας και των πληροφοριών που αυτή μπορεί να προσφέρει
για την εκπαίδευση και την αξιολόγηση ενός αλγόριθμου Random Forest. Για να επιτευχθεί το
προαναφερθέν, αντλήθηκαν δεδομένα από πέντε διαφορετικές μελέτες με αντικείμενο διερεύνησης
το μικροβίωμα του εντέρου ασθενών με καρκίνο του παχέος εντέρου και ασθενών με διαβήτη τύπου
2. Συγκεκριμένα, χρησιμοποιήθηκαν αλληλουχίες από τις μελέτες των Park et al. (2021) και Huang et
al. (2020), οι οποίοι συγκέντρωσαν δείγματα κοπράνων από επιβεβαιωμένες περιπτώσεις καρκίνου
του παχέος εντέρου, και από τις μελέτες των Hoang et al. (2021), Huang et al. (2021) και Therdtatha
et al. (2021), οι οποίοι συγκέντρωσαν αντίστοιχα δείγματα από επιβεβαιωμένες περιπτώσεις διαβήτη
τύπου 2. Επιπλέον, χρησιμοποιήθηκαν αλληλουχίες από 191 υγιείς ανθρώπους, ούτως ώστε να
εκπαιδευτεί ορθά ο αλγόριθμος. Ακολουθήθηκε η εξής διαδικασία για τις ανεπεξέργαστες
αλληλουχίες: αρχικά, χρησιμοποιήθηκε η ροή εργασιών IMNGS [Lagkouvardos et al., 2016] για την
αρχική επεξεργασία των αλληλουχιών, ύστερα χρησιμοποιήθηκαν οι διαδοχικοί αλγόριθμοι Rhea
[Lagkouvardos et al. 2017] για την κανονικοποίηση των πινάκων OTUs που προέκυψαν από τη ροή
εργασιών IMNGS, τον προσδιορισμό της α ποικιλότητας και της ταξινόμησης του μικροβιώματος, και
την πραγματοποίηση στατιστικών τεστ. Τέλος, χρησιμοποιήθηκαν οι διαδοχικοί αλγόριθμοι DivCom
[Intze & Lagkouvardos, 2022] με σκοπό τον προσδιορισμό της β ποικιλότητας. Όσον αφορά στην
εκπαίδευση του αλγορίθμου Random Forest, χρησιμοποιήθηκαν τα OTUs, τα ταξινομικά δεδομένα
και η β ποικιλότητα, ούτως ώστε να αξιολογηθεί απόδοση του αλγορίθμου σε κάθε περίπτωση και
να προσδιοριστεί η καταλληλότητα των δεδομένων που παρέχει η β ποικιλότητα σχετικά με την
πρόβλεψη του καρκίνου του παχέος εντέρου και του διαβήτη τύπου 2. Πραγματοποιήθηκε
εκπαίδευση του αλγορίθμου Random Forest και για τις δυο ασθένειες, αλλά και για κάθε μια
ασθένεια ξεχωριστά. Συνοπτικά, όσον στον αφορά στην εκπαίδευση με χρήση δεδομένων και για τις
δυο ασθένειες αλλά και για την περίπτωση του καρκίνου του παχέος εντέρου, η χρήση των
δεδομένων της β ποικιλότητας επέφερε αρκετές προβλέψεις με μεγαλύτερη ακρίβεια σε σχέση με τα
αντίστοιχα αποτελέσματα από την εκπαίδευση με χρήση OTUs και ταξινομικών δεδομένων. Αντίθετα,
για την περίπτωση του διαβήτη τύπου 2, η εκπαίδευση με χρήση των δεδομένων της β ποικιλότητας
δεν επέφερε ακριβέστερες προβλέψεις, καθώς τα αποτελέσματα ήταν παρόμοια με αυτά της
εκπαίδευσης με χρήση των OTUs και των ταξινομικών δεδομένων. Ωστόσο, το προαναφερθέν δεν
συνεπάγεται ότι τα δεδομένα που προσφέρει η β ποικιλότητα είναι λιγότερο κατάλληλα για την
πρόβλεψη του διαβήτη τύπου 2. Συνοψίζοντας, τα δεδομένα που μπορούν να αντληθούν από την β
ποικιλότητα αποτελούν πολύτιμα εργαλεία για την πρόγνωση του καρκίνου του παχέος εντέρου και
του διαβήτη τύπου 2, καθώς συγκεντρώνουν ένα μεγάλο αριθμό σημαντικών πληροφοριών σε μια
μόνο παράμετρ
|