Περίληψη |
Από την πρώτη τους εφαρμογή, οι Genome Wide Association (GWA) μελέτες έχουν παρουσιάσει σημαντική εξέλιξη και έχουν προσφέρει πολύτιμη βοήθεια στη δια¬γνωστική ιατρική. Κύριος στόχος τους αποτελεί η δημιουργία σύνδεσης ανάμεσα σε ένα σύνολο χαρακτηριστικών όπως ανθρώπινων ασθενειών, ή επίπεδο πρωτεϊνικών συγκεντρώσεων, και στο γενετικό υπόβαθρο (συνήθως μέσω σημειακών μεταλλάξε¬ων) ενός συγκεκριμένου βιολογικού είδους. Ερωτήματα τέτοιας μορφής είναι συχνά επιρρεπή σε προβλήματα που προκύπτουν κυρίως από τον υψηλό αριθμό διαστάσεων (εκατομμύρια καταγεγγραμμένες σημειακές μεταλλάξεις), τον χαμηλό αριθμό δειγ¬μάτων, την ανάγκη για διόρθωση στον έλεγχο πολλαπλών υποθέσεων καθώς και την ανάγκη να ληφθεί υπόψιν η πληθυσμιακή δομή των δειγμάτων.
Στη συγκεκριμένη διπλωματική εργασία, αντιμετωπίζουμε τα τρέχοντα μεθοδολο¬γικά προβλήματα των GWA αναλύσεων χρησιμοποιώντας μία μέθοδο επιλογής μετα¬βλητών, ονομαζόμενη generalized Orthogonal Matching Pursuit-gOMP. O gOMP προσφέρει πληθώρα ευνοϊκών χαρακτηριστικών όπως α) υπολογιστική ταχύτητα και επεκτασιμότητα σε οποιοδήποτε αριθμό μεταβλητών, β) προσαρμοστικότητα σε οποιο¬δήποτε τύπο εξαρτημένης μεταβλητής (π.χ. δυαδική, συνεχής, time-to-event κ.α.) και γ) απλότητα ως προς την υπολοίησή του. Επίσης, ο gOMP είναι σε θέση να ενσωμα-
TM
τωθεί πλήρως με το αυτοματοποιημένο σύστημα μηχανικής μάθησης JAD Bio's το οποίο εξασφαλίζει μεθοδολογική ορθότητα σχετικά με τη διαδικασία δημιουργίας των στατιστικών μοντέλων, καθώς και την αμερόληπτη εκτίμηση της προβλεπτικής επίδοσης. Επιπροσθέτως, επεκτείνουμε τα τεχνικά χαρακτηριστικά του gOMP μέσω παραλληλοποίησης της λειτουργίας του ως προς τον αριθμό των μεταβλητών, καθώς και μέσω της προσθήκης της δυνατότητας εύρεσης πολλαπλών μεταβλητών, στατιστι¬κά ισοδύναμων των ήδη επιλεγμένων. Σχετικά με τις ισοδύναμες υπογραφές, υποστη¬ρίζουμε ότι μέσω αυτών είναι δυνατή η αποτύπωση και η διόρθωση των φαινομένων που πηγάζουν από την πληθυσμιακή δομή. Ως προς την αξιολόγηση της επίδοσης του, επιχειρείται μία εκτενής συγκρισή ανάμεσα στο gOMP και στο QTCAT πάνω σε προσομοιωμένα δεδομένα. Στη συνέχεια, ο gOMP εφαρμόζεται και σε πραγματικά δεδομένα που αφορούν σε ανθρώπινες ασθένειες. Ως αποτέλεσμα, ο gOMP αποδει¬κνύεται μία ισχυρή μέθοδος ανάλυσης γενομικών δεδομένων όσον αφορά την επίδοση, την εύρεση των συσχετισμένων με το φαινότυπο μεταβλητών καθώς και ως προς την υπολογιστική πολυπλοκότητα (χρόνου εκτέλεσης).
|