Περίληψη |
Οι σύγχρονες μέθοδοι ανάλυσης δεδομένων (στατιστικής, μηχανικής μάθησης, εξόρυξης δεδομένων) εφαρμόζονται συνήθως σε ένα μεμονωμένο σύνολο δεδομένων, ανεξάρτητα από άλλες παρατηρήσεις και δεδομένα. Συγκεκριμένα, οι μέθοδοι
αυτές αδυνατούν να συν-αναλύσουν ταυτόχρονα σύνολα δεδομένων που περιέχουν διαφορετικά αλλά αλληλεπικαλυπτόμενα σύνολα μεταβλητών. Υιοθετώντας αιτιακά
μοντέλα αντί για τα συνήθη μοντέλα που βασίζονται (άμεσα ή έμμεσα)
αποκλειστικά σε στατιστικές συσχετίσεις, είναι δυνατή η εξαγωγή επιπλέον
συμπερασμάτων από την συν-ανάλυση των δεδομένων, σε σύγκριση με την
ανεξάρτητη ανάλυση του κάθε συνόλου δεδομένων.
Στην εργασία αυτή, υποθέτουμε ότι όλα τα σύνολα δεδομένων έχουν παραχθεί από ένα λανθάνον αιτιακό μοντέλο, που μπορεί να αναπαρασταθεί από έναν Μέγιστο Προγονικό Γράφο. Οι Μέγιστοι Προγονικοί Γράφοι είναι ένα είδος γραφικών μοντέλων ανεξαρτησίας σχεδιασμένο να μοντελοποιεί περιθώριες κατανομές και
καταστάσεις αιτιακής ανεπαρκειας (καταστάσεις όπου υπάρχουν κρυφές,
μη-παρατηρούμενες κοινές αιτίες).
Ορίζουμε το πρόβλημα της ταυτοποίησης ενός ή όλων των αιτιακών μοντέλων
συμφωνούν με όλα τα διαθέσιμα σύνολα δεδομένων. Προτείνουμε έναν αλγόριθμο, τον FCM, που μετατρέπει το πρόβλημα σε μια λογική πρόταση SAT της οποίας οι
αληθοτιμές αντιστοιχούν στα αιτιακά μοντέλα που εξηγούν τα δεδομένα.
Ορίζουμε επίσης ένα νέο γραφικό μοντέλο, τον Διμερή Αιτιακό Γράφο, που
συνοψίζει τις πιθανές διμερείς αιτιακές σχέσεις μεταξύ των μεταβλητών.
Βασιζόμενοι στον FCM, προτείνουμε τον cSAT+, έναν αλγόριθμο που παράγει τον
Διμερή Αιτιακό Γράφο από ένα σύνολο συνόλων δεδομένων, και αποδεικνύουμε ότι ο αλγόριθμος είναι σωστός και πλήρης όταν δεν υπάρχουν στατιστικά σφάλματα.
Στα υπολογιστικά μας πειράματα σε προσομοιωμένα σύνολα δεδομένων, δείχνουμε ότι η ενοποιημένη ανάλυση με τον cSAT+ επιτρέπει περισσότερα συμπεράσματα σε σχέση με την απομονωμένη, ανεξάρτητη ανάλυση των συνόλων δεδομένων από
υπάρχοντες αλγορίθμους. Παραδείγματα τέτοιων ενδιαφερόντων συμπερασμάτων
είναι η επαγωγή της απουσίας ή της παρουσίας άμεσης αιτιότητας ανάμεσα σε
μεταβλητές που δεν έχουν μετρηθεί μαζί. Αυτή η παρατήρηση έχει σημαντικές
επιπτώσεις στην ανάλυση δεδομένων, αφού δείχνει ότι επιπλέον αιτιακές
σχέσεις μπορούν να συναχθούν από δεδομένα ήδη διαθέσιμα, χωρίς τη διεξαγωγή επιπλέον πειραμάτων και μελετών. Σε σύγκριση με τον ΙΟΝ, τον πρώτο αλγόριθμο που λυνειένα παρόμοιο αλλά πιο γενικό προβλημα, ο cSAT+ έχει καλύτερη αποδοση και λύνει προβλήματα μεγαλύτερησ κλίμακας.
|