E-Locus - Ιδρυματικό Καταθετήριο Πανεπιστημίου Κρήτης - Interpreting data anomalies: from descriptive to predictive anomaly explanations

Αρχική Interpreting data anomalies: from descriptive to predictive anomaly explanations

Αποτελέσματα - Λεπτομέρειες

[Προσθήκη στο καλάθι]

Κωδικός Πόρου

000434070

Τίτλος

Interpreting data anomalies: from descriptive to predictive anomaly explanations

Άλλος τίτλος

Ερμηνεύοντας ανωμαλίες σε δεδομένα: από περιγραφικές σε προβλεπτικές εξηγήσεις

Συγγραφέας

Μυρτάκης, Νικόλαος Ε.

Σύμβουλος διατριβής

Χριστοφίδης, Βασίλης

Μέλος κριτικής επιτροπής

Τσαμαρδινός, Ιωάννης
Παλπάνας, Θέμης

Περίληψη

Σε πολλές εργασίες διερεύνησης δεδομένων, ακανόνιστα ή σπανίως εμφανιζόμενα μοτίβα που ονομάζονται ανωμαλίες (αποκλίνοντα ή πολύ διαφορετικά δεδομένα), είναι συχνά πιο ενδιαφέροντα από τα συνήθη μοτίβα. Για παράδειγμα, ακανόνιστα μοτίβα μπορεί να αναπαριστούν συστηματικά σφάλματα, απάτες σε τραπεζικές συναλλαγές, παρεισφρήσεις δικτύων και συστημάτων ελέγχου ή άλλα ενδιαφέροντα φαινόμενα. Πολυάριθμοι αλγόριθμοι έχουν προταθεί για την ανίχνευση ανωμαλιών. Δυστυχώς, οι περισσότεροι ανιχνευτές χωρίς επίβλεψη δεν προσφέρουν κάποια εξήγηση σχετικά με το γιατί ένα δοσμένο δείγμα (καταγραφή) χαρακτηρίστηκε σαν ανωμαλία και ως εκ τούτου να διαγνωστούν οι αιτίες που προκλήθηκε. Οι εξηγήσεις ανωμαλιών συχνά παίρνουν τη μορφή υποσυνόλων γνωρισμάτων, σημαντικά μειωμένης διάστασης σε σύγκριση με τον αρχικό χώρο γνωρισμάτων. Εξετάζοντας μόνο τα γνωρίσματα σε έναν επεξηγηματικό υπόχωρο, αρκεί ώστε να καθοριστεί εάν ένα δείγμα είναι ανωμαλία ή όχι σύμφωνα με έναν ανιχνευτή. Οι εξηγήσεις μπορούν να κατηγοριοποιηθούν στις εξής (i) περιγραφικές με την έννοια ότι εξηγούν μόνο τα δείγματα που εκπαιδεύτηκε ο ανιχνευτής και (ii) περιγραφικές οι οποίες γενικεύονται και σε απαρατήρητα δεδομένα. Σε αυτήν την εργασία, αποτιμούμε πειραματικά τους κύριες περιγραφικές μεθόδους εξήγησης που έχουν προταθεί στην βιβλιογραφία, καθώς επίσης εισάγουμε την πρώτη μέθοδο για προβλεπτική εξήγηση, εμπνευσμένη από πρόσφατες εξελίξεις στο πεδίο της Αυτοματοποιημένης Μηχανικής Μάθησης (AutoML). Στο πρώτο κομμάτι αυτής της εργασίας, παρουσιάζουμε ένα διεξοδικό πλαίσιο αποτίμησης αλγορίθμων εξήγησης ανωμαλιών χωρίς επίβλεψη, τόσο για μεμονωμένες όσο και για ομάδες ανωμαλιών με στόχο την αποσαφήνιση διαφόρων αναπάντητων ερωτημάτων από την τρέχουσα βιβλιογραφία όπως: (α) Πόσο αποτελεσματικός είναι ο συνδυασμός οποιουδήποτε αλγόριθμου εξήγησης με έναν οποιονδήποτε ανιχνευτή? (β) Πώς επηρεάζεται η συμπεριφορά μιας αλληλουχίας ανίχνευσης και εξήγησης ανωμαλιών από τον αριθμό ή την συσχέτιση των γνωρισμάτων στα δεδομένα? (γ) Ποια είναι η ποιότητα μιας σύνοψης στην περίπτωση που οι ανωμαλίες εξηγούνται από υποχώρους διαφορετικών διαστάσεων? Ένα μεγάλο ελάττωμα των περιγραφικών μεθόδων εξήγησης, πηγάζει από το γεγονός ότι πρέπει να ξανά υπολογιστούν για κάθε νέα παρτίδα δεδομένων. Για να καταπολεμήσουμε αυτόν τον περιορισμό, στο δεύτερο κομμάτι αυτής της εργασίας, παρουσιάζουμε τη σχεδίαση και την πειραματική αποτίμηση του PROTEUS (Πρωτέας), ενός συστήματος αυτοματοποιημένης μηχανικής μάθησης. Ο PROTEUS παράγει καθολικές, προβλεπτικές εξηγήσεις χρησιμοποιώντας ένα υποκατάστατο μοντέλο, ειδικά σχεδιασμένο για επιλογή γνωρισμάτων σε μη ισορροπημένα δεδομένα ώστε να προσεγγίσει με τον καλύτερο δυνατό τρόπο την επιφάνεια επιλογής οποιουδήποτε ανιχνευτή χωρίς επίβλεψη. Υπολογιστικά πειράματα επιβεβαιώνουν την αποτελεσματικότητα και συνέπεια του PROTEUS στην παραγωγή προβλεπτικών εξηγήσεων για διαφορετικές οικογένειες ανιχνευτών ανωμαλιών καθώς και την αξιοπιστία του στην εκτίμηση της προβλεπτικής επίδοσης σε απαρατήρητα δεδομένα.

Φυσική περιγραφή

vi, 71 σ. : σχεδ., πιν., εικ. ; 30 εκ.

Γλώσσα

Αγγλικά

Θέμα

Anomaly detection

Ανίχνευση ανωμαλιών

Ανωμαλίες δεδομένων

Εξήγηση ανωμαλιών

Ημερομηνία έκδοσης

2020-11-27

Συλλογή