Περίληψη |
Η ανάλυση των δεδομένων είναι μια αναδυόμενη και σε κάθε περίπτωση χρήσιμη επιστήμη. Οι διάφοροι αλγόριθμοι μηχανικής μάθησης παρέχουν τη δυνατότητα να εκπαιδεύονται σε ένα σύνολο δεδομένων, αποτελούμενο από κάθε είδους, πραγματικές ή προσομοιωμένες, παρατηρήσεις, και να δημιουργούν ένα μοντέλο που τα περιγράφει. Με το πέρασμα του χρόνου, ο αριθμός των περιπτώσεων, σε επαγγελματικό ή καθημερινό επίπεδο, που διευκολύνεται από την ανάπτυξη μιας μεθόδου εξόρυξης δεδομένων γίνεται όλο και μεγαλύτερος. Προκειμένου να καλυφτούν οι πολυποίκιλες ανάγκες που προκύπτουν, ο χώρος των διαθέσιμων αλγορίθμων και μεθοδολογιών εξόρυξης δεδομένων ολοένα αυξάνεται, καθιστώντας την εξερεύνηση τους ως μια επίπονη και χρονοβόρο διαδικασία, ακόμη και για τους πιο πεπειραμένους αναλυτές δεδομένων. Μία ακόμη δυσκολία, είναι η απαίτηση ξεχωριστής κατάλληλης μεθοδολογίας και ερμηνείας για κάθε διαφορετικό τύπο δεδομένων. Μια μεγάλη προσπάθεια έχει δοθεί στην ανάπτυξη καθοδηγητών εξόρυξης δεδομένων, με σκοπό να βοηθήσουν το χρήστη να ξεπεράσει τα παραπάνω εμπόδια. Μέχρι στιγμής, οι καθοδηγητές ταξινομούνται ως αυτοματοποιημένοι και συνεργατικοί. Στην εργασία αυτή, σχεδιάστηκε και αναπτύχτηκε ένα αυτοματοποιημένο έξυπνο σύστημα, το RB-DMA, το οποίο, βασισμένο στην OntoDM οντολογία, σε συνδυασμό με ένα σύνολο κανόνων εκφρασμένων με την βοήθεια του συστήματος δροολς, προτείνει τις πιο κατάλληλες ροές εργασιών ε¬ξόρυξης δεδομένων , διατεταγμένες με βάση την αποτελεσματικότητά τους για μια δεδομένη ανάλυση. Η προσέγγισή μας παρέχει, σε χρήστες οποιουδήποτε επιπέδου γνώση, όλες τις αποφάσεις που χρειάζονται προκειμένου να προβούν σε μία ανάλυση με αξιόπιστα αποτελέσματα. Για έναν χρήστη με πλήρη άγνοια, η ανάγκη "να γίνει έμπειρος' εξαλείφεται. Από την άλλη πλευρά, το σύστημα θα λειτουργεί περισσότερο ως ένας μηχανισμός υπενθύμισης των διαθέσιμων βέλτιστων πρακτικών για τον έμπειρο χρήστη. Ακόμη, το σύστημά μας βοηθάει στην μείωση του απαιτούμενου χρόνου για να πραγματοποιηθεί μία ανάλυση, εγγυώμενο, στις περισσότερες περιπτώσεις, σχεδόν βέλτιστα αποτελέσματα εκτελώντας μόνο τις πρώτες K καλύτερες ροές. Τελευταίο, αλλά όχι λιγότερο σημαντικό, το σύστημα καλύπτει έως 200 σενάρια ανάλυσης δεδομένων (ταξινόμηση δύο κλάσεων, και παλινδρόμηση με διαφορετικούς τύπους και μεγέθη δεδομένων), βοηθώντας των αναλυτή να ξεπεράσει το προαναφερθέν πρόβλημα της ξεχωριστής διαχείρισης διαφορετικών δεδομένων.
|