Περίληψη |
Στις μέρες μας,
υπάρχει εκθετική αύξηση των δεδομένων
τόσο στον αριθμό των
δειγμάτων όσο και στον αριθμό των μεταβλητών,
με τον
μέγεθος
τους να
φτάνει
την
κλίμακα των
terabyte.
Αυτός ο όγκος
δεδομένων μπορεί να βρεθεί
σε πολλές εφαρμογές
της μηχανικής μάθησης όπως στην ανάκτηση πληροφοριών, κατηγοριοποίηση κειμένου
και ανάκτηση εικόνων. Παρόλο που τέτοιου είδους δεδομένα είναι συχνά σήμερα,
κλασσικοί αλγόριθμοι μηχανικής μάθησης δεν μπορούν να τα διαχειριστούν.
Μια πολύ σημαντική μέθοδος στη μηχανική μάθηση είναι η επιλογή μεταβλητών που
προσπαθεί να επιλέξει τις μεταβλητές που είναι πιο προβλεπτικές σε ένα σετ δεδομένων.
Η επιλογή μεταβλητών είναι σημαντική καθώς μειώνει τις διαστάσεις των δεδομένων,
αφαιρεί άσχετες μεταβλητές, αυξάνει την επίδοση ενός ταξινομητή και βοηθάει στην
καλύτερη κατανόηση των δεδομένων. Με την αύξηση του όγκου των δεδομένων η
απόδοση των κλασσικών αλγορίθμων επιλογής μεταβλητών μειώνεται αισθητά.
Για να λυθούν προβλήματα απόδοσης,
το μοντέλο Map-Reduce
έχει προταθεί. Τα
δεδομένα πλέον
μπορούν να επεξεργαστούν παράλληλα
σε ένα σύμπλεγμα
υπολογιστών
και οι αλγόριθμοι μηχανικής μάθησης μπορούν να τροποποιηθούν έτσι
ώστε να είναι σε θέση να επεξεργαστούν μεγάλο όγκο δεδομένων.
Σε αυτή την εργασία ασχοληθήκαμε με την υλοποίηση
ενός αλγορίθμου
επιλογής
μεταβλητών για μεγάλο όγκο δεδομένων. Πιο συγκεκριμένα, χρησιμοποιήσαμε το
μοντέλο Map-Reduce
για να παραλληλοποιήσουμε τον αλγόριθμο
Max
Min
Parent
and
Children
(MMPC) έτσι ώστε να
μπορεί να διαχειριστεί μεγάλο όγκο δεδομένων. Ο αλγόριθμος προσπαθεί ευριστικά, με τη χρήση τεστ ανεξαρτησίας, να βρει εξαρτήσεις
μεταξύ μεταβλητών. Σε αυτή την εργασία δείχνουμε πως παραλληλοποιήσουμε δύο τεστ
ανεξαρτησίας,
που μπορούν να διαχειριστούν κατηγορικές και συνεχείς μεταβλητές,
χρησιμοποιώντας το μοντέλο Map-Reduce.
Τέλος,
χρησιμοποιήσαμε μια μέθοδο με την
οποία ο
MMPC
μπορεί να χρησιμοποιηθεί με οποιοδήποτε τεστ
ανεξαρτησίας.
Για να αξιολογήσουμε τον αλγόριθμο χρησιμοποιήσαμε δεδομένα που περιέχουν
διαφορετικό αριθμό δειγμάτων και
μεταβλητών. Η αξιολόγηση έδειξε ότι ο αλγόριθμος
μας κλιμακώνεται καλά όταν αλλάζει ο
αριθμός των δειγμάτων και ο αριθμός των
κόμβων στο σύμπλεγμα υπολογιστών.
Τέλος, η απόδοση του αλγορίθμου είναι
συγκρίσιμη με την απόδοση άλλων αλγορίθμων επιλογής μεταβλητών.
|