E-Locus - Ιδρυματικό Καταθετήριο Πανεπιστημίου Κρήτης - Implementing feature selection algorithms for big data

Αρχική Implementing feature selection algorithms for big data

Αποτελέσματα - Λεπτομέρειες

[Προσθήκη στο καλάθι]

Κωδικός Πόρου

000402832

Τίτλος

Implementing feature selection algorithms for big data

Άλλος τίτλος

Υλοποίηση αλγορίθμων επιλογής μεταβλητών για μεγάλο όγκο δεδομένων

Συγγραφέας

Τζιράκης, Παναγιώτης

Σύμβουλος διατριβής

Τσαμαρδίνος, Ιωάννης

Μέλος κριτικής επιτροπής

Χριστοφίδης Βασίλειος
Χρυσάνθης, Παναγιώτης

Περίληψη

Στις μέρες μας, υπάρχει εκθετική αύξηση των δεδομένων τόσο στον αριθμό των δειγμάτων όσο και στον αριθμό των μεταβλητών, με τον μέγεθος τους να φτάνει την κλίμακα των terabyte. Αυτός ο όγκος δεδομένων μπορεί να βρεθεί σε πολλές εφαρμογές της μηχανικής μάθησης όπως στην ανάκτηση πληροφοριών, κατηγοριοποίηση κειμένου και ανάκτηση εικόνων. Παρόλο που τέτοιου είδους δεδομένα είναι συχνά σήμερα, κλασσικοί αλγόριθμοι μηχανικής μάθησης δεν μπορούν να τα διαχειριστούν. Μια πολύ σημαντική μέθοδος στη μηχανική μάθηση είναι η επιλογή μεταβλητών που προσπαθεί να επιλέξει τις μεταβλητές που είναι πιο προβλεπτικές σε ένα σετ δεδομένων. Η επιλογή μεταβλητών είναι σημαντική καθώς μειώνει τις διαστάσεις των δεδομένων, αφαιρεί άσχετες μεταβλητές, αυξάνει την επίδοση ενός ταξινομητή και βοηθάει στην καλύτερη κατανόηση των δεδομένων. Με την αύξηση του όγκου των δεδομένων η απόδοση των κλασσικών αλγορίθμων επιλογής μεταβλητών μειώνεται αισθητά. Για να λυθούν προβλήματα απόδοσης, το μοντέλο Map-Reduce έχει προταθεί. Τα δεδομένα πλέον μπορούν να επεξεργαστούν παράλληλα σε ένα σύμπλεγμα υπολογιστών και οι αλγόριθμοι μηχανικής μάθησης μπορούν να τροποποιηθούν έτσι ώστε να είναι σε θέση να επεξεργαστούν μεγάλο όγκο δεδομένων. Σε αυτή την εργασία ασχοληθήκαμε με την υλοποίηση ενός αλγορίθμου επιλογής μεταβλητών για μεγάλο όγκο δεδομένων. Πιο συγκεκριμένα, χρησιμοποιήσαμε το μοντέλο Map-Reduce για να παραλληλοποιήσουμε τον αλγόριθμο Max Min Parent and Children (MMPC) έτσι ώστε να μπορεί να διαχειριστεί μεγάλο όγκο δεδομένων. Ο αλγόριθμος προσπαθεί ευριστικά, με τη χρήση τεστ ανεξαρτησίας, να βρει εξαρτήσεις μεταξύ μεταβλητών. Σε αυτή την εργασία δείχνουμε πως παραλληλοποιήσουμε δύο τεστ ανεξαρτησίας, που μπορούν να διαχειριστούν κατηγορικές και συνεχείς μεταβλητές, χρησιμοποιώντας το μοντέλο Map-Reduce. Τέλος, χρησιμοποιήσαμε μια μέθοδο με την οποία ο MMPC μπορεί να χρησιμοποιηθεί με οποιοδήποτε τεστ ανεξαρτησίας. Για να αξιολογήσουμε τον αλγόριθμο χρησιμοποιήσαμε δεδομένα που περιέχουν διαφορετικό αριθμό δειγμάτων και μεταβλητών. Η αξιολόγηση έδειξε ότι ο αλγόριθμος μας κλιμακώνεται καλά όταν αλλάζει ο αριθμός των δειγμάτων και ο αριθμός των κόμβων στο σύμπλεγμα υπολογιστών. Τέλος, η απόδοση του αλγορίθμου είναι συγκρίσιμη με την απόδοση άλλων αλγορίθμων επιλογής μεταβλητών.

Φυσική περιγραφή

90 σ. : πίν., σχήμ., εικ. (εγχρ.) ; 30 εκ.

Γλώσσα

Αγγλικά

Ημερομηνία έκδοσης

2015-11-20

Συλλογή

Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης

Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης

Εμφανίσεις

519

Ψηφιακά τεκμήρια
	Κατέβασμα Εγγράφου Προβολή Εγγράφου Εμφανίσεις : 25