Περίληψη |
Τα τελευταία χρόνια, η πρόοδος σε τεχνικές βαθιάς μάθησης έχει επιφέρει μια
επανάσταση μεγάλης κλίμακας στο πεδίο της Τεχνητής Νοημοσύνης. Μέθοδοι βαθιάς
μάθησης έχουν εφαρμοστεί επιτυχώς σε μια πληθώρα ερευνητικών τομέων, από
επεξεργασία φυσικών γλωσσών και βιοπληροφορική μέχρι αναγνώριση ομιλίας και
υπολογιστική όραση, με κοινό στόχο την αυτόματη εκτίμηση μιας συνάρτησης που
απεικονίζει ένα πεδίο εισόδου σε ένα πεδίο επιθυμητού αποτελέσματος. Ωστόσο, η
επιτυχία των μεθόδων αυτών στο να εξάγουν μια τέτοια συνάρτηση συνήθως εξαρτάται
από την ύπαρξη ενός μεγάλου όγκου επισημειωμένων δεδομένων εκπαίδευσης, δηλαδή
δειγμάτων εισόδου για τα οποία η έξοδος είναι καθορισμένη. Λόγω της απαίτησης για
μεγάλα σύνολα τέτοιων δεδομένων, σημαντική έρευνα διεξάγεται πάνω σε μεθόδους
που μειώνουν το κόστος σε ανθρώπινη προσπάθεια που απαιτείται για την επισημείωση
αυτών των δεδομένων.
Προσεγγίσεις ημιεπίβλεψης, μέθοδοι δημιουργίας συνθετικών δεδομένων και τεχνικές
για δημιουργία και χειρισμό αυτόματης επισημείωσης συγκεντρώνουν αυξανόμενο
ενδιαφέρον. Σε αυτή την εργασία, διερευνούμε μια τεχνική για αξιοποίηση αυτόματα
επισημειωμένων δεδομένων σε προβλήματα κατηγοριοποίησης. Χρησιμοποιώντας έναν
μικρό αριθμό δεδομένων που έχουν επισημειωθεί από κάποιο ειδικό, και ένα μεγάλο
σύνολο δεδομένων που χαρακτηρίζονται από αυτόματα εκτιμημένες, θορυβώδεις
ετικέτες, η προσέγγισή μας εκπαιδεύει ένα Συνελικτικό Νευρωνικό Δίκτυο (CNN) με
επαναληπτικό τρόπο. Οι αυτόματες επισημειώσεις συνδυάζονται με τις προβλέψεις του
δικτύου ώστε να επεκταθεί σταδιακά το σύνολο δεδομένων εκπαίδευσης. Αυτή η
επέκταση επιχειρεί να επιλέξει αυτόματα επισημειωμένα δείγματα των οποίων η ετικέτα
κρίνεται σωστή.
Η προτεινόμενη προσέγγιση είναι γενική και μπορεί να εφαρμοστεί σε οποιοδήποτε
πρόβλημα κατηγοριοποίησης. Προκειμένου να αποτιμήσουμε την απόδοσή της, την
εφαρμόζουμε στο πρόβλημα της αναγνώρισης χειρομορφών από έγχρωμες (RGB)
εικόνες εισόδου. Γενικά, η παρατήρηση και η ερμηνεία του ανθρώπινου χεριού είναι
πολύ χρήσιμη σε ποικίλες εφαρμογές, οπότε και έχει αναπτυχθεί σημαντική έρευνα στα
θέματα της τρισδιάστατης παρακολούθησης του χεριού, της παρατήρησης των
αλληλεπιδράσεων του χεριού με αντικείμενα, καθώς και της αναγνώρισης χειρομορφών
και χειρονομιών. Η Αναγνώριση Νοηματικής Γλώσσας είναι μια περιοχή όπου η
αναγνώριση χειρομορφών είναι ιδιαζόντως χρήσιμη, επειδή οι μορφές των χεριών ενός
νοηματιστή είναι κρίσιμα χαρακτηριστικά για την μετάφραση μιας νοηματικής γλώσσας.
Παρακινημένοι από την χρησιμότητα και τον αντίκτυπο της Αναγνώρισης Νοηματικής
Γλώσσας, αναπτύσσουμε μια μέθοδο για αυτόματη επισημείωση εικόνων η βίντεο
χειρομορφών, και την εφαρμόζουμε στο πρόβλημα της κατηγοριοποίησης 19
χειρομορφών κοινών στην Ελληνική Νοηματική Γλώσσα. Η χειροκίνητη επισημείωση
τέτοιων δεδομένων είναι μια χρονοβόρα διαδικασία. Η αυτόματη επισημείωσή τους
βασίζεται στο συσχετισμό τρισδιάστατων αναπαραστάσεων των χεριών με τις κλάσεις
(ετικέτες χειρομορφών), και δημιουργεί θορυβώδεις ετικέτες που μπορούν να
χρησιμοποιηθούν για την εκπαίδευση Συνελικτικών Νευρωνικών Δικτύων. Αυτά τα
χαρακτηριστικά του προβλήματος το καθιστούν υποψήφιο για την εφαρμογή της
μεθόδου που προτείνουμε για την αυτόματη επέκταση συνόλων δεδομένων
εκπαίδευσης. Συγκρίνουμε τα αποτελέσματα εκπαίδευσης ενός CNN με και χωρίς τη
χρήση της τεχνικής μας. Η μέθοδός μας επιφέρει σημαντική αύξηση στην μέση ακρίβεια
κατηγοριοποίησης, και επιπλέον μειώνει την απόκλιση της ακρίβειας ανά κλάση,
καταδεικνύοντας έτσι την εγκυρότητα και τη χρησιμότητα της προτεινόμενης
προσέγγισης.
|