Περίληψη |
Η ανάκτηση και παρακολούθηση της πόζας αρθρωτών αντικειμένων με βάση οπτική πληροφορία αποτελεί ένα δύσκολο πρόβλημα με έντονο θεωρητικό ενδιαφέρον. Μία εκδοχή του προβλήματος αποτελεί η ανάκτηση της στάσης του ανθρώπινου χεριού η οποία βρίσκει εφαρμογή στην επικοινωνία ανθρώπου-μηχανής, σε εκμάθηση δραστηριοτήτων ρομπότ βάση παρακολούθησης, στην ανάλυση της κίνησης του ανθρώπινου χεριού κλπ. Το πρόβλημα εμπεριέχει αρκετές δυσκολίες όπως η υψηλή διαστατικότητα, οι έντονες επικαλύψεις μεταξύ τμημάτων του χεριού, οι πιθανά γρήγορες κινήσεις του χεριού, το γεγονός ότι η παρατήρηση του χεριού μπορεί να γίνεται σε μη ελεγχόμενα περιβάλλοντα κλπ. Πολλά από αυτά μπορούν να αντιμετωπιστούν χρησιμοποιώντας ειδικό εξοπλισμό καταγραφής κίνησης ή οπτικά βοηθήματα/σημάδια. Ωστόσο, αυτές οι προσεγγίσεις είναι παρεμβατικές ή/και απαιτούν ακριβό εξοπλισμό.
Η εργασία αυτή βασίζεται σε μία υπάρχουσα μέθοδο ανάκτησης και παρακολούθησης της 3Δ θέσης, του προσανατολισμού και της κινηματικής (20 βαθμοί ελευθερίας) του ανθρώπινου χεριού χρησιμοποιώντας μη προσημειωμένες οπτικές παρατηρήσεις από μία RGB-D κάμερα. Στη βασική αυτή μέθοδο, η ανάκτηση της πόζας του χεριού διαμορφώνεται ως ένα πρόβλημα βελτιστοποίησης όπου αναζητούνται οι παράμετροι του μοντέλου του χεριού που ελαχιστοποιούν την ασυμφωνία ανάμεσα στην όψη υποτιθέμενων στάσεων του χεριού και στην πραγματική του εικόνα. Την επίλυση του προβλήματος αναλαμβάνει μία εκδοχή του Βελτιστοποιητή Σμήνους Σωματιδίων (Particle Swarm Optimization, PSO), ο οποίος σαρώνει τον παραμετρικό χώρο πιθανών καταστάσεων του χεριού. Ο υψηλός αριθμός διαστάσεων αυτού του χώρου επηρεάζει τις υπολογιστικές επιδόσεις της μεθόδου. Πιο συγκεκριμένα, επιτυγχάνονται υπολογιστικές επιδόσεις της τάξης των 20 καρέ/δευτερόλεπτο, κυρίως όμως λόγω της βελτιστοποιημένης υλοποίησης στον επεξεργαστή γραφικών (GPU) ενός υπολογιστή υψηλών προδιαγραφών. Περεταίρω μελέτη του προβλήματος αποκαλύπτει ότι ο παραμετρικός χώρος των καταστάσεων του χεριού είναι πλεονάζων σε μεγάλο βαθμό. Για παράδειγμα, μπορεί να αναπαραστήσει πόζες οι οποίες λόγω της φυσιολογίας του χεριού δεν είναι εφικτές. Επίσης, για συγκεκριμένες δραστηριότητες (π.χ. νοηματική γλώσσα, λαβή
αντικειμένων, κλπ), ο χώρος των στάσεων που το χέρι μπορεί να πάρει γίνεται ακόμα μικρότερος.
Σε αυτή την εργασία, χρησιμοποιούμε Ανάλυση Κύριων Συνιστωσών (Principal Components Analyis, PCA) για τη δημιουργία ενός χώρου μειωμένης διαστατικότητας ο οποίος περιγράφει με πιο συμπαγή τρόπο την αρθρωτή κίνηση του ανθρώπινου χεριού, μοντελοποιώντας εμμέσως σχετικούς περιορισμούς. Έτσι, ο PSO αρκεί να εφαρμοστεί σε ένα σημαντικά μικρότερο χώρο αναζήτησης, απαιτώντας μικρότερο υπολογιστικό κόστος για την εύρεση της βέλτιστης πόζας. Διάφορες παραλλαγές της προτεινόμενης μεθοδολογίας διαμορφώνονται για τα προβλήματα της ανάκτηση πόζας, παρακολούθηση πόζας και κατηγοριοποίηση πόζας.
Μέσω εκτενών πειραματικών αποτελεσμάτων γίνεται μελέτη των συσχετίσεων ανάμεσα στην ακρίβεια της προτεινόμενης μεθόδου, τον αριθμό των διαστάσεων του χώρου αναζήτησης και των υπολογιστικών πόρων που χρειάζονται για την επίλυση των προβλημάτων της ανάκτησης πόζας, παρακολούθησης πόζας και κατηγοριοποίησης πόζας. Τα αποτελέσματα που προέκυψαν δείχνουν ότι η προτεινόμενη μέθοδος επιτυγχάνει μεγαλύτερη ακρίβεια στην εκτίμηση πόζας από ό,τι η βασική μέθοδος χρησιμοποιώντας μόλις το 1/4 των υπολογιστικών πόρων της τελευταίας. Επίσης, η μέθοδος κατηγοριοποιεί την πόζα του χεριού σε 10 κλάσεις χειρονομιών (Κινέζικοι αριθμοί) επιτυγχάνοντας ακρίβεια της τάξης 87% ως 100% ανάλογα με τους διατιθέμενους υπολογιστικούς πόρους.
|