Περίληψη |
Η εκφραστική (ή αγχωμένη/ συναισθηματική) ομιλία μπορεί να ορισθεί ως το είδος ομιλίας το οποίο παράγεται από έναν ομιλητή ο οποίος είναι συναισθηματικά φορτισμένος. Ομιλητές οι οποίοι αισθάνονται λυπημένοι, θυμωμένοι, χαρούμενοι ή ουδέτεροι προσθέτουν ένα συγ¬κεκριμένο βάρος στην ομιλία τους, το οποίο συνήθως χαρακτηρίζεται ως συναίσθημα. Η επεξεργασία της εκφραστικής ομιλίας θεωρείται μια από τις πιο απαιτητικές διεργασίες για μοντελοποίηση, αναγνώριση και ταξινόμηση συναισθήματος. Η συναισθηματική κατάσταση ενός ομιλιτή μπορεί να αποκαλυφθεί από την ανάλυση της ομιλίας του, και μια τέτοιου είδους γνώση θα ήταν χρήσιμη σε καταστάσεις εκτάκτου ανάγκης, σε εφαργμογές υγείας, καθώς και μεταξύ άλλων ως ένα στάδιο επεξεργασίας σε συστήματα αναγνώρισης και ταξινόμησης του συναισθήματος.
Η ακουστική ανάλυση της ομιλίας η οποία παράγεται κάτω από διάφορες συναισθηματικές καταστάσεις αποκαλύπτει έναν εξαιρετικά μεγάλο αριθμό χαρακτηριστικών τα οποία ποικίλουν ανάλογα με τον είδος της συναισθηματικής κατάστασης του ομιλητή. Ως εκ τούτου αυτά τα χαρακτηριστικά θα μπορούσαν να χρησιμοποιηθούν για αναγνώρηση και/ή ταξινόμηση διαφόρων συναισθηματικών καταστάσεων. Υπάρχει πολύ μικρή έρευνα πάνω στις παραμέτρους του Ημιτονοειδούς Μοντέλου (SM), (οι οποίες είναι το πλάτος, η συχνότητα και η φάση) ως γνωρίσματα για τον διαχωρισμό των ειδών ομιλίας. Ωστόσο, η εκτίμηση αυτών των παραμέτρων υπόκειται σε έναν πολύ σημαντικό περιορισμό: εξάγονται με την παραδοχή της 'τοπικής στασιμότητας ', ότι δηλαδή το σήμα φωνής θεωρείται στάσιμο μέσα σε ένα παράθυρο ανάλυσης. Όμως, είδη ομιλίας τα οποία χαρακτηρίζονται ως γρήγορα ή θυμωμένα ίσως να μην συμφωνούν με αυτή την παραδοχή. Προσφάτως, αυτό το πρόβλημα το χειρίζονται με επιτυχία τα προσαρμόσιμα Ημιτονοειδή Μοντέλα (aSMs), προβάλλοντας το σήμα επάνω σε ένα σύνολο συναρτήσεων βάσης μεταβλητής συχνότητας και πλάτους μέσα σε ένα παράθυρο
ανάλυσης. Ως εκ τούτου, οι ημιτονοειδείς παράμετροι εκτιμούνται με περισσότερη ακρίβεια σε σχέση με τα συνήθη ημιτονοειδή μοντέλα.
Σε αυτή την εργασία, προτείνουμε την χρήση ενός προσαρμόσιμου Ημιτονοειδούς Μοντέλου (aSM), το εκτεταμένο προσαρμόσιμο Σχεδόν - Αρμονικό Μοντέλο (eaQHM), για ανάλυση και ταξινόμηση συναισθηματικής ομιλίας. Το (eaQHM) προσαρμόζει το πλάτος και την φάση των συναρτήσεων βάσης στα τοπικά χαρακτηριστικά του σήματος. Αρχικά, το (eaQHM) καλείται να αναλύσει την εκφραστική ομιλία με πιο ακριβείς, αξιόπιστες, συνεχόμενες, χρονικά - μεταβαλλόμενες παραμέτρους (πλάτη και συχνότητες). Αποδεικνύεται ότι οι παράμετροι αυτοί μπορούν να αναπαραστήσουν το εκφραστικό περιεχόμενο της ομιλίας με επάρκεια και ακρίβεια σε σχέση με τα συνήθη ημιτονοειδή μοντέλα. Χρησιμοποιώντας μια πολύ διαδεδομένη βάση δεδομένων προ-επισημασμένης στενής ζώνης εκφραστικής ομιλίας (SUSAS) και την εκ¬φραστική βάση δεδομένων του Βερολίνου (EmoDB), δείχνουμε ότι μπορούμε να επιτύχουμε πολύ υψηλή αναλογία σφάλματος σήματος ως προς το σφάλμα ανακατασκευής (SRER), σε σύγκριση με το κλασσικό Ημιτονοειδές Μοντέλο (SM). Συγκεκριμένα, το (eaQHM) ξεπερνά το (SM) κατά 100% μέσο όρο (SRER). Επιπλέον, έγιναν επίσημα ακουστικά τέστ, σε μια δεύτερη ευρείας ζώνης βάση δεδομένων με ομιλία, τα οποία δείχνουν ότι το (eaQHM) ξεπερνά το (SM) σε ότι αφορά την ποιότητα ανακατασκευής. Οι παράμετροι οι οποίοι μας παρέχει το (eaQHM) μοντέλο μπορούν να αναπαραστήσουν με ακρίβεια ένα σήμα εκφραστικής ομιλίας. Προτείνουμε την χρήση αυτών των παραμέτρων σε μια εφαρμογή που βασίζεται στην εκφραστική ομιλία, στην ταξινόμηση της εκφραστικής ομιλίας. Χρησιμοποιώντας τις βάσεις δεδομένων της (SUSAS) και (EmoDB) για την κατασκευή δύο χωριστών Διανυσ¬ματικών Κβαντιστών (VQ) για ταξινόμηση, ένα για τα πλάτη και ένα για τις συχνότητες ως γνωρίσματα. Τέλος, προτείνουμε ένα συνδυαστικό σχήμα ταξινόμησης με πλάτη και συχνότητες. Τα αποτελέσματα δείχνουν ότι τόσο για τα απλά γνωρίσματα όσο και για τα συνδυαστικά επιτυγχάνεται καλύτερη απόδοση χρησιμοποιώντας το (eaQHM) αντί του (SM)
|