Your browser does not support JavaScript!

Αρχική    Spectral based short-time features for voice quality assessment  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000344043
Τίτλος Spectral based short-time features for voice quality assessment
Άλλος τίτλος Στιγμιαία Φασματικά Χαρακτηριστικά για την Εκτίμηση Ποιότητας Φωνής
Συγγραφέας Βασιλάκης, Μιλτιάδης Δ
Σύμβουλος διατριβής Στυλιανού, Ιωάννης
Περίληψη Στο πλαίσιο της εκτίμησης ποιότητας φωνής, οι φωνίατροι βοηθούνται από τη μέτρηση διαφόρων φαινομένων που μπορούν να αναδείξουν την ύπαρξη παθολογίας στην φωνή. Από τα πιο περίοπτα ανάμεσα σε αυτά τα φαινόμενα είναι εκείνα του jitter και του shimmer. To jitter ορίζεται ως διαταραχές του κύκλου των φωνητικών χορδών, ενώ το shimmer ορίζεται ως διαταραχές του πλάτους της διέγερσης των φωνητικών χορδών. Και τα δύο φαινόμενα λαμβάνουν χώρα κατά την παραγωγή φωνής, ιδιαιτέρα στην περίπτωση της φώνησης (παραγωγή φωνηέντων). Συνήθως, μέθοδοι ακουστικής ανάλυσης χρησιμοποιούνται για την εκτίμηση του jitter. Οι περισσότερες αυτών των μεθόδων μετράνε το jitter στο πεδίο του χρόνου και βασίζονται στην εκτίμηση της τονικής περιόδου, συνεπώς, είναι ευαίσθητες στο λάθος αυτής της εκτίμησης. Επιπλέον, η απουσία σταθερότητας που παρουσιάζεται από τους εκτιμητές της τονικής περιόδου, κάνει προβληματική την χρήση ηχογραφήσεων συνεχούς ομιλίας και ουσιαστικά περιορίζει την μέτρηση του jitter σε σήματα παρατεταμένης φώνησης. Ομοίως για το shimmer, μέθοδοι ακουστικής ανάλυσης στο πεδίο του χρόνου συνήθως καλούνται να εκτιμήσουν το φαινόμενο, βασισμένες σε εκτίμηση του μέγιστου πλάτους ανά περίοδο. Επιπροσθέτως, οι μέθοδοι αυτές, και για τα δύο φαινόμενα, επηρεάζονται από την εξαγωγή μετρήσεων μέσης τιμής καθώς και την άμεση ή έμμεση χρήση βαθυπερατής πληροφορίας. Η χρήση μαθηματικών περιγραφών για το jitter και το shimmer, ώστε να μεταφερθεί το πρόβλημα από το πεδίο του χρόνου στο πεδίο των συχνοτήτων, μπορεί να απαλύνει αυτά τα προβλήματα.
Χρησιμοποιώντας ένα μαθηματικό μοντέλο που συνδυάζει δύο περιοδικά γεγονότα για να επιτύχει την τοπική α-περιοδικότητα, μπορούμε να μοντελοποιήσουμε το jitter ως την μετατόπιση ενός εκ των δύο γεγονότων σε σχέση με το άλλο. Το μοντέλο, όταν μετασχηματιστεί στο πεδίο των συχνοτήτων, παρουσιάζει μια ενδιαφέρουσα φασματική συμπεριφορά μεταξύ του αρμονικού και του υπo-αρμονικού φάσματος. Τα δύο κομμάτια αυτά του φάσματος σχηματίζουν το φάσμα ενός διακροτήματος, με τον αριθμό των διασταυρώσεων μεταξύ τους να είναι άμεσα εξαρτώμενος από την μετατόπιση που σχετίζεται με το jitter. Επωφεληθήκαμε αυτών των ιδιοτήτων ώστε να αναπτύξουμε έναν στιγμιαίο φασματικό εκτιμητή του jitter, αναφερόμενο ως Spectral Jitter Estimator (SJE).Πειράματα με συνθετικά σήματα φώνησης με jitter δείξανε ότι ο SJE παρέχει ακριβείς τοπικές εκτιμήσεις του jitter. Περαιτέρω εκτίμηση διεξήχθη με χρήση δύο βάσεων με πραγματικές ηχογραφήσεις παρατεταμένης φώνησης από υγιείς και παθολογικές φωνές. Σύγκριση με τις αντίστοιχες εκτιμήσεις από το Multi-Dimension Voice Program (MDVP) και το σύστημα Praat έδειξε ότι ο SJE ξεπερνάει αμφότερα στην ικανότητα διάκρισης μεταξύ κανονικών και παθολογικών φωνών τουλάχιστον κατά 4%, όπως αυτό ανεδείχθη με την χρήση καμπυλών Receiver Operating Characteristic (ROC) και του δείκτη Area Under the Curve (AUC). Εξέταση των στιγμιαίων χαρακτηριστικών του SJE έδειξε ότι ο λόγος που οι εκτιμήσεις του έχουν μεγαλύτερη συσχέτιση με την ύπαρξη παθολογίας στην φωνή, είναι ότι λαμβάνεται υπόψιν όλο το φάσμα.
Ο SJE, όπως διαπιστώθηκε, είναι αρκετά εύρωστος σε τυχόν λάθη της εκτίμησης της τονικής περιόδου, γεγονός που σε συνδυασμό με την ιδιότητα του να παρέχει μετρήσεις του jitter για μικρά χρονικά διαστήματα, τον καθιστά ιδανικό για εκτίμηση του jitter σε σήματα συνεχούς ομιλίας. Μέσω τεκμηρίωσης με αντιπαράθεση στις δύο προαναφερθείσες βάσεις, ορίστηκε ένα όριο για την ύπαρξη παθολογίας στις μετρήσεις του SJE. Εφαρμόζοντας αυτό το όριο σε μία βάση ηχογραφήσεων ανάγνωσης κειμένου από υγιείς και παθολογικούς ομιλητές, ένα δεύτερο όριο και νέα χαρακτηριστικά δημιουργήθηκαν, ειδικά για την παρακολούθηση του jitter σε συνεχή ομιλία. Τα προτεινόμενα χαρακτηριστικά παρουσιάζουν στην βάση αυτή διακρισιμότητα με βάση τον δείκτη AUC περί του 95%, ενώ το προτεινόμενο όριο παρέχει Classification Rate (ρυθμό κατηγοριοποίησης) 87.8%. Επιπλέον, οι εκτιμώμενες στιγμιαίες τιμές του jitter από την βάση ανάγνωσης κειμένου, επιβεβαιώνουν μελέτες που αναφέρουν την μείωση του jitter όσο αυξάνεται η θεμελιώδης συχνότητα, καθώς και την πιο συχνή παρουσία υψηλών τιμών του jitter στις παθολογικές φωνές όσο αυξάνεται η διάρκεια του σήματος.
Η χρήση ενός μαθηματικού μοντέλου που συνδυάζει δύο περιοδικά γεγονότα, επιτρέπει επίσης την μοντελοποίηση του shimmer, μέσω της εφαρμογής διαφορετικών αποκλίσεων στο πλάτος των δύο γεγονότων. Παρόμοια με πριν, μετασχηματίζοντας το μοντέλο από το πεδίο του χρόνου σε αυτό των συχνοτήτων, παρατηρούνται αξιόλογες φασματικές ιδιότητες. Αξιοποιώντας αυτές τις ιδιότητες, δημιουργήσαμε τέσσερα χαρακτηριστικά ενδεικτικά της ύπαρξης shimmer, για την αξιολόγηση του μοντέλου. Πειράματα με συνθετικά σήματα φώνησης με shimmer, καθώς και με χρήση των δύο βάσεων ηχογραφήσεων παρατεταμένης φώνησης, δείξανε ότι το μοντέλο αντικατοπτρίζει ορθά το φαινόμενο του shimmer ώστε να συνίσταται η περαιτέρω αξιοποίησή του.
Φυσική περιγραφή xiv, 54 σ. : εικ. ; 30 cm.
Γλώσσα Αγγλικά
Ημερομηνία έκδοσης 2009-07-24
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 267

Ψηφιακά τεκμήρια
No preview available

Προβολή Εγγράφου
Εμφανίσεις : 46