Your browser does not support JavaScript!

Αρχική    On the inverse filtering of speech  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000361998
Τίτλος On the inverse filtering of speech
Άλλος τίτλος Αντίστροφο φιλτράρισμα σημάτων φωνής
Συγγραφέας Καφεντζής, Γεώργιος Παναγιώτη
Σύμβουλος διατριβής Στυλιανού, Ιωάννης
Περίληψη Σε όλα τα προτεινόμενα μοντέλα πηγής -φίλτρου της παραγωγής φωνής, το Αντίστροφο Φιλτράρισμα (ΑΦ) είναι μια γνωστή τεχνική για την απόκτηση της κυματομορφής της γλωττιδικής ροής (glottal flow), που λειτουργεί ως πηγή στο σύστημα της φωνητικής οδού. Η εκτίμηση της γλωττιδικής ροής είναι υψηλού ενδιαφέροντος σε μια ευρύτητα τομέων μελέτης της φωνής, όπως ο προσδιορισμός της ποιότητας φωνής, η κωδικοποίηση και η σύνθεση φωνής, καθώς επίσης και η τροποποίηση φωνής. Ένα μεγάλο εμπόδιο στη σύγκριση ή/και στην πρόταση βελτιώσεων όσον αφορά τις υπάρχουσες μεθόδους είναι η έλλειψη πραγματικών δεδομένων που αφορούν τη γλωττιδική ροή. Με άλλα λόγια, οι εκτιμώμενες κυματομορφές γλωττιδικής ροής από διάφορους αλγορίθμους ΑΦ, δεν μπορούν να αξιολογηθούν αντικειμενικά λόγω του ότι η πραγματική κυματομορφή γλωττιδικής ροής είναι άγνωστη. Προς αυτήν την κατεύθυνση, χρησιμοποιούνται συνθετικές κυματομορφές φωνής που έχουν δημιουργηθεί με συνθετικές κυματομορφές γλωττιδικής ροής. Όμως, αυτού του τύπου η αξιολόγηση δεν είναι πραγματικά αντικειμενική επειδή η σύνθεση φωνής και το ΑΦ βασίζονται στο ίδιο μοντέλο της παραγωγής ανθρώπινης φωνής, δηλ. το γνωστό μοντέλο πηγής – φίλτρου. Σε αυτή τη διατριβή, παρουσιάζονται τρεις γνωστές μέθοδοι ΑΦ βασισμένες στο μοντέλο της Γραμμικής Πρόβλεψης (ΓΠ) και μια νέα μέθοδος της οποίας η απόδοση ελέγχεται σε σχέση με τις υπόλοιπες. Η πρώτη βασίζεται στην κλασική ανάλυση ΓΠ με τη μέθοδο της αυτοσυσχέτισης και η δεύτερη στην κλασική ανάλυση ΓΠ στην κλειστή φάση της γλωττίδας με τη μέθοδο της συνδιασποράς. Η κλειστή φάση εκτιμάται με την προτεινόμενη από τους Plumpe και Quatieri μέθοδο που βασίζεται σε στατιστικές πρώτης τάξης πάνω στην κίνηση της συχνότητας του πρώτου formant σε μια περίοδο. Επίσης, στην εργασία του Alku, προτάθηκε μια μέθοδος ΑΦ που βασίζεται στην ανάλυση ΓΠ με τη μέθοδο της συνδιασποράς σε κλειστή φάση με Μαθηματικούς Περιορισμούς, όπου στην κλασική ανάλυση ΓΠ συνδιασποράς εφαρμόζονται μαθηματικοί περιορισμοί που συντελούν σε πιο ρεαλιστικές θέσεις των ριζών του μοντέλου στο μιγαδικό επίπεδο. Τέλος, στην εργασία του Magi, προτάθηκε η Ευσταθής Ανάλυση ΓΠ με Βάρη (Stabilised Weighted Linear Prediction), στην οποία ένα παράθυρο ενέργειας μικρής χρονικής διάρκειας ελέγχει την απόδοση του μοντέλου ΓΠ. Προτείνουμε τη χρήση της για ΑΦ λόγων των ιδιαίτερων ιδιοτήτων της στην απόδοση έμφασης στην κλειστή φάση της γλωττίδας, η οποία αναμένεται ότι οδηγεί σε εκτιμήσεις του φίλτρου της φωνητικής οδού που είναι πιο κοντά, με την ακουστική έννοια, στο πραγματικό φίλτρο της φωνητικής οδού. Αυτή η τεχνική, μαζί με τις δυο κλασικές και την ανάλυση ΓΠ με τη μέθοδο της συνδιασποράς με Μαθηματικούς Περιορισμούς, εφαρμόστηκαν σε μια βάση δεδομένων από σήματα φωνής που έχουν παραχθεί από φυσική μοντελοποίηση του συστήματος παραγωγής φωνής. Σε αυτήν την περίπτωση, η γλωττιδική ροή και το σήμα της φωνής είναι διαθέσιμα και μπορεί να πραγματοποιηθεί αντικειμενική αξιολόγηση των μεθόδων ΑΦ. Εύρωστες μετρικές παραμετροποίησης χρησιμοποιήθηκαν τόσο στο πεδίο του χρόνου όσο και στο πεδίο της συχνότητας, για να εκτιμηθεί η ομοιότητα των πραγματικών σημάτων με αυτές που παρήχθησαν από τις μεθόδους ΑΦ. Αυτές οι μετρικές περιλαμβάνουν τον Κανονικοποιημένο Λόγο Πλάτους (Normalized Amplitude Quotient – NAQ), τη διαφορά μεταξύ των δυο πρώτων αρμονικών του φάσματος της γλωττιδικής ροής, H1-H2, και τον Παράγοντα Αφθονίας Αρμονικών (Harmonic Richness Factor – HRF), μαζί με το λόγο Σήματος προς Σφάλμα Αποκατάστασης (Signal to Reconstruction Error Ratio – SRER). Πειράματα διεξήχθησαν σε στάσιμα φωνήεντα (/αα/, /αε/, /ε/, /ι/) από την προαναφερθείσα βάση σε ένα εύρος συχνοτήτων (105 ως 255 Hz) για προσομοίωση τόσο της ανδρικής όσο και της γυναικείας φωνής. Η ανάλυση και η σύνθεση των παραγόμενων κυματομορφών γλωττιδικής ροής έγινε σύγχρονα με τις περιόδους του σήματος (pitch synchronously) με χρήση μικρού παραθύρου σύνθεσης και ανάλυσης για τις μεθόδους συνδιασποράς, και μεγάλου παραθύρου ανάλυσης και μικρού παραθύρου σύνθεσης για τις μεθόδους αυτοσυσχέτισης. Τα αποτελέσματα καταδεικνύουν την εν γένει κυριαρχία των μεθόδων συνδιασποράς αλλά η προτεινόμενη μέθοδος υπερέχει της κλασικής μεθόδου αυτοσυσχέτισης, σύμφωνα με τις μετρικές που χρησιμοποιήθηκαν.
Φυσική περιγραφή xix, 74 σ. : εικ. ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα Inverse filtering
Linear prediction
Speech analysis
Speech processing
Ανάλυση φωνής
Αντίστροφο φιλτράρισμα
Γραμμική πρόβλεψη
Επεξεργασία φωνής
Ημερομηνία έκδοσης 2010-11-19
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 97

Ψηφιακά τεκμήρια
No preview available

Προβολή Εγγράφου
Εμφανίσεις : 12