Your browser does not support JavaScript!

Αρχική    Ανίχνευση Ασυνεχειών στη Συνδετική Σύνθεση Φωνής με Ακουστικές Μονάδες  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου uch.csd.msc//2006pantazis
Τίτλος Ανίχνευση Ασυνεχειών στη Συνδετική Σύνθεση Φωνής με Ακουστικές Μονάδες
Άλλος τίτλος Detection of Discontinuities in Concatenative Speech Synthesis
Συγγραφέας Πανταζής, Ιωάννης
Περίληψη Τα τελευταία χρόνια, σύνθεση φωνής με επιλογή ακουστικών μονάδων έγινε ένα σημαντικό πεδίο της σύνθεσης φωνής. Η σύνθεση φωνής με επιλογή ακουστικών μονάδων δίνει την μέγιστη φυσικότητα για τον λόγο ότι δεν εφαρμόζει τεχνικές ψηφιακής επεξεργασίας σήματος πάνω στην ηχογραφημένηφωνή οι οποίες έχουν ως αποτέλεσμα να παράγουν λιγότερο φυσική συνθετική φωνή. Για να βρούμε της καλύτερες μοναδες από την ηχογραφημένη βάση, η σύνθεση φωνής με επιλογή ακουστικών μονάδων βασίζεται σε δύο συναρτήσεις κόστους: /κόστος στόχου/ και /κόστος σύνδεσης/. Το κόστος σύνδεσης έχει να κάνει με το πόσο καλά διαδοχικές μονάδες ενώνονται. Ο υπολογισμός του κόστους σύνδεσης γίνεται σε δύο βήματα. Στο πρώτο βήμα βρίσκουμε τα χαρακτηριστικά του σήματος και στο δεύτερο βρίσκουμε την κατάλληλη απόσταση για να τα ξεχωρίσουμε. Πρόσφατες μελέτες προσπάθησαν να βρουν ποιο κόστος σύνδεσης είναι ικανό να προβλέπει ακουστικές ασυνέχειες ή αλλιώς, να συσχετίζεται με την αντίληψη των ασυνεχειών από τον άνθρωπο στο σημείο σύνδεσης. Παρόλα αυτά κανένα κόστος σύνδεσης μέχρι σήμερα δεν μπορεί να μετρήσει το ποσοστό ασυνέχειας δύο διαδοχικών μονάδων ικανοποιητικά. <π> Διάφορα χαρακτηριστικά όπως &ldquo;line spectral frequencies (LSF)&rdquo; και &ldquo;Mel frequency cepstral coefficients (MFCC)&rdquo; έχουν χρησιμοποιηθεί για τον εντοπισμό ασυνεχειών. Σε αυτή την εργασία τρία νέα σετ χαρακτηριστικών αναλύονται. Το πρώτο βασίζεται στην μοντελοποίηση της φωνής με ένα μη γραμμικό αρμονικό μοντέλο του οποίου τα πλάτη είναι χρονικά μεταβαλλόμενα. Το δεύτερο σετ βασίζεται σε μια μη γραμμική τεχνική ανάλυσης η οποία αναλύει το σήμα σε AM και FM συνιστώσες. Το τρίτο σετ χαρακτηριστικών προσπαθεί να εκμεταλλευτεί τη μη γραμμική φύση του αυτιού. Χρησιμοποιώντας το ακουστικό μοντέλο του Lyon, υπολογίζουμε τη συμπεριφορά του εσωτερικού αυτιού. Για να υπολογίσουμε τη διαφορά μεταξύ δύο διανυσμάτων χαρακτηριστικών χρειαζόμαστε μια απόσταση. Παραδείγματα αποστάσεων είναι η απόλυτη απόσταση (/l/1 νόρμα) και η ευκλείδεια απόσταση (/l/2 νόρμα). Αυτές οι αποστάσεις όμως δίνουν φτωχά αποτελέσματα. Προτείνουμε τη χρήση γραμμικών διακρινουσών, καθώς επίσης, και τετραγωνικών διακρινουσών. Επιπλέον, γραμμική παλινδρόμηση (linear regression) χρησιμοποιήθηκε ως διακρίνουσα. Η αξιολόγηση των κοστών σύνδεσης όπως και η εκπαίδευση των διακρινουσων έγινε πάνω σε δύο βάσεις. Για να δημιουργηθεί μια βάση, ένα ψυχοακουστικό πείραμα έλαβε χώρα και οι γνώμες των ακροατών καταγράφηκαν. Η πρώτη βάση δημιουργήθηκε από τους Klabbers και Veldhuis στην Ολλανδία ενώ, η δεύτερη δημιουργήθηκε από τους Στυλιανού και Syrdal στα εργαστήρια της ΑΤ&Τ. Οπότε είμαστε ικανοί να συγκρίνουμε κάποιο κόστος σύνδεσης σε διαφορετικές βάσεις και να πάρουμε πιο ασφαλή συμπεράσματα. Τα αποτελέσματα που πήραμε δείχνουν ότι το κόστος σύνδεσης βασισμένο στο μη γραμμικό αρμονικό μοντέλο με χρήση γραμμικής διακρίνουσας ή γραμμικής παλινδρόμησης ανιχνεύει της ασυνέχειες και στις δύο βάσεις ικανοποιητικά. Είναι πολύ καλύτερο από το κόστος βασισμένο στο MFCC με χρήση ευκλείδειας απόστασης που είναι ένα τυπικό κόστος στα σύγχρονα συστήματα σύνθεσης φωνής. Ένα άλλο κόστος σύνδεσης που έδωσε καλά αποτελέσματα είναι η AM-FM ανάλυση πάλι με χρήση γραμμικής διακρίνουσας ή γραμμικής παλινδρόμησης. Σαν γενικό συμπέρασμα μπορούμε να πούμε ότι *ένα κόστος σύνδεσης βασισμένο σε μη γραμμικά χαρακτηριστικά με χρήση στατιστικών διακρινουσων *είναι μια καλή επιλογή.
Ημερομηνία έκδοσης 2006-12-01
Ημερομηνία διάθεσης 2007-10-11
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 467

Ψηφιακά τεκμήρια
No preview available

Κατέβασμα Εγγράφου
Προβολή Εγγράφου
Εμφανίσεις : 3