E-Locus - Ιδρυματικό Καταθετήριο Πανεπιστημίου Κρήτης

Αρχική Αναζήτηση

Αποτελέσματα - Λεπτομέρειες

Εντολή Αναζήτησης : Συγγραφέας="Παπαδάκη" Και Συγγραφέας="Αικατερίνη"

Τρέχουσα Εγγραφή: 3 από 12

[Προσθήκη στο καλάθι]

Κωδικός Πόρου

000433804

Τίτλος

Modeling of speech signals using recurrent neural networks

Άλλος τίτλος

Μοντελοποίηση σημάτων φωνής με την χρήση αναδρομικών νευρωνικών

Συγγραφέας

Παπαδάκη, Αικατερίνη Ι

Σύμβουλος διατριβής

Κομίνης, Ιωάννης
Πανταζής, Γιάννης

Μέλος κριτικής επιτροπής

Μακρής, Κωνσταντίνος

Περίληψη

Η ομιλία είναι το κύριο μέσο επικοινωνίας μεταξύ των ανθρώπων. Η κυματομορφή του σήματος ομιλίας αντιστοιχεί στη χρονική διακύμανση της πίεσης του αέρα. Εκατοντάδες χρόνια πριν, υπήρξαν πρώιμες προσπάθειες για την παραγωγή συνθετικής ομιλίας, χρησιμοποιώντας μηχανικές συσκευές. Σήμερα, τρέχουσες δραστηριότητες επικεντρώνονται στην τεχνητή παραγωγή ανθρώπινης ομιλίας ή αλλιώς στη σύνθεση ομιλίας. Συγκεκριμένα, έχουν αναπτυχθεί φωνοκωδικοποιητές, αναλυτές και συνθέτες ανθρώπινων φωνητικών σημάτων, με βάση μαθηματικά μοντέλα. Επιπλέον, φωνοκωδικοποιητές που βασίζονται σε τεχνητά νευρωνικά δίκτυα, έχουν διευρύνει τους ορίζοντες στην σύνθεση ομιλίας, φέροντας καινοτόμα και υψηλής ποιότητας αποτελέσματα. Στόχος αυτής της μελέτης είναι να δημιουργήσει ένα νευρωνικό φωνοκωδικοποιητή που συνδυάζει τα τεχνητά νευρωνικά δίκτυα με την εγγενή ημιτονοειδή φύση του λόγου, σε αντίθεση με την πλειονότητα των διαθέσιμων νευρωνικών φωνητικών κωδικοποιητών που θυσιάζουν την επεξεργασία σήματος στον βωμό των νευρωνικών δικτύων. Συγκεκριμένα, η παρούσα μελέτη αντιστοιχεί στην μοντελοποίηση σύνθετων ημιτονοειδών κυμάτων πολλαπλών συνιστωσών με χρονικά μεταβαλλόμενο πλάτος και συχνότητα, τα οποία έχουν την ιδιότητα να αντιπροσωπεύουν σήματα ομιλίας, χρησιμοποιώντας αναδρομικά νευρωνικά δίκτυα. Στόχος είναι να αναπτυχθεί ένας νευρωνικός φωνοκωδικοποιητής, πιο γρήγορος από το WaveRNN, μοντέλο το οποίο επιτυγχάνει την καλύερη απόδοση μέχρι σήμερα. Στο πλαίσιο αυτής της διατριβής, εφαρμόζουμε μια παραλλαγή του μοντέλου WaveRNN και παρουσιάζουμε τα παραγόμενα υποδειγματικά αποτελέσματα. Επιπλέον, εξετάζουμε την απόδοση του προτεινόμενου μοντέλου χρησιμοποιώντας συνθετικά καθώς και πραγματικά σήματα ομιλίας.

Φυσική περιγραφή

vi, 74 σ. : πίν., σχήμ. εικ. (εγχρ.) ; 30 εκ.

Γλώσσα

Αγγλικά

Θέμα

Neural vocoder

Recurrent neural networks

Sinusoidal signals

Αναδρομικά νευρωνικά δύκτια

Ημιτονοειδή σήματα

Νευρονικός Φωνοκωδικοποιητής

Νευρωνικά δύκτια