Αποτελέσματα - Λεπτομέρειες
Εντολή Αναζήτησης : Συγγραφέας="Στυλιανού"
Και Συγγραφέας="Ιωάννης"
Τρέχουσα Εγγραφή: 8 από 31
|
Κωδικός Πόρου |
000452055 |
Τίτλος |
A neural-based sinusoidal vocoder |
Άλλος τίτλος |
Ένας νευρωνικός ημιτονοειδής φωνοκωδικοποιητής |
Συγγραφέας
|
Ραπτάκης, Μιχαήλ Γ.
|
Σύμβουλος διατριβής
|
Στυλιανού, Ιωάννης
|
Μέλος κριτικής επιτροπής
|
Κομοντάκης, Νικόλαος
Πανταζής, Ιωάννης
|
Περίληψη |
Η νέα εποχή της κωδικοποίησης φωνής κυριαρχείται πλήρως από μοντέλα βασισμένα
σε νευρωνικά δίκτυα, ικανά να παράγουν συνθετική ομιλία που ακούγεται φυσική, και
αναμφίβολα ανώτερη συγκριτικά με όλες τις προηγούμενες παραμετρικές μεθόδους.
Ωστόσο, η εξαιρετική αυτή ποιότητα που παράγουν έρχεται έναντι του κόστους να
είναι απαιτητικά σε θέματα υπολογιστικής ταχύτητας και χώρου. Επιπλέον, οι περισσότερες σύγχρονες αρχιτεκτονικές, παρότι λαμβάνουν υπόψιν κάποιες στατιστικές
ιδιότητες των σημάτων φωνής, σπάνια λαμβάνουν υπόψιν θεμελιώδη χαρακτηριστικά ή μεθοδολογίες που έχουν μελετηθεί εις βάθος στο παρελθόν της επεξεργασίας
φωνής. Σε αυτή την εργασία, αντί να συνθέσουμε σήματα φωνής χρησιμοποιώντας
αποκλειστικά την “ωμή δύναμη” των νευρωνικών δικτύων, ο στόχος είναι να χρησιμοποιήσουμε προς όφελός μας τις ημιπεριοδικές και ημιτονοειδείς ιδιότητες των σημάτων
φωνής ώστε να δείξουμε πώς ένας σύγχρονος νευρωνικός φωνοκωδικοποιητής μπορεί
να παράξει ομιλία βασισμένος σε μία ημιτονοειδή αναπαράσταση. Χρησιμοποιώντας
το MelGAN ως το αρχικό μας μοντέλο φωνοκωδικοποίησης, λόγω της αναγνωρισμένης ταχύτητας και ποιότητάς του, το επεκτείνουμε βάζοντάς του επίπεδα που αντί
να παράγουν απευθείας την φωνητική κυματομορφή, εκτιμούν τα πλάτη και τις φάσεις
μιας καινούργιας προτεινόμενης ημιτονοειδής αναπαράστασης. Τα αποτελέσματά μας
δείχνουν ότι η παραγόμενη ποιότητα είναι αντίστοιχη με αυτή του αρχικού MelGAN
μοντέλου σύμφωνα με τα αποτελέσματα του πειράματος MOS που διεξήγαμε, υποδεικνύοντάς μας ότι αυτή η καινοτόμα και λιγότερο ακριβή προσέγγιση είναι πράγματι
εφικτή. Πειραματιζόμενοι περαιτέρω με αυτά τα μοντέλα, θίγουμε την δυσκολία εύρεσης μιας φασματικής συνάρτησης σφάλματος δυνατή να παράξει ποιότητα κοντά σε
αυτές των παραγωγικών αντιπαραθετικών δικτύων.
|
Φυσική περιγραφή |
x, 108 σ. : σχεδ., πιν., εικ. ; 30 εκ. |
Γλώσσα |
Αγγλικά |
Θέμα |
Deep learning |
|
Neural networks |
|
Βαθιά μάθηση |
|
Νευρωνικά δίκτυα |
Ημερομηνία έκδοσης |
2022-12-02 |
Συλλογή
|
Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
|
|
Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
|
Μόνιμη Σύνδεση |
https://elocus.lib.uoc.gr//dlib/b/0/0/metadata-dlib-1667906572-550601-12721.tkl
|
Εμφανίσεις |
525 |
Ψηφιακά τεκμήρια
|
|
Δεν έχετε δικαιώματα για να δείτε το έγγραφο.
Δεν θα είναι διαθέσιμο έως: 2025-12-02
|