Your browser does not support JavaScript!

Αρχική    A neural-based sinusoidal vocoder  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000452055
Τίτλος A neural-based sinusoidal vocoder
Άλλος τίτλος Ένας νευρωνικός ημιτονοειδής φωνοκωδικοποιητής
Συγγραφέας Ραπτάκης, Μιχαήλ Γ.
Σύμβουλος διατριβής Στυλιανού, Ιωάννης
Μέλος κριτικής επιτροπής Κομοντάκης, Νικόλαος
Πανταζής, Ιωάννης
Περίληψη Η νέα εποχή της κωδικοποίησης φωνής κυριαρχείται πλήρως από μοντέλα βασισμένα σε νευρωνικά δίκτυα, ικανά να παράγουν συνθετική ομιλία που ακούγεται φυσική, και αναμφίβολα ανώτερη συγκριτικά με όλες τις προηγούμενες παραμετρικές μεθόδους. Ωστόσο, η εξαιρετική αυτή ποιότητα που παράγουν έρχεται έναντι του κόστους να είναι απαιτητικά σε θέματα υπολογιστικής ταχύτητας και χώρου. Επιπλέον, οι περισσότερες σύγχρονες αρχιτεκτονικές, παρότι λαμβάνουν υπόψιν κάποιες στατιστικές ιδιότητες των σημάτων φωνής, σπάνια λαμβάνουν υπόψιν θεμελιώδη χαρακτηριστικά ή μεθοδολογίες που έχουν μελετηθεί εις βάθος στο παρελθόν της επεξεργασίας φωνής. Σε αυτή την εργασία, αντί να συνθέσουμε σήματα φωνής χρησιμοποιώντας αποκλειστικά την “ωμή δύναμη” των νευρωνικών δικτύων, ο στόχος είναι να χρησιμοποιήσουμε προς όφελός μας τις ημιπεριοδικές και ημιτονοειδείς ιδιότητες των σημάτων φωνής ώστε να δείξουμε πώς ένας σύγχρονος νευρωνικός φωνοκωδικοποιητής μπορεί να παράξει ομιλία βασισμένος σε μία ημιτονοειδή αναπαράσταση. Χρησιμοποιώντας το MelGAN ως το αρχικό μας μοντέλο φωνοκωδικοποίησης, λόγω της αναγνωρισμένης ταχύτητας και ποιότητάς του, το επεκτείνουμε βάζοντάς του επίπεδα που αντί να παράγουν απευθείας την φωνητική κυματομορφή, εκτιμούν τα πλάτη και τις φάσεις μιας καινούργιας προτεινόμενης ημιτονοειδής αναπαράστασης. Τα αποτελέσματά μας δείχνουν ότι η παραγόμενη ποιότητα είναι αντίστοιχη με αυτή του αρχικού MelGAN μοντέλου σύμφωνα με τα αποτελέσματα του πειράματος MOS που διεξήγαμε, υποδεικνύοντάς μας ότι αυτή η καινοτόμα και λιγότερο ακριβή προσέγγιση είναι πράγματι εφικτή. Πειραματιζόμενοι περαιτέρω με αυτά τα μοντέλα, θίγουμε την δυσκολία εύρεσης μιας φασματικής συνάρτησης σφάλματος δυνατή να παράξει ποιότητα κοντά σε αυτές των παραγωγικών αντιπαραθετικών δικτύων.
Φυσική περιγραφή x, 108 σ. : σχεδ., πιν., εικ. ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα Deep learning
Neural networks
Βαθιά μάθηση
Νευρωνικά δίκτυα
Ημερομηνία έκδοσης 2022-12-02
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 482

Ψηφιακά τεκμήρια
No preview available

Δεν έχετε δικαιώματα για να δείτε το έγγραφο.
Δεν θα είναι διαθέσιμο έως: 2025-12-02