Your browser does not support JavaScript!

Αρχική    Developing disentangled speech representation algorithms using information theory with application in speech synthesis  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000469088
Τίτλος Developing disentangled speech representation algorithms using information theory with application in speech synthesis
Άλλος τίτλος Ανάπτυξη αλγορίθμων εκμάθησης ανεξάρτητων αναπαραστάσεων ομιλίας χρησιμοποιώντας θεωρία πληροφορίας με εφαρμογή στη σύνθεση ομιλίας
Συγγραφέας Κασσιώτης, Θωμάς Α.
Σύμβουλος διατριβής Πανταζής, Γιάννης
Μέλος κριτικής επιτροπής Στυλιανού, Ιωάννης
Τσαγκατάκης, Γρηγόρης
Περίληψη Η παρούσα διπλωματική εργασία εξετάζει την ανάπτυξη και αξιολόγηση αλγορίθμων εκμάθησης ανεξάρτητων αναπαραστάσεων για την αναπαράσταση σήματος ομιλίας και τη συνθετική ομιλία, χρησιμοποιώντας εργαλεία από τη θεωρία πληροφορίας. Ο πρωταρχικός στόχος είναι η ενίσχυση της ικανότητας διαχωρισμού διαφορετικών χαρακτηριστικών της ομιλίας, όπως το περιεχόμενο, η ταυτότητα του ομιλητή και το στυλ, προκειμένου να βελτιωθεί η ελεγχόμενη δυνατότητα και η ποιότητα των συστημάτων σύνθεσης ομιλίας. Για την επίτευξη αυτού του στόχου, επεκτείναμε το μοντέλο FastSpeech 2 [1], ένα υπερσύγχρονο μοντέλο μετατροπής κειμένου σε ομιλία, το οποίο αναπτύχθηκε από ερευνητές της Microsoft, ενσωματώνοντας εξελιγμένες μεθόδους διαχωρισμού αναπαραστάσεων. Το σύνολο δεδομένων που χρησιμοποιήθηκε για την εκπαίδευση είναι το Expresso [2], το οποίο παρέχεται από τη Meta AI και περιλαμβάνει μεγάλο εύρος δειγμάτων ομιλίας, απαραίτητα για την εκπαίδευση και αξιολόγηση των προτεινόμενων μεθόδων. Εφαρμόστηκαν διάφοροι μέθοδοι διαχωρισμού αναπαραστάσεων, συμπεριλαμβανομένης μιας προσέγγισης με τη χρήση του Gradient Reversal Layer [3], σε συνδυασμό με διπλούς ταξινομητές για ανταγωνιστική εκπαίδευση, και διάφορους εκτιμητές αμοιβαίας πληροφορίας όπως οι MINE [4], INFO NCE [5], CLUB [6], καθώς και δύο νέους εκτιμητές: τη Convex Conjugated R´enyi Divergence και τη Worst Case Regret R´enyi Divergence [7]. Αυτές οι τεχνικές ενσωματώθηκαν στο μοντέλο FastSpeech 2 για να επιτευχθεί ο διαχωρισμός των χαρακτηριστικών περιεχομένου, ταυτότητας ομιλητή και στυλ σε σήματα ομιλίας. Τα μοντέλα εκπαιδεύτηκαν και αξιολογήθηκαν χρησιμοποιώντας ένα ολοκληρωμένο σύνολο μετρικών για την αποτίμηση της ποιότητας του διαχωρισμού των αναπαραστάσεων και της φυσικότητας της παραγόμενης ομιλίας. Αυτές οι μετρικές περιλαμβάνουν πίνακες συσχέτισης συνημιτόνων και μέσες αποστάσεις μεταξύ συστάδων, οι οποίες ποσοτικοποιούν το βαθμό διαχωρισμού μεταξύ των αναπαραστάσεων. Επιπλέον, χρησιμοποιήθηκαν τεχνικές μείωσης διαστάσεων (PCA) για την οπτικοποίηση των αναπαραστάσεων σε χώρο χαμηλότερης διάστασης, παρέχοντας μια σαφή οπτική αναπαράσταση της ικανότητας του μοντέλου να ομαδοποιεί τα χαρακτηριστικά ομιλητή και στυλ. Για την αξιολόγηση της ποιότητας και της καταληπτότητας, χρησιμοποιήθηκαν οι δείκτες PESQ (Perceptual Evaluation of Speech Quality) και STOI (Short-Time Objective Intelligibility), ενώ για την ακρίβεια της παραγόμενης ομιλίας σε σχέση με το περιεχόμενο χρησιμοποιήθηκε ο δείκτης Word Error Rate (WER). Μεταξύ των μεθόδων που αξιολογήθηκαν, οι Convex Conjugated R´enyi Divergence (CCR) και ο συνδυασμός Convex Conjugated R´enyi Divergence μE Gradient Reversal Layer (CCR & GRL) απέδωσαν τα πιο ενθαρρυντικά αποτελέσματα στην επίτευξη αποτελεσματικού διαχωρισμού. Αυτή η έρευνα συνεισφέρει στον τομέα της επεξεργασίας ομιλίας, παρέχοντας ένα πλαίσιο για την εκμάθηση διαχωρισμένων αναπαραστάσεων, το οποίο μπορεί να εφαρμοστεί σε διάφορες εφαρμογές, όπως η εξατομικευμένη σύνθεση ομιλίας και η προσαρμογή ομιλητή. Η μελλοντική εργασία θα εστιάσει στην περαιτέρω βελτίωση αυτών των τεχνικών και στην εξερεύνηση της εφαρμοσιμότητάς τους σε άλλους τομείς επεξεργασίας ομιλίας και ήχου.
Φυσική περιγραφή viii, 114 σ. : σχεδ., πιν., εικ. (μερ.εγχρ.) ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα Deep learning
Disentagled representation learning
Generative models
Ανεξάρτητες αναπαραστάσεις ομιλίας
Βαθιά μάθηση
Γεννητικά μοντέλα
Ημερομηνία έκδοσης 2024-11-29
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 48

Ψηφιακά τεκμήρια
No preview available

Κατέβασμα Εγγράφου
Προβολή Εγγράφου
Εμφανίσεις : 5