E-Locus - Ιδρυματικό Καταθετήριο Πανεπιστημίου Κρήτης - Improving generative adversarial networks and its applications in speech synthesis

Αρχική Improving generative adversarial networks and its applications in speech synthesis

Αποτελέσματα - Λεπτομέρειες

[Προσθήκη στο καλάθι]

Κωδικός Πόρου

000463839

Τίτλος

Improving generative adversarial networks and its applications in speech synthesis

Άλλος τίτλος

Βελτιωμένα παραγωγικά ανταγωνιστικά δίκτυα με εφαρμογές στη σύνθεση φωνής

Συγγραφέας

Dipjyoti, Paul

Σύμβουλος διατριβής

Στυλιανού, Ιωάννης

Περίληψη

Σε αυτή τη διατριβή, εξετάζουμε σημαντικές προόδους στον τομέα της μηχανικής μάθησης. Generative Adversarial Networks (GANs) και στη χρήση τους για τη βελτίωση της δημιουργίας εικόνων και του τρόπου που οι υπολογιστές παράγουν ομιλία. Δεδομένων των πρόσφατων αλμάτων στην εκπαίδευση των GANs, είναι επιτακτική η ενασχόληση και η βελτίωση της σταθερότητας της διαδικασίας εκπαίδευσης. Επομένως, το πρώτο μέρος αυτής της διατριβής δίνει ξεχωριστή έμφαση στην διερεύνηση αλγοριθμικών βελτιώσεων με σκοπό την καλύτερη εκπαίδευση GANs. Στόχος είναι η διείσδυση σε στρατηγικές που αντιμετωπίζουν δυσκολίες και αστάθειες κατά την εκπαίδευση των GANs, και επομένως συνεισφέρουν στην συνολική αναβάθμιση της διαδικασίας εκπαίδευσης. Προτείνουμε έναν καινοτόμο βαρο-κεντρικό αλγόριθμο που στοχεύει στην ενίσχυση της Γεννήτριας. Τα θεωρητικά θεμέλια αυτής της προσέγγισης υποδεικνύουν καλύτερες επιδόσεις σε σχέση με τον κατεστημένο αλγόριθμο, με την δημιουργία μιας πιο ικανής Γεννήτριας σε κάθε επανάληψη. Εμπειρικά αποτελέσματα στηρίζουν αυτή την υπόθεση, αναδεικνύοντας σημαντική βελτίωση στην ακρίβεια και ταχύτερους ρυθμούς σύγκλισης μεταξύ συνθετικών συλλογών δεδομένων και συλλογών δεδομένων με εικόνες. Το ποσοστό βελτίωσης κυμαίνεται ανάμεσα σε ένα 5% και ένα εντυπωσιακό 50%. Αναφορικά με τις συναρτήσεις κόστους, εισάγουμε μια νέα προσέγγιση βασισμένη σε αθροιστικές γεννήτριες συναρτήσεις. Αυτή η μέθοδος προσφέρει μία νέα οπτική στις συναρτήσεις κόστους στα GANs, με την χρήση ενός μεγάλου εύρους αποκλίσεων και αποστάσεων, βασισμένων σε αθροιστικές γεννήτριες συναρτήσεις, και στηρίζεται σε μία πρόσφατη σχέση διακυμάνσεων. Δείχνουμε ότι η αντίστοιχη βελτιστοποίηση είναι ισοδύναμη με την μέθοδο ελαχιστοποίησης της απόκλισης του Renyi, και άρα προσφέρει μια (μερικώς) καθολική οπτική στα κόστη GANs: η οικογένεια Renyi χρησιμοποιεί Kullback-Leibler απόκλιση KLD, αντίστροφο KLD, απόσταση Hellinger απόκλιση χ². Συγχρόνως, βελτιώνει την σταθερότητα εκπαίδευσης, ιδίως όταν χρησιμοποιούνται πιο αδύναμοι διακριτές, και αναδεικνύει σημαντική βελτίωση στην παραγωγή συνθετικών εικόνων σε συλλογές δεδομένων όπως CIFAR-10 και Imagenet . Οι αποσυνδεδεμένες αναπαραστάσεις είναι απαραίτητες για την αποτύπωση των κατανομών πιθανοτήτων και την μέτρηση της απόκλισης. H εκτίμηση της Αμοιβαίας Πληροφορίας, συγκεκριμένα μέσω του KLD, είναι μία συνήθης προσέγγιση για την ενίσχυση της αποσύνδεσης. Μελετάμε την χρήση μεταβαλλόμενων αναπαραστάσεων, βασισμένων ιδίως στην ελαχιστοποίηση των αποκλίσεων Renyi, ως εναλλακτική του KLD . Οι αποκλίσεις Renyi προσφέρουν πλεονεκτήματα στην σύγκριση διαφορετικών τύπων κατανομών. Το κείμενο δίνει έμφαση στην χρήση κλιμακούμενων νευρωνικών δικτυών εκτιμητών για την αποτελεσματική εκτίμηση της Αμοιβαίας Πληροφορίας. Παρά τη δυνατότητα για μια μεγάλη στατιστική εκτίμηση, η χρήση μίας μεταβαλλόμενης αναπαράστασης, βασισμένης στις αποκλίσεις Renyi, αποδεικνύεται εφικτή και αποτελεσματική. H μέθοδος είναι ιδιαίτερα επιτυχής στην βελτίωση της σταθερότητας σε πραγματικά βιολογικά δεδομένα, επιτρέποντας την ανίχνευση σπάνιων υποπληθυσμών ακόμη και με περιορισμένα δείγματα. Ακόμη, η δυσκολία στην ακριβή εκτίμηση των αποκλίσεων αποτελεί μία σημαντική πρόκληση σε πολλά προβλήματα μηχανικής μάθησης, ειδικά σε μεγάλης διάστασης δεδομένα που οδηγούν σε αυξημένη διακύμανση. Για την αντιμετώπιση αυτής της πρόκλησης προτείνουμε μία λύση: την χρήση μίας ποινής διακύμανσης στην αντικειμενική συνάρτηση της εκτίμησης της απόκλισης. Αυτή η πρόσθετη ποινή στοχεύει στην μείωση της διακύμανσης που σχετίζεται με τον εκτιμητή, παρέχοντας ένα πιθανό τρόπο βελτίωσης της ακρίβειας της εκτίμησης των αποκλίσεων. Σε αυτό το μέρος της διατριβής, η προσοχή μας στρέφεται στις πρακτικές χρήσεις της σύνθεσης φωνής, όπως η μετατροπή μίας φωνής σε άλλη (μετασχηματισμός φωνής) και η παραγωγή λόγου από κείμενο (κείμενο-σε-φωνή-σύνθεση, TTS). Εισάγουμε καινοτόμες τεχνικές για μετασχηματισμό φωνής που στοχεύουν κυρίως στον πολλές-σε-πολλές μετασχηματισμό φωνής. Χρησιμοποιώντας έννοιες από τον προηγούμενο βαρο-κεντρικό αλγόριθμο, προτείνουμε μια προσέγγιση πολλαπλασιασμού βαρών για την βελτίωση των παραγώγων της Γεννήτριας, καθιστώντας την πιο ικανή στο να 'ξεγελάει' τον Διακριτή. Αυτό οδηγεί σε ένα εύρωστο σύστημα Weighted StarGAN (WeStar- GAN). Είναι αξιοσημείωτο ότι το WeStarGAN επιτυγχάνει σημαντικά ανώτερη επίδοση σε σχέση με συμβατικές μεθόδους. Σημειώνει σκορ επίδοσης της τάξης του 75% και 65% σε ότι αφορά την υποκειμενική ποιότητα φωνής και την ομοιότητα ομιλητή αντίστοιχα. Οι νευρωνικοί vocoders συχνά αντιμετωπίζουν δυσκολίες στην γενίκευση, ειδικά σε άγνωστους ομιλητές και συνθήκες. Εδώ, εισάγουμε το Speaker Conditional WaveRNN (SC-WaveRNN), που χρησιμοποιεί ενσωματώσεις ομιλητών για την βελτίωση της ποιότητας της φωνής και της επίδοσης. Αυτή η εναλλακτική ξεπερνά σημαντικά το βασικό WaveRNN, επιτυγχάνοντας εντυπωσιακή βελτίωση της τάξης έως και 95% σε ότι αφορά το Σκορ Μέσης Άποψης ( MOS) για άγνωστους ομιλητές και συνθήκες. Ως επιπλέον επέκταση υλοποιούμε μία προσέγγιση πολλαπλών-ομιλητών κείμενο-σε-φωνή σύνθεσης, αντιμετωπίζοντας την προσαρμογή σε άγνωστους κατά την εκπαίδευση ομιλητές. Αναφορικά με το Universal TTS, παρουσιάζουμε ένα σύστημα, ικανό να παράγει φωνή με ποικίλα στυλ ομιλίας και χαρακτηριστικά ομιλητή, χωρίς την ανάγκη επισημείωσης του στυλ ή του ομιλητή. Παρουσιάζουμε μία νέα προσέγγιση βασισμένη στην Απόκλιση Renyi και την αποσυνδεδεμένη αναπαράσταση. Αυτή η καινοτόμα μέθοδος μειώνει αποτελεσματικά την διαρροή περιεχομένου και στυλ, επιφέροντας ουσιώδη βελτίωση στον ρυθμό λάθος λέξεων και στην ποιότητα φωνής. O προτεινόμενος αλγόριθμος μας επιτυγχάνει βελτίωση περίπου 16%- 20% στην ποιότητα φωνής MOS, μαζί με μία αναβάθμιση της τάξης του 15% στην ομοιότητα κατά MOS Τέλος, η αυξανόμενη χρήση ψηφιακών βοηθών τονίζει την σημασία των συστημάτων TTS στις σύγχρονες συσκευές. H εξασφάλιση της παραγωγής καθαρού λόγου σε θορυβώδη περιβάλλοντα είναι επιτακτική. H καινοτόμα προσέγγιση μας μεταφοράς μάθησης στο TTS αξιοποιεί τη δύναμη του συνδυασμού δυο αποτελεσματικών στρατηγικών: δεδομένα στυλ ομιλίας Lombard και SSDRC. Αυτό το επεκταμένο σύστημα, Lombard-SSDRC TTS, βελτιώνει σημαντικά την κατανοησιμότητα, με σχετικές αναβαθμίσεις που κυμαίνονται από 110% έως 130% στο θόρυβο με μορφή φωνής (SSN) και από 47% έως 140% στο θόρυβο από ανταγωνιστές-ομιλητές (CSN), συγκριτικά με σύγχρονες μεθόδους TTS. Υποκειμενικές αξιολογήσεις επιβεβαιώνουν περαιτέρω σημαντική βελτίωση, με μια αύξηση στο μέσο ρυθμό διόρθωσης λέξεων κλειδιών της τάξης του 455% στο (SSN) και 104% στο (CSN) σε σχέση με την βασική μέθοδο TTS.

Φυσική περιγραφή

175 σ. : πίν., σχήμ., εικ. ; 30 εκ.

Γλώσσα

Αγγλικά

Θέμα

Deep learning

Generative models

Machine Learning

Neural networks

Speech processing

Text to speech synthesis

Βαθιά μάθηση