Περίληψη |
Η παρούσα διπλωματική εργασία εξετάζει την ανάπτυξη και αξιολόγηση αλγορίθμων εκμάθησης ανεξάρτητων αναπαραστάσεων για την αναπαράσταση σήματος ομιλίας
και τη συνθετική ομιλία, χρησιμοποιώντας εργαλεία από τη θεωρία πληροφορίας. Ο
πρωταρχικός στόχος είναι η ενίσχυση της ικανότητας διαχωρισμού διαφορετικών χαρακτηριστικών της ομιλίας, όπως το περιεχόμενο, η ταυτότητα του ομιλητή και το στυλ,
προκειμένου να βελτιωθεί η ελεγχόμενη δυνατότητα και η ποιότητα των συστημάτων
σύνθεσης ομιλίας.
Για την επίτευξη αυτού του στόχου, επεκτείναμε το μοντέλο FastSpeech 2 [1],
ένα υπερσύγχρονο μοντέλο μετατροπής κειμένου σε ομιλία, το οποίο αναπτύχθηκε από
ερευνητές της Microsoft, ενσωματώνοντας εξελιγμένες μεθόδους διαχωρισμού αναπαραστάσεων. Το σύνολο δεδομένων που χρησιμοποιήθηκε για την εκπαίδευση είναι το
Expresso [2], το οποίο παρέχεται από τη Meta AI και περιλαμβάνει μεγάλο εύρος
δειγμάτων ομιλίας, απαραίτητα για την εκπαίδευση και αξιολόγηση των προτεινόμενων
μεθόδων.
Εφαρμόστηκαν διάφοροι μέθοδοι διαχωρισμού αναπαραστάσεων, συμπεριλαμβανομένης μιας προσέγγισης με τη χρήση του Gradient Reversal Layer [3], σε συνδυασμό
με διπλούς ταξινομητές για ανταγωνιστική εκπαίδευση, και διάφορους εκτιμητές αμοιβαίας πληροφορίας όπως οι MINE [4], INFO NCE [5], CLUB [6], καθώς και δύο νέους
εκτιμητές: τη Convex Conjugated R´enyi Divergence και τη Worst Case Regret
R´enyi Divergence [7]. Αυτές οι τεχνικές ενσωματώθηκαν στο μοντέλο FastSpeech
2 για να επιτευχθεί ο διαχωρισμός των χαρακτηριστικών περιεχομένου, ταυτότητας
ομιλητή και στυλ σε σήματα ομιλίας.
Τα μοντέλα εκπαιδεύτηκαν και αξιολογήθηκαν χρησιμοποιώντας ένα ολοκληρωμένο σύνολο μετρικών για την αποτίμηση της ποιότητας του διαχωρισμού των αναπαραστάσεων και της φυσικότητας της παραγόμενης ομιλίας. Αυτές οι μετρικές περιλαμβάνουν πίνακες συσχέτισης συνημιτόνων και μέσες αποστάσεις μεταξύ συστάδων,
οι οποίες ποσοτικοποιούν το βαθμό διαχωρισμού μεταξύ των αναπαραστάσεων. Επιπλέον, χρησιμοποιήθηκαν τεχνικές μείωσης διαστάσεων (PCA) για την οπτικοποίηση
των αναπαραστάσεων σε χώρο χαμηλότερης διάστασης, παρέχοντας μια σαφή οπτική
αναπαράσταση της ικανότητας του μοντέλου να ομαδοποιεί τα χαρακτηριστικά ομιλητή και στυλ. Για την αξιολόγηση της ποιότητας και της καταληπτότητας, χρησιμοποιήθηκαν οι δείκτες PESQ (Perceptual Evaluation of Speech Quality) και STOI
(Short-Time Objective Intelligibility), ενώ για την ακρίβεια της παραγόμενης ομιλίας
σε σχέση με το περιεχόμενο χρησιμοποιήθηκε ο δείκτης Word Error Rate (WER).
Μεταξύ των μεθόδων που αξιολογήθηκαν, οι Convex Conjugated R´enyi Divergence
(CCR) και ο συνδυασμός Convex Conjugated R´enyi Divergence μE Gradient Reversal Layer (CCR & GRL) απέδωσαν τα πιο ενθαρρυντικά αποτελέσματα στην επίτευξη
αποτελεσματικού διαχωρισμού.
Αυτή η έρευνα συνεισφέρει στον τομέα της επεξεργασίας ομιλίας, παρέχοντας
ένα πλαίσιο για την εκμάθηση διαχωρισμένων αναπαραστάσεων, το οποίο μπορεί να
εφαρμοστεί σε διάφορες εφαρμογές, όπως η εξατομικευμένη σύνθεση ομιλίας και η
προσαρμογή ομιλητή. Η μελλοντική εργασία θα εστιάσει στην περαιτέρω βελτίωση
αυτών των τεχνικών και στην εξερεύνηση της εφαρμοσιμότητάς τους σε άλλους τομείς
επεξεργασίας ομιλίας και ήχου.
|