Your browser does not support JavaScript!

Μεταπτυχιακές εργασίες ειδίκευσης

Τρέχουσα Εγγραφή: 9 από 818

Πίσω στα Αποτελέσματα Προηγούμενη σελίδα
Επόμενη σελίδα
Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000460697
Τίτλος Exploration of non-stationary speech protection for highly intelligible time-scale compression.
Άλλος τίτλος Εξερεύνηση προστασίας μη στάσιμου λόγου για υψηλής καταληπτότητας συμπίεση σε χρονική κλίμακα
Συγγραφέας Πανταλός, Παναγιώτης Ε.
Σύμβουλος διατριβής Στυλιανού, Ιωάννης
Μέλος κριτικής επιτροπής Πανταζής, Ιωάννης
Τσαγκατάκης, Γρηγόριος
Περίληψη Ηχογραφήσεις ομιλίας υπάρχουν παντού, από τα μέσα κοινωνικής δικτύωσης, το YouTube και την ηλεκτρονική εκπαίδευση μέχρι τα podcast και τα ηχητικά βιβλία. Στον σημερινό κόσμο με τους γρήγορους ρυθμούς, μερικές φορές είναι απαραίτητο να επιταχυνθούν, προκειμένου να προωθηθεί ταχύτερη κατανάλωση πληροφοριών από τους χρήστες. Μια ομάδα πληθυσμού που επωφελείται περισσότερο από τέτοιες τεχνολογίες είναι τα άτομα με προβλήματα όρασης που χρησιμοποιούν την ανάγνωση οθόνης στα κινητά τους τηλέφωνα. Έχει αναπτυχθεί μια σειρά αλγορίθμων για τη χρονική επέκταση ή συμπίεση των καταγραφών ομιλίας. Είναι γνωστό ότι η γρήγορη ομιλία, γνωστή και ως συμπιεσμένη σε χρονική κλίμακα ομιλία, είναι λιγότερο κατανοητή λόγω της απώλειας τμημάτων ομιλίας που είναι σημαντικά για τη διάκριση συλλαβών και λέξεων. Η πλειονότητα αυτών των τμημάτων είναι μη στάσιμα στη φύση τους, όπως οι μεταβατικοί ήχοι, οι έκκροτοι φθόγγοι και τα τριβόμενα σύμφωνα. Στην παρούσα εργασία, διερευνούμε αλγορίθμους για την προστασία της μη στάσιμης ομιλίας, προκειμένου να παρέχουμε συμπίεση με υψηλή καταληπτότητα σε χρονική κλίμακα. Βασίζουμε τα πειράματά μας στη λεγόμενη μέθοδο συμπίεσης χρονικής κλίμακας Waveform Similarity Overlap-and-Add (WSOLA). Η WSOLA είναι ικανή να παρέχει τόσο ομοιόμορφη όσο και ανομοιόμορφη συμπίεση χρονικής κλίμακας. Προτείνουμε να χαρακτηρίσουμε τις κυματομορφές ομιλίας ανάλογα με τη μη-στασιμότητά τους χρησιμοποιώντας απλά κριτήρια στο πεδίο του χρόνου και της συχνότητας. Χρησιμοποιώντας μια ανάλυση καρέ-προς-καρέ, το πρώτο κριτήριο (C1) βασίζεται στην ενέργεια RMS κάθε καρέ. Επιπλέον, εφαρμόζουμε ένα κριτήριο που βασίζεται στη φασματική συχνότητα γραμμής (LSF), το οποίο ονομάζεται C2, και σε συνδυασμό με το C1 καταλήγουμε σε ένα υβριδικό κριτήριο ανίχνευσης μη στασιμότητας που ονομάζεται C3. Το C1 και το C3 εφαρμόζονται σε σύνολο δεδομένων από ηχογραφήσεις ελληνικής ομιλίας με την ονομασία GrHarvard. Η τελευταία αποτελείται από 720 προτάσεις και από τα δύο φύλα που σχηματίζουν 72 φωνητικά ισορροπημένες λίστες των 10 προτάσεων η καθεμία. Πραγματοποιήθηκαν πειράματα καταληπτότητας και προτίμησης σε τέσσερις από τις λίστες του GrHarvard, στα οποία συμμετείχαν και άτομα με υγιή όραση και κάποια άτομα με προβλήματα όρασης. Στη συνέχεια, διενεργήθηκε στατιστική ανάλυση για να εκτιμηθεί η σημασία των διαφορών στα αποτελέσματα που προέκυψαν από τα δύο πειράματα. Στο πρώτο πείραμα, πραγματοποιήσαμε μια συγκριτική ανάλυση που αφορούσε την ομοιόμορφη WSOLA, τη μη ομοιόμορφη WSOLA με βάση το C1 και τη μη ομοιόμορφη WSOLA με βάση το C3. Ο κύριος στόχος ήταν να εκτιμηθεί κατά πόσον η ενσωμάτωση προστατευτικών μέτρων είχε θετικό ή αρνητικό αντίκτυπο στην καταληπτότητα των σημάτων ομιλίας. Τα ευρήματα έδειξαν σταθερά ότι η WSOLA με βάση το C1 υπερείχε των άλλων τόσο στην καταληπτότητα όσο και στην προτίμηση των χρηστών. Μετά, ακολουθούσε η WSOLA με βάση το C3, με την ομοιόμορφη WSOLA να κατατάσσεται τελευταία. Σε αυτό το πείραμα, η πλειονότητα των παρατηρούμενων διακυμάνσεων βρέθηκε να είναι στατιστικά σημαντική. Στο δεύτερο πείραμα, ο στόχος μας ήταν να αξιολογήσουμε τις ίδιες τρεις μεθόδους υπό ίσες συνθήκες λέξεων ανά λεπτό (WPM). Αυτό έκανε δύσκολο για τους χρήστες να διακρίνουν μεταξύ των διαφορετικών μεθόδων και οδήγησε σε πιο ομοιόμορφα αποτελέσματα. Οι διαφορές προέκυπταν κυρίως από τις διαφοροποιήσεις εντός των σημάτων, που σχετίζονταν με τα μεγέθη των σταθερών και μη σταθερών τμημάτων τους. Παρόλο που η μέθοδος με βάση το C1 έτεινε να επιτυγχάνει την υψηλότερη καταληπτότητα (στις περισσότερες περιπτώσεις εκτός από την περίπτωση των 0, 25), παρέμεινε δύσκολο να προσδιοριστεί οριστικά ποια μέθοδος ήταν ανώτερη ως προς την καταληπτότητα των δειγμάτων και την προτίμησης των χρηστών. Επίσης, παρά τις αρχικές μας προσδοκίες για καλύτερες επιδόσεις στα αποτελέσματα της ομάδας με προβλήματα όρασης σε σύγκριση με την ομάδα των ατόμων με υγιή όραση, τέτοιες διαφοροποιήσεις δεν υπήρξαν, κυρίως λόγω του περιορισμένου αριθμού συμμετεχόντων με προβλήματα όρασης που ήταν πρόθυμοι να συμμετάσχουν στις δοκιμές μας. Κατά συνέπεια, όλες αυτές οι προκλήσεις οδήγησαν την πλειονότητα των παρατηρούμενων αποτελεσμάτων να μην επιτύχουν στατιστική σημαντικότητα, παρόλο που περιστασιακά ήταν εμφανές ένα διακριτό μοτίβο μεταξύ των μεθόδων. Σαν μελλοντική εργασία, μπορεί να συμπεριληφθεί περαιτέρω ρύθμιση των παραμέτρων του αλγορίθμου ανίχνευσης στασιμότητας. Για παράδειγμα, μπορούν να χρησιμοποιηθούν διαφορετικά μήκη πλαισίων ανάλυσης και άλματος, καθώς και συγχρονική ανάλυση του τονικού ύψους σε στάσιμα μέρη του λόγου. Επιπλέον, η βασική μέθοδος που χρησιμοποιείται για τη συμπίεση χρονικής κλίμακας μπορεί να αντικατασταθεί από άλλα πιο σύνθετα μοντέλα για τη συμπίεση χρονικής κλίμακας (όπως το μοντέλο Harmonic+Noise). Τέλος, περαιτέρω πειράματα - συμπεριλαμβανομένου ενός μεγαλύτερου δείγματος ατόμων με προβλήματα όρασης - θα μπορούσαν να ενισχύσουν τα στατιστικά συμπεράσματα σχετικά με την απόδοση κάθε μεθόδου.
Φυσική περιγραφή vi, 71 σ. : σχεδ., πιν., εικ. ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα Intelligibility
Non-stationarity protection
Speech processing
Speech rate
Επεξεργασία ομιλίας
Καταληπτότητα
Προστασία μη στασιμότητας
Ρυθμός ομιλίας
Συμπίεση κλίμκας χρόνου
Ημερομηνία έκδοσης 2023-12-01
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Μόνιμη Σύνδεση https://elocus.lib.uoc.gr//dlib/f/d/c/metadata-dlib-1701164102-381809-28429.tkl Bookmark and Share
Εμφανίσεις 961

Ψηφιακά τεκμήρια
No preview available

Δεν έχετε δικαιώματα για να δείτε το έγγραφο.
Δεν θα είναι διαθέσιμο έως: 2024-06-01