Your browser does not support JavaScript!

Αρχική    Speech rhythm detection and its application in speech perception  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000456885
Τίτλος Speech rhythm detection and its application in speech perception
Άλλος τίτλος Ανίχνευση του ρυθμού ομιλίας και η εφαρμογή του στην αντίληψη της ομιλίας
Συγγραφέας Λυδάκη, Ελευθερία Ε.
Σύμβουλος διατριβής Τσακαλίδης, Παναγιώτης
Μέλος κριτικής επιτροπής Στυλιανού, Ιωάννης
Τσαγκατάκης, Γρηγόριος
Περίληψη Ο όρος ρυθμός της ομιλίας αναφέρεται στα ρυθμικά μοτίβα και που συμβαίνουν στον προφορικό λόγο. Περιλαμβάνει την φυσική ροή, τα μοτίβα τονισμού και έμφασης και τις χρονικές μεταβολές των ήχων, των συλλαβών και των λέξεων. Ο ρυθμός απο-τελεί ένα σημαντικό δυναμικό προσοδιακό χαρακτηριστικό της ομιλίας που συνδέεται με την αντίληψη της. Η ανίχνευση του ρυθμού της ομιλίας έχει πολλαπλές εφαρμο¬γές. Σε αυτήν την μελέτη σκοπός είναι η χρήση ρυθμικών μέτρων για την εκτίμηση της προτίμησης των ακροατών. Η έρευνα αυτή είχε ως βάση την ιδέα ότι φωνές με συγκεκριμένα ρυθμικά μοτίβα είναι εν γένει προτιμότερες. Στην παρούσα εργασία, μελετήθηκε ο ρυθμός της ομιλίας ως μέτρο κατανοησιμότητας και πιθανό μέσο πρόβλεψης της προτίμησης των ακροατών. Αν και η ρυθμικότητα τα γίνεται αντιληπτή από τους ανθρώπους, δεν υπάρχει καθολικά αποδεκτός ορισμός ή μέτρο ποσοτικοποίησης του ρυθμού της ομιλίας στην επιστημονική κοινότητα. Στη βιβλιογραφία υπάρχουν ισχυρά επιχειρήματα ότι η ρυθμικότητα κωδικοποιείται στη χρονική περιβάλλουσα του σήματος. Συνήθως η περιβάλλουσα αποσυντίθεται σε συ¬νιστώσες και εξάγονται οι αντίστοιχες στιγμιαίες συχνότητες, οι οποίες υποθέτουμε ότι φέρουν πληροφορίες για την ρυθμικότητα του σήματος. Χρησιμοποιήθηκαν δύο τεχνικές για την ανάλυση της περιβάλλουσας σε ουσιώδεις συνιστώσες. Η πρώτη τεχνική, που προτάθηκε σε προηγούμενη μελέτη, περιλαμβάνει τον Εμπειρικό Τρόπο Αποσύνθεσης7 (EMD) της χρονικής περιβάλλουσας για την εξαγωγή μετρικών για τον ρυθμό της ομιλίας. Εδώ προτάθηκε η εξαγωγή των ίδιων μετρικών χρησιμοποιώ¬ντας μία αποσύνθεση AM-FM στην χρονική περιβάλλουσα αντί για τον EMD. Αυτή η τροποποίηση έχει προοπτικές να βελτιώσει την ακρίβεια των αποτελεσμάτων, αφού ο EMD δεν είναι μαθηματικά αξιόπιστος. Η περιβάλλουσα, αν και περιέχει ορισμένες πληροφορίες, αποτελεί μια απλοποιημένη μορφή του σήματος της φωνής. Του λείπονται σημαντικά στοιχεία όπως η τονικότητα (pitch), τα οποία πιθανώς συνεισφέρουν στην κατανόηση του ρυθμού. Η αποκλειστική χρήση της περιβάλλουσας μπορεί να οδηγήσει στην παράλειψη ρυθμικών χαρακτηριστικών που περιλαμβάνονται στο σήμα της φωνής. Υποθέτουμε ότι η ρυθμικότητα της φωνής είναι στενά συνδεδεμένη με τον τρόπο με τον οποίο οι ομιλητές μεταβαίνουν από την μία συλλαβή στην επόμενη. Συνεπώς, προτείνουμε μία προσέγγιση που εξάγει απευθείας τη ρυθμικότητα από το σήμα της φωνής αναλύοντας το τμήμα του σήματος της φωνής που σχετίζεται με τις μεταβάσεις μεταξύ συλλαβών. Αυτή η μέθοδος αντιμετωπίζει αποτελεσματικά το πρό¬βλημα της απώλειας πληροφορίας, που συμβαίνει αναπόφευκτα κατά την εξαγωγή και ανάλυση της περιβάλλουσας. Σε αυτήν την έρευνα χρησιμοποιήθηκαν δεδομένα που περιείχαν σήματα φωνής από διάφορους ομιλητές. Συγχρόνως ήταν ακόμη διαθέσιμες πληροφορίες σχετικά με τους ομιλητές που προτιμήθηκαν από τους ακροατές. Αυτή η γνώση επέτρεψε την διερεύνηση των παραγόντων που συνεισφέρουν στην προτίμηση ορισμένων φωνών και την ανάλυση των χαρακτηριστικών που τις καθιστούν προτιμότερες. Τα πειράματα επεκτάθηκαν πέρα από την φυσική ταχύτητα ομιλίας, δηλαδή στον γρήγορο τρόπο ομιλίας, και μελετήθηκαν η προτίμηση και ο ρυθμός στον γρήγορο λόγο. Πραγματοποιήθηκε στατιστική ανάλυση για να αξιολογήσουμε την καταλληλότητα των μετρικών που προήλθαν από τις τεχνικές αποσύνθεσης της περιβάλλουσας και του σήματος στα πλαίσια του σκοπού αυτής της εργασίας. Τα αποτελέσματά μας έδειξαν ότι οι μετρικές που σχετίζονται με την περιβάλλουσα δεν είναι κατάλληλες για την ακριβή αποτύπωση του ρυθμού, καθώς επηρεάζονται σημαντικά από την ταχύτητα του λόγου, με αποτέλεσμα να υπάρχει έλλειψη ακρίβειας στην αναπαράσταση ρυθμικών μοτίβων. Αντιθέτως, η μελέτη των μεταβάσεων μεταξύ συλλαβών απευθείας από το σήμα της φωνής έδειξε υποσχόμενα αποτελέσματα. Επιτεύχθηκε ένας ικανοποιητικός διαχωρισμός ανάμεσα στους ομιλητές που προτιμήθηκαν και τους υπόλοιπους, και επομένως η σύλληψη κάποιων χαρακτηριστικών που διαμορφώνουν την προτίμηση των ακροατών. Η στατιστική σημαντικότητα των διαφορών ανάμεσα στους ομιλητές επιβεβαιώθηκε με στατιστικά τεστ ANOVA (Ανάλυση της Διασποράς). Τα αποτελέσματα από τις μεταβάσεις των συλλαβών υποδεικνύουν υποσχόμενες ευκαιρίες για μελλοντική έρευνα. Λαμβάνοντας υπόψη την πολυδιάστατη φύση της προτίμησης, η διερεύνηση επιπλέον μετρικών γίνεται αναγκαία στην βελτίωση της απόδοσης που θα οδηγήσει σε μία πιο εμπεριστατωμένη και αξιόπιστη εκτίμηση της προτίμησης των ακροατών.
Φυσική περιγραφή vi, 58 σ. : σχεδ., πιν., εικ. (μερ. εγχρ.) ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα AM-FM
Amplitude envelope
EMD
Listener preference
Speech rate
Syllable transitions
Μετάβαση συλλαβών
Προτίμηση ακροατών
Ρυθμός ομιλίας
Ταχύτητα ομιλίας
Χρονική περιβάλλουσα
Ημερομηνία έκδοσης 2023-07-21
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 552

Ψηφιακά τεκμήρια
No preview available

Κατέβασμα Εγγράφου
Προβολή Εγγράφου
Εμφανίσεις : 13