Your browser does not support JavaScript!

Αρχική    Intelligibility enhancement of casual speech based on clear speech properties  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000402821
Τίτλος Intelligibility enhancement of casual speech based on clear speech properties
Άλλος τίτλος Αύξηση της καταληπτότητας της ομιλίας χρησιμοποιώντας ιδιότητες καταληπτής ομιλίας
Συγγραφέας Κουτσογιαννάκη, Μαρία Χαραλάμπους
Σύμβουλος διατριβής Στυλιανού, Γιάννης
Μέλος κριτικής επιτροπής Μουχτάρης, Αθανάσιος
Hazan, Vazan
Περίληψη Όταν ένας άνθρωπος επικοινωνεί με έναν συνάνθρωπό του, προσαρμόζει αντανακλαστικά την ομιλία του ανάλογα με το περιβάλλον στο οποίο βρίσκεται αυτός (π.χ. παρουσία θορύβου) ή ο συνομιλητής του (π.χ. βαρήκοος) , παράγοντας διαφορετικά στυλ ομιλίας (Καθαρή ομιλία, ομιλία Lombard) σε σχέση με το αν η επικοινωνία του ήταν ανεμπόδιστη (Πρόχειρη ομιλία). Τα στυλ αυτά ομιλίας διαφέρουν ανάλογα με το είδος του εμποδίου στο επικοινωνιακό κανάλι ή/και ανάλογα με τον ομιλητή. Παρουσιάζουν όμως ένα κοινό χαρακτηριστικό: την αυξημένη καταληπτότητα. Η ανάπτυξη αλγορίθμων που εκμεταλλεύονται τα ακουστικά χαρακτηριστικά τέτοιων στυλ ομιλίας θα μπορούσε να είναι επωφελής στην Τεχνολογία Φωνής. Πολλές τεχνολογικές εφαρμογές αναζητούν μεθόδους βελτιστοποίησης της καταληπτότητας των συσκευών που παράγουν συνθετική φωνή. Πέρα από την εμπορική εκμετάλλευση των εφαρμογών αυτών (κινητά τηλέφωνα, συστήματα πλοήγησης, συστήματα τηλεφωνικής υποστήριξης πελατών), πολύ σημαντική είναι η συνεισφορά τους στον ιατρικό τομέα ως βοηθητικά μέσα επικοινωνίας ατόμων με προβλήματα ομιλίας και ακοής. Ωστόσο, η τρέχουσα τεχνολογία φωνής είναι «κωφή», δεν μπορεί δηλαδή να προσαρμοστεί στα δυναμικώς μεταβαλλόμενα περιβάλλοντα ούτε στην ιδιαιτερότητα του ακροατή, όπως ο άνθρωπος. Η εργασία αυτή προτείνει την ανάπτυξη αλγορίθμων που «μιμούνται» τον τρόπο ανθρώπινης ομιλίας σε δύσκολες συνθήκες επικοινωνίας, συνεισφέροντας στην ανάπτυξη έξυπνων τεχνολογικών συστημάτων φωνής. Συγκεκριμένα, το στυλ ομιλίας του οποίου τα χαρακτηριστικά αναλύονται και χρησιμοποιούνται για την αύξηση της καταληπτότητας της Πρόχειρης ομιλίας είναι η Καθαρή ομιλία. Σε αντίθεση με άλλα στυλ ομιλίας, η Καθαρή ομιλία είναι καταληπτή από διάφορους ακροατές (ομόγλωσσους και μη, με προβλήματα ακοής, με κοχλιακά εμφυτεύματα, ηλικιωμένους, με μαθησιακές δυσκολίες κλπ) σε διάφορες συνθήκες περιβάλλοντος (με ή χωρίς θόρυβο, σε περιβάλλοντα αντήχησης). Ένα σημαντικό μέρος της εργασίας αυτής αναλύει και συγκρίνει τα χαρακτηριστικά της Πρόχειρης και Καθαρής ομιλίας. Από την σύγκριση αυτή, αναδεικνύονται διαφορές κυρίως στην προσωδία, στον φωνηεντικό χώρο, στην φασματική ενέργεια και στο πλάτος διαμόρφωσης της χρονικής περιβάλλουσας του σήματος φωνής. Βασιζόμενοι στις μετρίσιμες αυτές διαφορές, προτείνουμε μετασχηματισμούς που βελτιώνουν την καταληπτότητα του σήματος Πρόχειρης ομιλίας. Σε σύγκριση με state - of - the - art συστήματα μετασχηματισμού, οι δικές μας τεχνικές (1) είναι χαμηλής υπολογιστικής πολυπλοκότητας (2) μπορούν να εφαρμοστούν ανεξαρτήτως ομιλητή ή σήματος (3) διατηρούν την ποιότητα του αρχικού σήματος (4) εφαρμόζονται άμεσα χωρίς την ανάγκη εκπαίδευσης των δεδομένων και προΰπαρξης του σήματος Καθαρής φωνής. Οι προτεινόμενοι αλγόριθμοι αξιολογηθήκαν ως προς την καταληπτότητα και την ποιότητα με αντικειμενικές μετρικές καταληπτότητας και με υποκειμενικά ακουστικά τέστ από ομόγλωσσους και αλλόγλωσσους ακροατές χωρίς την ύπαρξη θορύβου, μέσα σε θορυβώδη περιβάλλοντα και σε περιβάλλοντα αντήχησης. Η αξιολόγηση δείχνει ότι οι μετασχηματισμοί που προτείνουμε αυξάνουν την καταληπτότητα της πρόχειρης ομιλίας τόσο σε περιβάλλοντα θορύβου όσο και σε περιβάλλοντα αντήχησης για ομόγλωσσους και αλλόγλωσσους ακροατές. Συγκεκριμένα, η τεχνική φασματικού μετασχηματισμού, επονομαζόμενη ως Mix - filtering, αυξάνει την καταληπτότητα του σήματος ομιλίας σε περιβάλλοντα θορύβου και αντήχησης ενώ διατηρεί την ποιότητα του σήματος, εν αντιθέσει με άλλους αλγορίθμους. Επιπλέον, η προτεινόμενη τεχνική αύξησης του πλάτους των διαμορφώσεων της χρονικής περιβάλλουσας, αναφερθείσα ως DMod, αυξάνει την καταληπτότητα της Πρόχειρης ομιλίας κατά 30% σε περιβάλλοντα θορύβου. Ο αλγόριθμος DMod, εμπνέεται όχι μόνο από χαρακτηριστικά της Καθαρής ομιλίας αλλά και από μη γραμμικές λειτουργίες που λαμβάνουν χώρα στην βασική μεμβράνη του ανθρώπινου κοχλία. Επιτυγχάνει δε, πέρα από την αύξηση της καταληπτότητας, την εισαγωγή μιας νέας μεθόδου χειρισμού των διαμορφώσεων της περιβάλλουσας του σήματος. Τα αποτελέσματα της μελέτης αυτής δείχνουν την ύπαρξη μιας σύνδεσης ανάμεσα στις διαμορφώσεις της χρονικής περιβάλλουσας και στον τρόπο αντίληψης και επεξεργασίας του ήχου από την βασική μεμβράν η του ανθρώπινου κοχλία, ανοίγοντας τον δρόμο για την ανάλυση και κατανόηση της ομιλίας ως κύματα διαμορφώσεων.
Φυσική περιγραφή 117 σ. : πίν., εικ. ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα Casual
Lombard
Modulations
Noise
Διαμορφώσεις
Θόρυβος
Καταληπτότητα
Ομιλία
Ημερομηνία έκδοσης 2016-04-05
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Διδακτορικές διατριβές
  Τύπος Εργασίας--Διδακτορικές διατριβές
Εμφανίσεις 647

Ψηφιακά τεκμήρια
No preview available

Κατέβασμα Εγγράφου
Προβολή Εγγράφου
Εμφανίσεις : 18