Περίληψη |
Η ανθρώπινη ομιλία είναι ένα πολυδιάστατο σήμα με ακουστική και οπτική συνιστώσα. Η παρουσία και των δύο συμβάλει στην καλύτερη ποιότητα επικοινωνίας. Μια πολύ σημαντική παράμετρος της οπτικής συνιστώσας, είναι η κίνηση του στόματος, μιας και όλοι έχουμε την ικανότητα να διαπιστώνουμε ότι η κίνηση του στόματος του ανθρώπου που μιλά είναι συγχρονισμένη με την ομιλία. Θεωρώντας ότι διαθέτουμε μόνο την ακουστική συνιστώσα, αναπτύξαμε τέσσερις παραλλαγές ενός αλγορίθμου μετατροπής της ανθρώπινης ομιλίας σε κινήσεις του στόματος. Οι παραλλαγές βασίζονται στη τεχνική ανάλυσης Linear Prediction που χρησιμοποιείται ευρύτατα στην επεξεργασία ήχου. Ο συνολικός αριθμός των διακριτών θέσεων του στόματος (visemes) που χρησιμοποιήσαμε είναι οκτώ και αντιστοιχούν στις πιο ευδιάκριτες θέσεις του στόματος κατά την ομιλία. Η είσοδος σε κάθε παραλλαγή του αλγορίθμου είναι ένα σήμα ομιλίας και η έξοδος μια ακολουθία από διακριτές θέσεις του στόματος. Αναλύουμε την ανάγκη για ομαλοποίηση της ακολουθίας των στιγμιοτύπων για να έχουμε ρεαλιστικότερα αποτελέσματα και παρουσιάζουμε μεθόδους για ομαλοποίηση γνωρίζοντας κάθε στιγμή, κάποια επόμενα στιγμιότυπα. Στη πρώτη παραλλαγή του αλγορίθμου, αντιστοιχούμε ένα στιγμιότυπο του προσώπου ανά διάστημα 20ms (Frame) του σήματος της ομιλίας. Στη δεύτερη παραλλαγή, αντιστοιχούμε ένα στιγμιότυπο του προσώπου ανά διάστημα 40ms (Big Frame) του σήματος της ομιλίας. Στη τρίτη παραλλαγή θεωρούμε ότι το επόμενο στιγμιότυπο είναι γνωστό και ομαλοποιούμε την ακολουθία των στιγμιοτύπων με βάση ένα ευρετικό αλγόριθμο. Τέλος στη τέταρτη παραλλαγή θεωρούμε ότι γνωρίζουμε μέχρι και τέσσερα επόμενα στιγμιότυπα και έτσι χρησιμοποιούμε ένα πιο σύνθετο ευρετικό αλγόριθμο με περισσότερους κανόνες ομαλοποίησης της ακολουθίας των διακριτών στιγμιοτύπων. Οι τρεις πρώτες περιπτώσεις μπορούν να υλοποιηθούν σε πραγματικό χρόνο. Η τέταρτη παραλλαγή δίνει τα καλύτερα αποτελέσματα. Σε όλες τις περιπτώσεις υπολογίζουμε από το πεδίο του χρόνου την ενέργεια και τον αριθμό των περιπτώσεων στις οποίες η κυματομορφή τέμνει το σημείο ηρεμίας (zero-crossing) και από το πεδίο της συχνότητας το ομαλό (Linear Prediction) φάσμα. Οι παραλλαγές του αλγορίθμου υλοποιήθηκαν σε μια εφαρμογή στο περιβάλλον του MATLAB η οποία παρουσιάζει τα αποτελέσματα σε ένα ομιλών πρόσωπο στην οθόνη του χρήστη. Κάθε νέος χρήστης της εφαρμογής μας, θα πρέπει να ακολουθήσει μια σύντομη και απλή διαδικασία εκπαίδευσης. Τέλος παρουσιάζονται διάφορες περισσότερο «ζωντανές» εφαρμογές, στις οποίες η εφαρμογή μας στο MATLAB συνδυάζεται με προγράμματα δημιουργίας και κίνησης τρισδιάστατων γραφικών.
|