Your browser does not support JavaScript!

Αρχική    Sinusoidal Coding of Speech for Voice over IP  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου uch.csd.phd//2007agiomyrgiannakis
Τίτλος Sinusoidal Coding of Speech for Voice over IP
Άλλος τίτλος Ημιτονοειδής κωδικοποίηση σημάτων φωνής για μετάδοση μέσω δικτύων IP
Συγγραφέας Αγιομυργιαννάκης, Ιωάννης
Σύμβουλος διατριβής Στυλιανού, Ι.
Περίληψη Είναι ευρέως αποδεκτό ότι η μετάδοση φωνής μέσω δικτύων IP θα κυριαρχήσει στις ενσύρματες και ασύρματες τηλεπικοινωνίες στο προσεχές μέλλον. Παραδοσιακά, ένα ελάχιστο επίπεδο ποιότητας επικοινωνίας διασφαλίζεται με προσεκτική παρακολούθηση και ρύθμιση της κίνησης του δικτύου. Μια τέτοια προσέγγιση όμως δεν είναι εφικτή όταν δεν υπάρχει η δυνατότητα ελέγχου ή/και προσαρμογής των παραμέτρων του δικτύου. Για παράδειγμα, όταν τα δεδομένα φωνής δρομολογούνται μέσω του Διαδικτύου, οι καθυστερήσεις που εισάγονται από το δίκτυο σε συνδυασμό με τις αυστηρές προδιαγραφές μέγιστης καθυστέρησης προκαλούν συνθήκες αυξημένης απώλειας πακέτων φωνής. Οι περισσότεροι κωδικοποιητές φωνής όμως δεν έχουν σχεδιαστεί να λειτουργούν υπό αυτές τις συνθήκες. Μια λύση είναι να εισαχθεί κωδικοποίηση καναλιού, εις βάρος όμως της καθυστέρησης μετάδοσης των πακέτων. Μια άλλη λύση είναι να γίνει συνδυασμένη κωδικοποίηση πηγής/καναλιού για το σήμα της φωνής με κατάλληλο σχεδιασμό κωδικοποιητών φωνής οι οποίοι είναι εγγενώς ευσταθείς στις απώλειες πακέτων. Στην εργασία αυτή προτείνεται ένα πλαίσιο ανάπτυξης κωδικοποιητών φωνής οι οποίοι είναι ευσταθείς σε απώλειες πακέτων. Το θέμα αντιμετωπίζεται σε δύο επίπεδα: στο βασικό επίπεδο κωδικοποίησης πηγής/καναλιού όπου προτείνονται νέες μέθοδοι εισαγωγής πλεονάζουσας πληροφορίας στα μεταδιδόμενα πακέτα καθώς και στο επίπεδο της αναπαράστασης/κωδικοποίησης της φωνής όπου προτείνεται μια παραμετροποίηση/μοντελοποίηση η οποία επιτρέπει την χρήση των προαναφερθέντων μεθόδων κωδικοποίησης πηγής/καναλιού. Ο κωδικοποιητής φωνής έχει σχεδιαστεί με γνώμονα την επίτευξη υψηλής ποιότητας αλγορίθμων απόκρυψης απώλειας πακέτων (Packet Loss Concealment (PLC). Το σήμα της φωνής έχει μοντελοποιηθεί ως άθροισμα αρμονικά σχετισμένων συνημίτονων, μια παραμετροποίηση η οποία επιτρέπει λεπτομερή χειρισμό τόσο στο πεδίο των συχνοτήτων όσο και στο πεδίο του χρόνου, ιδιότητα η οποία είναι ουσιώδης για την ανάπτυξη υψηλής ποιότητας αλγορίθμων PLC. Κάθε πακέτο φωνής κωδικοποιείται ανεξάρτητα από τα προηγούμενα πακέτα προκειμένου να αποφευχθεί ο αποσυγχρονισμός του κωδικοποιητή από τον αποκωδικοποιητή σε μια ενδεχόμενη απώλεια πακέτου. Αυτός ο χειρισμός επιτρέπει ένα φυσικό επίπεδο πλεονασμού πληροφορίας στην ροή δεδομένων φωνής. Προτείνονται διάφορες συνεισφορές στα ευρέως διαδεδομένα αρμονικά μοντέλα φωνής. Ειδικότερα, προτείνεται μια γρήγορη μέθοδος ανάλυσης/σύνθεσης η οποία χρησιμοποιείται σε έναν πρωτότυπο αλγόριθμο εκτίμησης τονικότητας. Οι αρμονικοί κωδικοποιητές φωνής συνήθως βασίζονται σε μοντέλα φάσης για την ανακατασκευή των αρμονικών αποτυγχάνοντας όμως έτσι να επιτύχουν υψηλής ποιότητας ανακατασκευή φωνής. Μια υψηλής ποιότητας κωδικοποίηση χρειάζεται τον κβαντισμό της φάσης των αρμονικών. O κβαντισμός φάσης όμως δεν είναι ένα τετριμμένο πρόβλημα γιατί η φάση είναι μια κυκλική μεταβλητή με modulo-2π συμπεριφορά. Για να αντιμετωπιστεί αυτό το πρόβλημα προτείνεται ένας ειδικά σχεδιασμένος αλγόριθμος κωδικοποίησης φάσης. Οι φάσεις των αρμονικών, μετά από κατάλληλη επεξεργασία, μοντελοποιούνται με ένα Wrapped Gaussian Mixture Model (WGMM). Η εκτίμηση του WGMM γίνεται με έναν αλγόριθμο Εκτίμησης-Μεγιστοποίησης (Expectation-Maximization). Οι φάσεις των αρμονικών κβαντίζονται με μια μέθοδο η οποία αποτελεί επέκταση των μεθόδων κβαντισμού μέσω GMM για γραμμικούς χώρους σε μεθόδους κβαντισμού μέσω WGMM για κυκλικούς χώρους. Σε συνθήκες αυξημένης απώλειας πακέτων απαιτείται η εισαγωγή περισσότερης πλεονάζουσας πληροφορίας και αυτό μπορεί να επιτευχθεί με Κωδικοποίηση Πολλαπλών Περιγραφών (ΚΠΠ). Στην ΚΠΠ, κάθε τεμάχιο φωνής κωδικοποιείται σε δυο περιγραφές. Η λήψη και των δύο επιτρέπει μια υψηλής ποιότητας ανακατασκευή των δεδομένων ενώ η λήψη μονάχα ενός εκ' των δύο παρέχει μια χαμηλότερης ποιότητας ανακατασκευή. Με τα υπάρχουσες μεθόδους ΚΠΠ μέσω GMM είναι δυνατόν να κωδικοποιηθούν τα πλάτη των αρμονικών τα οποία συνιστούν ένα μεγάλο μέρος της πληροφορίας του σήματος της φωνής. Για τις φάσεις προτείνεται μια μέθοδος ΚΠΠ μέσω WGMM. Με την χρήση της προτεινόμενης μεθόδου είναι πλέον δυνατόν να κατασκευαστούν υψηλής ποιότητας αρμονικοί κωδικοποιητές φωνής πολλαπλών περιγραφών. Ακόμη, η πλεονάζουσα πληροφορία μεταξύ των περιγραφών μπορεί να χρησιμοποιηθεί για την “διόρθωση” σφαλμάτων σε επίπεδο bit που τυχόν προέκυψαν κατά την μετάδοση μιας περιγραφής. Στο επίπεδο της κωδικοποίησης πηγής/καναλιού, προτείνεται μια μέθοδος Κωδικοποίησης Πολλαπλών Περιγραφών μέσω Μετασχηματισμού (ΚΠΠΜ) καθώς και μια τεχνική κωδικοποίησης πηγής που ονομάζεται Διανυσματικός Κβαντισμός υπό Συνθήκη (ΔΚΣ). Η μέθοδος ΚΠΠΜ βασίζεται στα λεγόμενα Parseval Frames και αρχικά προτείνεται για πολυδιάστατες Κανονικές κατανομές ενώ εν' συνέχεια επεκτείνεται σε πηγές που μπορούν να μοντελοποιηθούν με GMM. Η προτεινόμενη μέθοδος έχει την δυνατότητα να χειριστεί μεγάλο αριθμό διαστάσεων, υψηλούς ρυθμούς μετάδοσης bit σε συνδυασμό με χαμηλή πολυπλοκότητα και απαιτήσεις σε μνήμη. Έχει άριστη απόδοση σε συνθήκες χαμηλού πλεονασμού και ανταγωνιστική απόδοση σε συνθήκες υψηλού πλεονασμού. Στην μέθοδο ΔΚΣ η εστίαση γίνεται στην διόρθωση των πιο συχνών τύπων λάθους, όπως τις μονές και τις διπλές απώλειες πακέτων. Ακόμη, η ΔΚΣ βρίσκει εφαρμογή στην επέκταση του φάσματος της φωνής από τα 0-4 kHz στα 4-8 kHz με ελάχιστη μετάδοση πληροφορίας. Συνοψίζοντας, παρουσιάζονται δύο πρωτότυποι αρμονικοί κωδικοποιητές φωνής, μονής και διπλής περιγραφής. Αμφότεροι κωδικοποιούν τα πρώτα 0-4 kHz του φάσματος, λειτουργούν με μεταβαλλόμενο ρυθμό μετάδοσης και έχουν ποιότητα αντίστοιχη της ποιότητας του iLBC (internet Low Bitrate Codec) δίχως απώλεια πακέτων ενώ υπερτερούν του iLBC υπό συνθήκες απώλειας πακέτων. Ο κωδικοποιητής μονής περιγραφής χρειάζεται 13 kbps ενώ δέχεται 20% απώλειες με ελάχιστη υποβάθμιση της ποιότητας, ενώ ο κωδικοποιητής διπλής περιγραφής χρειάζεται 21 kbps ενώ μπορεί να δεχθεί απώλειες 40% δίχως σημαντική υποβάθμιση της ποιότητας.
Γλώσσα Αγγλικά
Ημερομηνία έκδοσης 2007-02-01
Ημερομηνία διάθεσης 2007-10-11
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Διδακτορικές διατριβές
  Τύπος Εργασίας--Διδακτορικές διατριβές
Εμφανίσεις 144

Ψηφιακά τεκμήρια
No preview available

Προβολή Εγγράφου
Εμφανίσεις : 16