Περίληψη |
Οι συστοιχίες μικροφώνων έχουν προσελκύσει το ενδιαφέρον της ερευνητικής κοινότητας τα τελευταία χρόνια. Αιτία είναι η ικανότητα τους να καταστήσουν εφικτή την ανάπτυξη ενδιαφερουσών και χρήσιμων εφαρμογών στα σύγχρονα συστήματα ανθρώπινης επικοινωνίας, όπως η αυτοματοποιημένη κίνηση περιστροφής βιντεοκάμερας σε τηλεδιασκέψεις, τα συστήματα ενίσχυσης της ανθρώπινης ακοής επόμενης γενιάς και οι υψηλής ποιότητας ηχογραφήσεις. Σε όλες αυτές τις εφαρμογές κρίνεται απαραίτητη η βελτίωση της σηματοθορυβικής σχέσης, η αποτελεσματική αντιμετώπιση των ανακλάσεων, ο διαχωρισμός καθώς και ο εντοπισμός της θέσης των ηχητικών πηγών.
Στην παρούσα διπλωματική εργασία επικεντρωνόμαστε στον εντοπισμό θέσης πολλαπλών πηγών ήχου και προτείνουμε μία νέα μέθοδο, η οποία ανταποκρίνεται με ακρίβεια και ευρωστία σε πραγματικά περιβάλλοντα. Χρησιμοποιούμε μία κυκλική συστοιχία μικροφώνων η οποία έχει το πλεονέκτημα να αντιμετωπίζει τις αμφισημίες εντοπισμού θέσης που παρουσιάζονται στις γραμμικές συστοιχίες. Η μέθοδός μας στηρίζεται στην Ανάλυση Αραιών Συνιστωσών. Χρησιμοποιούμε μία ελαστική υπόθεση όσον αφορά στην αραιότητα των σημάτων μας και εντοπίζουμε περιοχές στο από κοινού πεδίο του χρόνου και της συχνότητας όπου μόνο μία πηγή είναι ενεργή. Σε αυτές τις περιοχές εφαρμόζουμε έναν αλγόριθμο κατάλληλο για εντοπισμό θέσης μίας πηγής και έτσι καταφέρνουμε να εκτιμήσουμε τη θέση όλων των ενεργών πηγών. Για να εκτιμήσουμε το πλήθος των ενεργών πηγών, αναπτύσσουμε και μελετάμε την επίδοση τριών διαφορετικών μεθόδων. Η πρώτη μέθοδος εντοπίζει στο ιστόγραμμα των εκτιμήσεων κορυφές που πληρούν συγκεκριμένες προϋποθέσεις. Η δεύτερη μέθοδος βασίζεται στην κωδικοποίηση γραμμικής πρόβλεψης και μετράει τα τοπικά μέγιστα στην περιβάλλουσα του ιστογράμματος. Τέλος, η τρίτη προτεινόμενη μέθοδος εντοπίζει επαναληπτικά την ύπαρξη των πηγών χρησιμοποιώντας συσχέτιση και αφαιρεί τη συνεισφορά τους από το ιστόγραμμα με σκοπό να αυξήσει την ευρωστία της.
Για να αξιολογήσουμε την απόδοση της μεθόδου μας όσον αφορά στον εντοπισμό της θέσης πολλαπλών πηγών, αρχικά διενεργήσαμε προσομοιώσεις σε μεγάλο εύρος πλήθους ομιλητών, για διάφορες γωνιακές αποστάσεις μεταξύ αυτών και τοποθετήσεις γύρω από την κυκλική συστοιχία μικροφώνων. Ελέγξαμε τον αλγόριθμό μας για διάφορες σηματοθορυβικές σχέσεις (SNR), σε προσομοιωμένο περιβάλλον ελεύθερο από ανακλάσεις και σε περιβάλλον ελαφρών ανακλάσεων. Σε όλες τις προαναφερθείσες περιπτώσεις το μέσο απόλυτο σφάλμα εκτίμησης είναι, σχεδόν πάντα, περίπου ίσο ή χαμηλότερο από 5° για SNR μεγαλύτερο ή ίσο με 5 dB. Επιπροσθέτως η μέθοδός μας είναι πολύ ταχύτερη και έχει καλύτερη απόδοση από τον πολύ γνωστό αλγόριθμο MUSIC, όπως αυτός έχει επεκταθεί για σήματα ευρέου φάσματος, για SNR μεγαλύτερο ή ίσο με 5 dB. Επίσης πραγματοποιήσαμε πειράματα σε πραγματικό περιβάλλον που επιβεβαιώνουν την απόδοση των προσομοιώσεων. Για την αξιολόγηση των τριών προτεινόμενων μεθόδων που εκτιμούν το πλήθος των πηγών διενεργήσαμε προσομοίωση σε περιβάλλον ελαφρών ανακλάσεων, όπου τέσσερις πηγές ήταν, είτε όλες ταυτόχρονα, είτε σε διάφορους συνδυασμούς, ενεργές. Και οι τρεις μέθοδοι παρουσιάζουν πολύ καλή επίδοση με ποσοστά επιτυχίας άνω του 80% για SNR μεγαλύτερο ή ίσο με 10 dB.
Ειδικότερα η τρίτη μέθοδος επιτυγχάνει σχεδόν 100% ακρίβεια στις ανωτέρω περιπτώσεις. Το τελικό σύστημα που προτείνουμε για εντοπισμό θέσης και εκτίμηση πλήθους πολλαπλών πηγών είναι αποδοτικό όσον αφορά στο υπολογιστικό κόστος—αποκρίνεται σε λιγότερο από το 50% του διαθέσιμου χρόνου και επομένως είναι κατάλληλο για υλοποίηση σε πραγματικό χρόνο.
|