E-Locus - Ιδρυματικό Καταθετήριο Πανεπιστημίου Κρήτης

Αρχική Αναζήτηση

Αποτελέσματα - Λεπτομέρειες

Εντολή Αναζήτησης : Συγγραφέας="Τσακαλίδης" Και Συγγραφέας="Παναγιώτης"

Τρέχουσα Εγγραφή: 20 από 66

[Προσθήκη στο καλάθι]

Κωδικός Πόρου

000425807

Τίτλος

Assessing the quality of audio in musical concert recordings using deep neural networks

Άλλος τίτλος

Εκτίμηση ποιότητας ηχογραφήσεων από μουσικές συναυλίες με χρήση τεχνικών βαθιάς μάθησης

Συγγραφέας

Σίμου, Νίκων Χ.

Σύμβουλος διατριβής

Τσακαλίδης, Παναγιώτης

Μέλος κριτικής επιτροπής

Στεφανάκης, Νίκος
Δημητρόπουλος, Ξενοφώντας
Πανταζής, Γιάννης

Περίληψη

Η εποχή στην οποία ζούμε χαρακτηρίζεται αδιαμφισβήτητα από ένα μεγάλο όγκο πολυμεσικής πληροφορίας. Χρησιμοποιώντας συσκευές όπως τα smartphones και τα drones μπορούμε να απαθανατίσουμε κάθε στιγμή της ζωής μας και των εκδηλώσεων στις οποίες παρευρισκόμαστε. Το υλικό που καταγράφεται από δημόσιες εκδηλώσεις συχνά γίνεται διαθέσιμο στο ευρύ κοινό μέσα από μέσα κοινωνικής δικτύωσης καθώς και από ιστοσελίδες που παρέχουν οπτικοακουστικό περιεχόμενο. Η διαθεσιμότητα του υλικού αυτού, έχει δημιουργήσει νέες ερευνητικές τάσεις σχετικά με την αναζήτηση, την οργάνωση και την επεξεργασία του. Στην παρούσα εργασία χρησιμοποιούμε τεχνικές Βαθιάς Μάθησης με σκοπό την δημιουργία ενός εργαλείου το οποίο θα μπορεί να εκτιμά αυτόματα την ποιότητα ηχογραφήσεων που παράγονται από χρήστες που παρακολουθούν και καταγράφουν μουσικές συναυλίες. Όπως είναι ευρέως γνωστό οι τεχνικές Βαθιάς Μάθησης απαιτούν έναν πολύ μεγάλο αριθμό δεδομένων εκπαίδευσης, γεγονός που θα απαιτούσε τη συλλογή υποκειμενικών εκτιμήσεων από ένα μεγάλο όγκο ηχητικών δεδομένων. Προκειμένου να ξεπεράσουμε τη δυσκολία αυτή, αντιμετωπίζουμε την εκτίμηση ποιότητας ως ένα πρόβλημα δυαδικής ταξινόμησης όπου η κλάση 0 αντιπροσωπεύεται από ηχογραφήσεις που παράγονται από χρήστες, ενώ η κλάση 1 αντιπροσωπεύεται από το επαγγελματικό ηχητικό υλικό της μουσικής συναυλίας. Επιπλέον, χρησιμοποιούμε μια αυτόματη διαδικασία συγχρονισμού με σκοπό κάθε ηχογράφηση προερχόμενη από χρήστη να εισέρχεται ως δεδομένο εκπαίδευσης μαζί με το αντίστοιχο απόσπασμα από το επαγγελματικό υλικό. Η διαδικασία αυτή συνεισφέρει έτσι ώστε η εκμάθηση του συστήματος να βασιστεί όσο το δυνατόν περισσότερο σε ποιοτικά χαρακτηριστικά και να μην εξαρτάται από το μουσικό περιεχόμενο. Παρουσιάζουμε πειραματικά αποτελέσματα με διαφορετικές αρχιτεκτονικές Τεχνιτών Νευρωνικών Δικτύων και διαφορετικά ακουστικά χαρακτηριστικά τα οποία δείχνουν πως ο διαχωρισμός των δύο κλάσεων μπορεί να γίνει με υψηλή ακρίβεια.

Φυσική περιγραφή

vi, 46 σ. : σχεδ., πιν., εικ. ; 30 εκ.

Γλώσσα

Αγγλικά

Θέμα

Audio processing

Deep learning

Βαθειά μάθηση

Επεξεργασία ήχου

Ημερομηνία έκδοσης

2019-11-22

Συλλογή