Περίληψη |
Στη σημερινή εποχή που βασίζεται στα δεδομένα, η ανταλλαγή αυτών παίζει καθοριστικό ρόλο
στην καθημερινότητα μας. Κάθε ψηφιακή συναλλαγή, από την πιο απλή έως την πιο περίπλοκη,
απαιτεί ανταλλαγή δεδομένων μεταξύ των εμπλεκομένων μερών. Από ιδιώτες και μικρές
επιχειρήσεις έως μεγάλες εταιρείες, οργανισμούς και κυβερνήσεις όλοι αποθηκεύουν,
επεξεργάζονται και ανταλλάσσουν δεδομένα. Αυτή η πραγματικότητα, με την πάροδο του
χρόνου, οδήγησε στη συσσώρευση τεράστιων όγκων δεδομένων, γνωστά και ως Μεγάλα
Δεδομένα. Με την έλευση των Μεγάλων Δεδομένων, έγινε φανερό ότι υπήρχαν πολλές
ευκαιρίες αναφορικά με την ανάλυσή τους και ότι τα αποτελέσματα τέτοιων αναλύσεων θα
μπορούσαν να παρέχουν στους επεξεργαστές των δεδομένων αυτών εξαιρετικά ωφέλιμες
πληροφορίες (insights). Επίσης, μεγάλη βοήθεια στη βελτίωση των αποτελεσμάτων τέτοιων
αναλύσεων μπορεί να προσφέρει ο εμπλουτισμός και η συσχέτιση των υπαρχόντων, ιδιόκτητων,
συνόλων δεδομένων με σύνολα που προήλθαν από εξωτερικές πηγές. Η απόκτηση συνόλων
δεδομένων μέσω τρίτων, ήταν κατά κανόνα μια διαδικασία που απαιτούσε την άμεση
προσέγγιση συγκεκριμένων κατόχων δεδομένων. Ωστόσο, τα τελευταία χρόνια, με την
εμφάνιση των ψηφιακών αγορών δεδομένων, αυτή η κατάσταση έχει αρχίσει να αλλάζει.
Στο πρόσφατο παρελθόν, οι ανταλλαγές δεδομένων πραγματοποιούνταν με ελάχιστη έως
καθόλου μέριμνα για το απόρρητο ή την προστασία των προσωπικών δεδομένων. Πρόσφατες
νομοθετικές εξελίξεις, όπως η νομοθεσία της Ευρωπαϊκής Ένωσης για την προστασία των
προσωπικών δεδομένων ΓΚΠΔ, ώθησαν πολλούς παρόχους και καταναλωτές Μεγάλων
Δεδομένων να αναζητήσουν λύσεις τόσο για την προστασία του απορρήτου όσο και για την
αξιολόγηση των κινδύνων απορρήτου των συνόλων δεδομένων που αυτοί διαχειρίζονται. Μετά
από αυτές τις εξελίξεις, οποιαδήποτε δημοσιοποίηση δεδομένων πρέπει να εφαρμόζει κάποια
μορφή προσαρμογής των δεδομένων αυτών πριν από τη δημοσιοποίηση, ώστε να προστατεύει
το απόρρητο των ευαίσθητων πληροφοριών των ατόμων. Η ανωνυμοποίηση δεδομένων είναι
ένα παράδειγμα μιας τέτοιας διαδικασίας προσαρμογής και περιλαμβάνει την αφαίρεση ή τη
μετατροπή δεδομένων, με τρόπο που διατηρεί το απόρρητο, εξασφαλίζοντας έτσι ένα ορισμένο
επίπεδο ανωνυμίας αυτών. Μία από τις πιο δύσκολες πτυχές οποιασδήποτε διαδικασίας
ανωνυμοποίησης δεδομένων είναι η επίτευξη ισορροπίας μεταξύ της χρησιμότητας των
δεδομένων και του απορρήτου. Υπο το πρίσμα αυτό, εργαλεία ανάλυσης κινδύνου και
ανωνυμοποίησης είναι απαραίτητα προκειμένου να αυξηθεί η ευαισθητοποίηση σχετικά με
τους κινδύνους απορρήτου καθώς και να βοηθηθούν οι επεξεργαστές των δεδομένων αυτών
τόσο στη συμμόρφωσή τους με τους κανονισμούς όσο και στην ίδια την διαδικασία της
ανωνυμοποίησης των δεδομένων αυτών. Αν και υπάρχουν κάποια εργαλεία στη βιβλιογραφία,
αυτά δεν προσφέρουν ένα αρκετά ευρύ φάσμα επιλογών όσον αφορά τους τύπους δεδομένων
που μπορούν να αναλύσουν, την υποστήριξη πολλαπλών διαστάσεων δεδομένων καθώς και την
οπτική εξερεύνηση των αποτελεσμάτων των αναλύσεων που διενεργούνται.
Εκτός από τα ζητήματα απορρήτου των δεδομένων που υπάρχουν σχετικά με τις
δημοσιοποιήσεις και συναλλαγές Μεγάλων Δεδομένων, υπάρχουν επίσης προκλήσεις σχετικά
με την ουσιαστική ανάλυσή τους. Η Οπτική Ανάλυση (Visual Analytics) είναι ένας τομέας
έρευνας που εστιάζει στην παροχή αποτελεσματικών και διαφανών μεθόδων επεξεργασίας,
οπτικοποίησης και ανάλυσης μεγάλου όγκου δεδομένων, έτσι ώστε οι αναλυτές να μπορούν να
τους κατανοήσουν καλύτερα και να εξάγουν πληροφορίες που θα μπορούσαν να υποστηρίξουν
τη λήψη αποφάσεων. Στη βιβλιογραφία, υπάρχει αρκετή ποικιλία εφαρμογών Οπτικής
Ανάλυσης. Ανάμεσα στα κοινά χαρακτηριστικά των εφαρμογών αυτών υπάρχει η δυνατότητα
δημιουργίας ταμπλό (dashboards) για την υποστήριξη της εξερεύνησης Μεγάλων Δεδομένων.
Τα ταμπλό (dashboards) είναι μια συλλογή οπτικοποιήσεων δεδομένων και επιλογών
φιλτραρίσματος, σχεδιασμένα για να βοηθούν τους αναλυτές με την ανάλυση των δεδομένων
παρέχοντας τους έναν διαδραστικό τρόπο για τη διεξαγωγή αυτής. Ωστόσο, οι περισσότερες
από τις διαθέσιμες λύσεις, επί του παρόντος, υπολείπονται όσον αφορά τη εμβάθυνση (drilldown) και γενίκευση (roll-up) των δεδομένων που οπτικοποιούνται στο ταμπλό. Η εμβάθυνση
στα δεδομένα αναφέρεται στη διαδικασία κατά την οποία ένας αναλυτής μπορεί να μεταβεί
από μια ομαδοποίηση δεδομένων σε μια πιο λεπτομερή ομαδοποίηση, ενώ η γενίκευση αφορά
στη διερεύνηση των δεδομένων σε σταδιακά λιγότερο λεπτομερές επίπεδο. Οι εφαρμογές που
παρέχουν αυτήν τη λειτουργικότητα την παρέχουν με περιορισμένο τρόπο και μόνο σε
συγκεκριμένα γραφήματα ή γράφους, χωρίς να μπορούν να υποστηρίξουν τη διάδοση των
ενεργειών της εμβάθυνσης ή γενίκευσης στις υπόλοιπες οπτικοποιήσεις του ταμπλό.
Η προτεινόμενη μεθοδολογία μας για την αντιμετώπιση των προαναφερθέντων ζητημάτων
περιλαμβάνει τον σχεδιασμό και την ανάπτυξη ενός ενιαίου πλαισίου εφαρμογών που
στοχεύουν στην ανάλυση, οπτικοποίηση και εξερεύνηση μεγάλων δεδομένων, διασφαλίζοντας
παράλληλα την ασφάλεια και την ιδιωτικότητα. Αυτές οι εφαρμογές παρέχουν τη δυνατότητα
ανάλυσης του κινδύνου διαρροής προσωπικών δεδομένων που μπορεί να διαρρεύσουν μέσα
από ένα σύνολο δεδομένων, καθώς και τη δυνατότητα ανωνυμοποίησής τους. Επιπλέον,
διευκολύνουν την απεικόνιση και την εξερεύνηση μεγάλων συνόλων δεδομένων συνδυάζοντας
ιδιόκτητα σύνολα δεδομένων με σύνολα που αποκτήθηκαν από αγορές ψηφιακών δεδομένων
και οπτικοποιώντας τα μέσω διαδραστικών ταμπλό. Τα ταμπλό αυτά μπορούν να
προσαρμόζονται στις απαιτήσεις του πλαισίου ανάλυσης του χρήστη και να παρέχουν
λειτουργίες εμβάθυνσης ή γενίκευσης των δεδομένων με βάση τον τύπο των δεδομένων υπό
ανάλυση, επιτρέποντας έτσι στους χρήστες να εντοπίσουν νέα γνώση την οποία δεν κατείχαν
πριν αναλύσουν τα συγκεκριμένα σύνολα δεδομένων.
|