Είναι τα ανωνυμοποιημένα δεδομένα πραγματικά ανώνυμα;

Σύμφωνα με τον Γενικό Κανονισμό Προσωπικών Δεδομένων (GDPR), ως ανωνυμοποίηση ορίζεται η διαδικασία διαγραφής των αναγνωριστικών προσωπικού χαρακτήρα σε εγγραφές αποθηκευμένων δεδομένων, έτσι ώστε να μην είναι πλέον δυνατόν τα δεδομένα αυτά να συσχετιστούν με το υποκείμενο των δεδομένων το οποίο αφορούν.

Η χρήση της ανωνυμοποίησης διαφέρει από αυτή της ψευδωνυμοποίησης, διότι καθιστά θεωρητικά αδύνατο να προσδιοριστεί το υποκείμενο των δεδομένων, σε αντίθεση με την τεχνική της ψευδωνυμοποίησης με την οποία δεν διαγράφεται η ταυτότητα, αλλά αντικαθίσταται με τέτοιο τρόπο ώστε να απαιτούνται επιπλέον πληροφορίες για να είναι δυνατή η αναγνώριση των αρχικών υποκειμένων. Συνεπώς βάσει και της αιτ. σκέψης (26), ο GDPR δεν εφαρμόζεται σε τέτοιου είδους πληροφορίες (ανωνυμοποιημένες) αφού δεν μπορούν να συσχετιστούν με ταυτοποιημένο ή ταυτοποιήσιμο φυσικό πρόσωπο, ή σε δεδομένα προσωπικού χαρακτήρα.

Η χρήση των ανωνυμοποιημένων δεδομένων βρίσκεται στο επίκεντρο πολλών νέων εφαρμογών στην ιατρική (πχ. Έρευνα πάνω σε επιδημίες) ή και σε τεχνολογίες αιχμής όπως η τεχνητή νοημοσύνη (ΑΙ). Σύμφωνα όμως με νέα έρευνα (βλ. Nature Communications), που δημοσιεύθηκε πρόσφατα, είναι σχεδόν αδύνατο να υπάρχει πραγματική ανωνυμοποίηση ιδίως σε μεγάλες βάσεις δεδομένων, μόνο με την διαγραφή προσωπικών στοιχείων.

Κατά την διαδικασία της ανωνυμοποίησης αφαιρούνται από τα δεδομένα όλες οι πληροφορίες που μπορούν να ταυτοποιήσουν το υποκείμενο των δεδομένων (όπως ονοματεπώνυμο, ημερομηνίες γέννησης κα.), διατηρώντας όμως όλα τα υπόλοιπα στοιχεία ώστε τα δεδομένα αυτά να είναι χρήσιμα για έρευνα, όπως λχ. να μπορεί να γίνει εντοπισμός επαναλαμβανόμενων μοτίβων για εξαγωγή χρήσιμων συμπερασμάτων.

Στο παρελθόν έχουν υπάρξει αρκετές περιπτώσεις κατά τις οποίες ανώνυμα δεδομένα μπόρεσαν τα ταυτοποιηθούν (βλ. Netflix 2008, IMDB 2014 κα.), αλλά ποτέ μέχρι τώρα καμία πρακτική δεν απέδιδε σίγουρα αποτελέσματα, μέχρι την προηγούμενη εβδομάδα. Ερευνητές του Πανεπιστημίου «Université catholique de Louvain» του Βελγίου και του «Imperial College» του Λονδίνου, κατάφεραν να φτιάξουν ένα μοντέλο που να υπολογίζει πόσο εύκολα μπορούν να ταυτοποιηθούν τυχαία δεδομένα. Χρησιμοποιώντας 15 σύνολα δεδομένων (dataset) κατοίκων ενός δήμου κατάφεραν να έχουν αποτελέσματα ταυτοποίησης σε ποσοστό 99,98%.

Η έρευνα αλλά και ο αυξανόμενος ρυθμός περιστατικών πώλησης προσωπικών δεδομένων στο ίντερνετ αποδεικνύουν ότι στην πράξη ότι η ανωνυμοποίηση σαν έννοια όπως νοείται στον GDPR αλλά και σε νομοθετικά κείμενα άλλων Κρατών (λχ. CCPA), πρέπει να εξελιχθεί και να προσαρμοστεί στις νέες τεχνολογικές εξελίξεις.

Πιο μοντέρνες προσεγγίσεις της ανωνυμοποίησης χρησιμοποιούνται ήδη σήμερα. Η πιο διαδεδομένη τεχνική μέχρι σήμερα είναι της ασφάλειας με “διαφοροποίηση” (differential privacy), η οποία διαφοροποιεί τυχαία κάποια από τα δεδομένα των υποκειμένων που περιέχονται στο dataset, έτσι ενώ προκύπτουν λάθος πληροφορίες για κάθε μεμονωμένο υποκείμενο, το αποτέλεσμα του συνόλου βγαίνει σωστό. Την τεχνική αυτή χρησιμοποιούν πολλές μεγάλες εταιρίες όπως η Google, η Apple και η Uber.

Στον χώρο της τεχνητής νοημοσύνης και συγκεκριμένα στο Machine Learning η πιο σύγχρονη λύση για ανωνυμοποίηση είναι της ομομορφικής κρυπτογράφησης (Homomorphic encryption), η οποία επιτρέπει σε αλγόριθμους μηχανικής μάθησης να εκπαιδεύονται από δεδομένα ενώ είναι ακόμα κρυπτογραφημένα και να παράγουν κρυπτογραφημένα αποτελέσματα τα οποία μπορεί να αποκρυπτογραφήσει μόνο ο αρχικός ιδιοκτήτης τους ή να εξάγουν αποτελέσματα που ανταποκρίνονται μεν στατιστικά στο σωστό αποτέλεσμα, εμφανίζουν όμως τυχαία ατομικά στοιχεία μη ανταποκρινόμενα στα αρχικά υποκείμενα.

Συνεπώς, παρότι υπάρχουν τεχνολογικές λύσεις, για να υπάρχει πραγματική ανωνυμοποίηση, αυτές δεν λαμβάνονται υπόψη σε σύγχρονα νομοθετικά κείμενα, στα οποία δεν γίνεται καμία διάκριση του τρόπου που γίνεται αυτή. Θεωρείται ότι οποιαδήποτε διαγραφή προσωπικών στοιχείων από βάσεις δεδομένων είναι ασφαλής ανωνυμοποίηση και δεν εφαρμόζεται επί αυτών ο GDPR ενώ θα έπρεπε στην πλειοψηφία των περιπτώσεων. Με τον ρυθμό που δημιουργούνται προβλήματα λόγω των τεχνολογικών εξελίξεων, με τον ίδιο ρυθμό μπορούν και να λύνονται αυτά, αρκεί η νομοθεσία να αποδέχεται και να ενστερνίζεται γρηγορότερα τις νέες τεχνολογίες.