Anonymisation Versus Pseudonymisation

Au delà de l’aspect imprononçable de ces deux mots, au vu de certaines actualités il parait important de faire le distingo entre ces deux concepts.

Nous allons voir qu’autant la théorie est simple, autant la mise en pratique est subordonnées à des questions qui peuvent vite devenir épineuses …

Donnée identifiante

Avant d’aborder ces deux concepts il apparait indispensable d’introduire la notion de donnée identifiante. La caractère identifiant d’une donné est sa capacité  à isoler un individu parmi d’autres de façon suffisamment précise pour que, directement ou par recoupement, on puisse remonter jusqu’à l’individu personne physique.

il est tout à fait possible qu’une donnée, qui originairement caractérisait un individu, perde son pouvoir identifiant, ou du moins que ce dernier devienne moins fort et donc moins sujet à des recoupements.

Plusieurs mécanismes permettent cette dégradation d’identification et notamment l’anonymisation et la pseudonimisation

Pseudonymisation

La pseudonymisation est le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable

L’exemple typique est la liste de patient et de leur pathologie.En créant une table de correspondance avec le nom du patient et un code, si je remplace la liste des nom des patients par les codes, la liste devient en théorie anonyme si je ne dispose pas de cette fameuse table de correspondance.

En langage protection des données personnelles, on remplace les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel, etc.). La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci de façon directe.

Anonymisation

L’anonymisation est un « traitement » de données à caractère personnel dont le but consiste à empêcher irréversiblement l’identification de la personne concernée. Il n’existe dès lors plus aucune table de correspondance permettant de remonter jusqu’à la personne concernée.

Lorsqu’une donnée est anonymisée, elle perd (en théorie) complétement son caractère identifiant, ce qui signifie qu’elle n’est plus soumise aux règles protectrices du RGPD. Aucune réversibilité n’est possible.

Cette donnée, devenue une information « neutre », pourra alors être traitée comme n’importe donnée non personnelle.

Que choisir ?

Au delà des aspects techniques, la question principale qui va se poser est relative à la nécessité de pouvoir re-identifier la personne.
Dans l’exemple médical, il faudra probablement pouvoir, à terme, identifier le patient pour pouvoir lui administrer son traitement ou lui donner ses résultats cliniques, et donc la table de correspondance va être conservée.
A l’inverse pour des traitement purement statistiques, toutes les données directement identifiantes peuvent être supprimées.

Les limites de l’anonymisation en pratique

Pour prendre un exemple concret et d’actualité, nous allons parler des données transmises par les opérateurs aux services de l’état (pour être exact à l’INSERM).

Ces données sont déclarées anonymisées (je vous conseille la lecture de l’analyse “Traçage des données mobiles dans la lutte contre le Covid-19” publiée par le député Mounir MAHJOUBI), nous resteront prudents sur cette déclaration puisque le mécanisme d’anonymisation n’est pas décris précisément.

Nous pouvons supposer que le fichier de bornage contient pour chaque téléphone, les positions “triangulées” et le téléphone associé. Nous supposerons également que pour l’anonymiser l’opérateur se contente de supprimer l’identifiant ou le numéro de téléphone du fichier. On obtient donc un listing de position associé à un ID aléatoirement attribué.

Si nous nous arrêtons là tout va bien. En prenant une donnée de bornage je suis incapable de dire à qui appartient ce téléphone. Oui mais puisque nous disposons de l’ensemble des données de bornage de tous les téléphones et cela sur des durées longues nous allons pouvoir faire ressortir des modèles :

  • Le terminal AB666 part tous les matins entre 9h30 et 10h du point A pour aller au point B
  • Ce même terminal revient du point B au point A tous les soirs entre 18h et 19h
  • Et enfin, le samedi et le dimanche il se rend dans d’autres lieux en partant du point A

Hypothèse plausible :

  • Le point A est le domicile d’AB666
  • Le point B sont lieu de travail

Et immédiatement toute la théorie de l’anonymisation s’effondre. En fonction du degré de précision du bornage, du type d’habitation (maison ou appartement), de la densité d’habitant de la zone, j’ai soit directement l’adresse de la personne dans une habitation individuelle (et donc l’identité de la personne), soit il me faudra quelques recoupements pour l’obtenir.

Clairement la donnée n’est pas anonyme …

Et cette problématique est en fait très complexe car les variables sont nombreuses, si je parle d’un homme en région parisienne qui a une Ferrari, la donnée n’est pas identifiante. Par contre si je parle d’un homme qui a une Ferrari sur un département faiblement peuplé, il y a de fortes chances que le nombre de propriétaires masculin de Ferrari se compte sur les doigts d’une main et que donc cette données soit potentiellement identifiante.

Les bonnes pratiques théoriques de la CNIL

Puisque le processus d’anonymisation vise à éliminer toute possibilité de ré-identification, l’exploitation future des données est ainsi limitée à certains types d’utilisation. Ces contraintes sont à prendre en compte dès le début du projet.

Pour construire un processus d’anonymisation pertinent, il est ainsi conseillé :

  • d’identifier les informations à conserver selon leur pertinence.
  • de supprimer les éléments d’identification directe ainsi que les valeurs rares qui pourraient permettre un ré-identification aisée des personnes (par exemple, la présence de l’âge des individus peut permettre de ré-identifier très facilement les personnes centenaires) ;
  • de distinguer les informations importantes des informations secondaires ou inutiles (c’est-à-dire supprimables) ;
  • de définir la finesse idéale et acceptable pour chaque information conservée.

Ce pré-requis permet de déterminer le procédé d’anonymisation à appliquer, c’est-à-dire l’enchaînement des techniques d’anonymisation à mettre en place. Celles-ci peuvent être regroupées en deux familles : la randomisation et la généralisation.

  • La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu’elles soient moins précises, tout en conservant la répartition globale. Cette technique permet de protéger le jeu de données du risque d’inférence (cf. ci-dessous).

Exemple : il est possible de permuter les données relatives à la date de naissance des individus de manière à altérer la véracité des informations contenues dans une base de données.

  • La généralisation consiste à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes. Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres (cf. ci-dessous).

Exemple : dans un fichier contenant la date de naissance des personnes, il est possible de remplacer cette information par la seule année de naissance.

Comment vérifier l’efficacité de l’anonymisation

Comment vérifier l’efficacité de l’anonymisation ?

Les autorités de protection des données européennes définissent trois critères qui permettent de s’assurer qu’un jeu de données est véritablement anonyme :

  1. l’individualisation : il ne doit pas être possible d’isoler un individu dans le jeu de données ;

Exemple : une base de données de CV où seuls les nom et prénoms d’une personne auront été remplacés par un numéro (qui ne correspond qu’à elle) permet d’individualiser cette personne. Dans ce cas, cette base de données est considérée comme pseudonymisée et non comme anonymisée.

  1. la corrélation : il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu ;

Exemple : une base de données cartographique renseignant les adresses de domiciles de particuliers ne peut être considérée comme anonyme si d’autres bases de données, existantes par ailleurs, contiennent ces mêmes adresses avec d’autres données permettant d’identifier les individus.

  1. l’inférence : il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu.

Exemple : si un jeu de données supposément anonyme contient des informations sur le montant des impôts de personnes ayant répondu à un questionnaire, que tous les hommes ayant entre 20 et 25 ans qui ont répondu sont non imposables, il sera possible de déduire, si on sait que M. X, homme âgé de 24 ans, a répondu au questionnaire, que ce dernier est non imposable.

Comment se prémunir des risques liés à l’anonymisation ?

À défaut de remplir parfaitement ces trois critères, le responsable de traitement qui souhaite anonymiser un jeu de données doit démontrer, via une évaluation approfondie des risques d’identification, que le risque de ré-identification avec des moyens raisonnables est nul.

Les techniques d’anonymisation et de ré-identification étant amenées à évoluer régulièrement, il est indispensable pour tout responsable de traitement concerné, d’effectuer une veille régulière pour préserver, dans le temps, le caractère anonyme des données produites. Cette veille doit prendre en compte les moyens techniques disponibles ainsi que les autres sources de données qui peuvent permettre de lever l’anonymat des informations.

Si un jeu de données publié en ligne comme « anonyme » contient en réalité des données personnelles et qu’aucune des exceptions mentionnées à l’article L.312-1-2 du Code des relations entre le public et l’administration (CRPA) n’est applicable, cela peut être considéré comme une violation de données. Il est alors nécessaire de :

  • procéder au retrait du jeu de données en question dans les plus brefs délais ;
  • en informer la CNIL si cette violation est susceptible d’engendrer un risque pour les droits et libertés des personnes ;
  • d’en informer les personnes concernées si ce risque est élevé.

Abonnez-vous à ce blog

Saisissez votre adresse e-mail pour vous abonner à ce blog et recevoir une notification de chaque nouvel article par e-mail.

Rejoignez les 4 autres abonnés

Catégories