News : Journée européenne de la protection des données. Gagnez des accompagnements et des abonnements en vous inscrivant à notre quiz du 28 Janvier !

Logo Witik
anonymisation

Comment marche l’anonymisation des données personnelles ?

Table des matières

L’anonymisation des données est une des méthodes suggérées par le RGPD pour améliorer la protection des données. Attention, l’anonymisation n’est pas une obligation en tant que telle pour la conformité RGPD des entreprises.


Néanmoins, le texte européen mentionne l’anonymisation comme une des techniques possibles pour améliorer la protection des données personnelles des utilisateurs et clients des entreprises. 


A quoi sert l’anonymisation ? 


L’objectif de la méthode est de rendre impossible la mise en relation d’un jeu de données avec la personne physique qu’il concerne. En conséquence, les données en question perdent leur caractère personnel. L’entreprise pourra donc éviter un certain nombre d’obligations imposées par le RGPD, comme le respect des limites de durée de conservation des données ou encore certaines règles liées au consentement. 


D’où l’intérêt porté à l’anonymisation des données par les entreprises. Avec toutefois un enjeu majeur, qui est de trouver le bon équilibre entre protection des données et maintien de l’utilisabilité de la donnée. 


Voyons donc plus en détail ce qu’est précisément l’anonymisation des données, comment la mettre en place et enfin les éléments à disposition des DPO en charge du RGPD pour contrôler son efficacité.


anonymisation des données personnelles

Qu’est-ce que l’anonymisation des données ? 


L’anonymisation des données, on l’a dit, est une technique ou plutôt un ensemble de techniques permettant de décorréler un jeu de données et une personne physique identifiable. 


Attention, il faut distinguer l’anonymisation et la pseudonymisation de la donnée. Les deux notions sont assez proches puisque la pseudonymisation vise le même objectif à l’origine. Cependant, non seulement les techniques utilisées vont être très différentes, mais surtout la pseudonymisation est un processus réversible. 


L’anonymisation a pour caractéristique d’être irréversible y compris pour l’entreprise ou la personne qui l’a mise en place. C’est ce caractère définitif qui fait perdre aux informations leur caractère de données personnelles et permet donc leur utilisation plus libre. 


En résumé, l’anonymisation est donc l’emploi d’un procédé qui va définitivement casser le lien entre des données et les personnes concernées. Pour cela, on va chercher à supprimer certaines données qui pourraient identifier directement ou indirectement les personnes, réduire le degré de précision des données conservées et travailler plutôt sur des ordres de grandeur et des moyennes.


Comment anonymiser les données personnelles ? 


L’anonymisation des données personnelles peut passer par plusieurs méthodes techniques. Là encore, le RGPD ne fait aucune recommandation précise sur la technologie ou les choix techniques à adopter, c’est à l’entreprise de faire les choix adaptés à sa situation. 


A noter que ce sera donc également à elle de justifier ces choix conformément au principe plus large dans le RGPD de l’accountability


Préparer un chantier d’anonymisation 


La première étape consiste à préparer les actions à mener. Cette phase est d’autant plus importante que le processus d’anonymisation est irréversible. 


L’enjeu est d’abord d’identifier qu’on va souhaiter conserver et celles dont on peut se passer. Moins l’information conservée est importante, plus l’anonymisation sera facile. Tout est une question de mesure entre performance et sécurité. 


Il faut ensuite identifier les éléments à supprimer : ce sont évidemment les données d’identification directe des personnes (leurs noms…) mais aussi celles qui pourraient permettre une identification indirecte. La CNIL donne l’exemple des données d’âge précis des individus. Les personnes centenaires étant rares, il est plus facile de les identifier… 


Pour chaque information, il convient enfin de déterminer le niveau de finesse adéquat. Si on reprend l’exemple de l’âge, quelles finesses de tranches d’âge sont-elles intéressantes pour l’entreprise ?


On peut maintenant passer à l’emploi de techniques d’anonymisation à proprement parler. 


Les techniques d’anonymisation des données


Deux méthodes sont majoritairement appliquées pour anonymiser les données. 


La randomisation consiste à modifier volontairement des données pour rendre le jeu moins précis tout en conservant la véracité globale du jeu de données. Par exemple, on peut intervertir certaines données entre des individus. La répartition générale des informations restera juste, mais la bonne information ne sera pas affectée à la bonne “personne”. 


La généralisation, ensuite, consiste à modifier l’ordre de grandeur des jeux de données. L’idée est de réduire les données exactes pour se contenter d’informations moins précises qui seront plus communément partagées dans l’échantillon. 


Si on reprend l’exemple de l’âge des individus et donc de leur date de naissance, on va se contenter de l’année et supprimer le mois et le jour de naissance. 


Attention : la généralisation est généralement considérée comme insuffisante à elle seule pour mener à bien l’anonymisation et doit souvent être couplée à des suppressions pures et simples de certaines données ou bien à d’autres méthodes comme la randomisation. 

cnil anonymisation des données

Comment la CNIL contrôle-t-elle l’anonymisation des données ?


Trois critères sont retenus par la CNIL et les autorités de contrôle pour vérifier la bonne application des techniques d’anonymisation des données. 


Peut-on isoler un individu ? 


L’individualisation d’une personne physique particulière doit être impossible, c’est même l’objectif principal de l’anonymisation. 


Par exemple, si le nom et le prénom des personnes a été remplacé par un numéro unique, alors il est toujours possible d’individualiser les données et potentiellement de retrouver la personne. On est alors plutôt dans le domaine de la pseudonymisation. 


Peut-on relier entre eux des jeux de données différents ? 


Ici, on imagine que vous aviez à l’origine une donnée A et une donnée B, toutes deux associées à un individu, Bob. 


Vous avez supprimé la mention du nom de Bob et ne restent que la donnée A et la donnée B, qui sont suffisamment peu précises pour être conservées. 


Cependant, imaginons qu’il existe une autre base de données dans laquelle la donnée A est, cette fois, reliée à Bob. Dans ce cas, en confrontant les deux jeux de données, on peut retrouver l’individu (Bob) concerné et l’anonymisation ne tient plus. 


Peut-on déduire l’identité de l’individu du jeu de données ? 


Ici, il s’agit le plus souvent d’un problème de précision trop importante des données conservées. Par exemple, imaginons que dans votre base de données, 100% des personnes d’une certaine catégorie (d’âge, de lieu d’habitation…) ont une caractéristique commune. 


Dans ce cas, si je sais que Bob (encore lui) fait partie de la base de données, et qu’il fait partie de cette catégorie (même âge ou même lieu de vie), alors je peux savoir qu’il a cette fameuse caractéristique commune. 


Ces trois critères peuvent être complexes à analyser et il est assez difficile de les atteindre parfaitement. Cependant, comme toujours, tout est une question de proportionnalité. Le niveau de protection doit être cohérent avec le degré de sensibilité de la donnée.


De plus, l’idée est de montrer qu’il est impossible de ré-identifier les personnes avec des “moyens raisonnables”. Cette notion, qui est utilisée par la CNIL, évolue très rapidement au rythme des avancées des techniques de cyberattaque et de la cybersécurité. D’où l’importance de mener une veille régulière et précise sur ces sujets !

Partager l'article