Anonymisation des données à caractère personnel

Par Bruno RASLE • Novembre 2009 •

Anonymisation des CV, des jurisprudences, des données de connexions, des données de santé, des signatures de soutien à la candidature à la Présidence… la notion d’anonymisation s’est imposée récemment à nous à plusieurs occasions. De quoi s’agit-il ? Quels sont les objectifs poursuivis ? Quels sont les méthodes, processus, techniques et outils mis en œuvre ? Où sont les difficultés ? L’anonymisation peut-elle être utilisée dans le cadre de la sécurisation de données confidentielles ? Autant de points abordés dans ce document, qui se focalise sur l’anonymisation des jeux de test.

Pourquoi anonymiser des données ?

Deux motivations peuvent inciter les entreprises, administrations et collectivités à anonymiser certaines de leurs données ; le besoin de respecter les lois (mise en conformité) et celui de protéger leur patrimoine informationnel (sécurité – confidentialité). Dans certains domaines, la pénurie de développeurs oblige les entreprises à faire appel à des prestataires qui ont travaillé – ou travaillent encore – pour leurs concurrents directs. Les laisser accéder aux données réelles constitue donc un risque au titre de l’intelligence économique.

Concernant la mise en conformité, le cadre de référence est la loi Informatique & Libertés. À son titre, dès qu’une entité détient ou traite des données à caractère personnel⁽¹⁾, des contraintes s’imposent à elle. Chaque traitement qui porte sur de telles données doit faire l’objet d’une déclaration auprès de la CNIL. Cette déclaration comporte un chapitre dans lequel doivent être indiquées les personnes habilitées à avoir accès aux informations. Permettre l’accès aux données à des tiers constitue une faute.

Parmi les règles à respecter, figure également la sécurisation des données : « Le responsable du traitement est tenu de prendre toutes précautions utiles, au regard de la nature des données et des risques présentés par le traitement, pour préserver la sécurité des données et, notamment, empêcher qu’elles soient déformées, endommagées, ou que des tiers non autorisés y aient accès⁽²⁾ ».

Ainsi, un fichier cadastral ne peut être utilisé à priori que par les services de l’urbanisme, du cadastre et de la voirie et ne peut être communiqué qu’à des destinataires et des personnes autorisées à en connaître, en application de dispositions législatives particulières.

Il appartient au responsable du traitement⁽³⁾ d’adapter les mesures de sécurité au degré de sensibilité des données personnelles hébergées. Nombreuses sont les collectivités locales qui manipulent des données de santé, des données relatives aux opinions religieuses (exemple : liste des élèves mangeant kasher à la cantine scolaire) ou des données relatives aux ressources des personnes (données sociales, aides aux RMIstes). Les premières expériences de vote électronique (par exemple pour les élections aux conseils de quartier) peuvent également entrer dans cette catégorie de traitements qui nécessite de redoubler de vigilance.

Ainsi, dans son rapport annuel de 2005, la CNIL liste les points sur lesquels elle s’est penchée lors de son étude du projet de « carte de vie quotidienne » présenté par le Conseil Général du Val d’Oise : Par exemple, là où le conseil général avait créé une rubrique « carnet de santé », la CNIL a demandé qu’elle soit remplacée par les seules informations effectivement recueillies, à savoir les vaccinations et les allergies.

L’appel à des sous-traitants n’exonère en rien le responsable du traitement de ses obligations : « Le sous-traitant doit présenter des garanties suffisantes pour assurer la mise en œuvre des mesures de sécurité et de confidentialité. Cette exigence ne décharge pas le responsable du traitement de son obligation de veiller au respect de ces mesures. »

Quels sont les risques et sur qui pèsent-ils ?

Plusieurs articles du Code pénal (226-16 à 226-24) précisent les peines. Ainsi, le fait de procéder à un traitement de données à caractère personnel sans mettre en œuvre les mesures de sécurisation prescrites à l'article 34 de la loi nº 78-17 du 6 janvier 1978, est passible de cinq ans d'emprisonnement et de 300 000 € d'amende. De même, toute personne qui a recueilli des données à caractère personnel dont la divulgation aurait pour effet de porter atteinte à la considération de l'intéressé ou à l'intimité de sa vie privée, qui porte, sans autorisation de l'intéressé, ces données à la connaissance d'un tiers qui n'a pas qualité pour les recevoir, encourt le risque de subir une peine équivalente. Lorsqu'elle a été commise par imprudence ou négligence, cette divulgation est punie de trois ans d'emprisonnement et de 100 000 € d'amende.

Ainsi, la Cour de cassation de Paris a confirmé en 2001 les amendes de 50 et 30.000 francs, infligées par la Cour d’appel d’Aix en Provence respectivement au président et au directeur d’un syndicat interprofessionnel de médecins du travail, au motif que « le système informatique mis en place n’assurait pas une protection suffisante de la confidentialité des données enregistrées » et que « toutes les précautions utiles en vue d’empêcher la communication des informations médicales aux membres du personnel administratif, tiers non autorisé, n’avaient pas été prises ».

À ces risques s’ajoutent les risques « CNIL ». Depuis la refonte de la loi Informatique & Libertés en 2004, la CNIL dispose de prérogatives renforcées, avec la possibilité de procéder à un arrêt brutal du système contrevenant. La Commission peut prononcer un avertissement à l’égard du responsable d’un traitement qui ne respecte pas ses obligations. Elle peut également le mettre en demeure de faire cesser le manquement constaté dans un délai qu’elle fixe. Si le responsable d’un traitement ne se conforme pas à la mise en demeure qui lui est adressée, la commission peut prononcer à son encontre, après une procédure contradictoire, une sanction pécuniaire et/ou une injonction de cesser le traitement. La CNIL peut aussi décider le verrouillage de certaines des données à caractère personnel traitées, pour une durée maximale de trois mois.

Des sanctions pécuniaires infligées par la CNIL ?

Depuis août 2004, la CNIL a gagné de nouveaux pouvoirs ; outre la possibilité de procéder à des visites inopinées sur place (au total, la Commission aura mené environ 300 missions de contrôle en 2009), elle peut prononcer des sanctions pécuniaires proportionnées à la gravité des manquements commis et aux avantages tirés de ces manquements⁽⁴⁾. Ces sanctions peuvent aller jusqu’à 150 000 €, et 300 000 € en cas de récidive. De plus, la commission peut rendre publics les avertissements qu’elle prononce.

La Commission a inauguré ses nouveaux pouvoirs en juin 2006 en infligeant à une grande banque une amende de 45 000 € (avec publicité dans la presse aux frais de la banque). Sans que son identité soit dévoilée, le site de la CNIL fait également état de la condamnation d’une étude d’huissier, suite à un contrôle sur place.

Dans les collectivités, quelles sont les pratiques « à risque » ?

Dans le cadre d’une analyse de risques, on se focalise assez naturellement sur les envois de données à l’extérieur (l’exportation hors de l’union européenne des données à caractère personnel est soumise à un cadre très strict), pratiques peu fréquentes en ce qui concerne les collectivités. Le véritable danger est ailleurs, et reste malheureusement le plus souvent insoupçonné.

Les données en zone de production sont habituellement correctement protégées, dans la plupart des cas par une défense périmétrique (pare-feu, contrôle d’accès physique, identifiant et mot de passe⁽⁵⁾), plus rarement par des moyens spécifiquement conçus pour la protection des données sensibles (chiffrement sélectif des bases de données et traçabilité des accès des Administrateurs techniques).

Par contre, en dehors de ce périmètre maîtrisé, on relève fréquemment des pratiques pour le moins « perfectibles ». Tous les jours, des données à caractère personnel sont portées à la connaissance de tiers non autorisés, en infraction totale avec les règles de sécurité évoquées précédemment, et ceci à quatre occasions :

Trop souvent les développeurs travaillent sur des données réelles (y compris les prestataires) ;
Trop souvent, les sessions de formation comportent des travaux pratiques mettant en œuvre des données de production ;
Trop souvent, les tests, maquettes et évaluations d’outils logiciels s’effectuent avec des données réelles ;
Trop souvent, lors d’opérations de recette, de support et de maintenance, des données de production sont utilisées pour s'assurer du bon fonctionnement d’une application.

Dans ces situations, des données réelles sont extraites du périmètre protégé, que ce soit sous forme de jeux de test ou de copies complètes de données de production. Ces dernières contiennent donc, au même titre que leurs bases dont elles sont issues, des données personnelles ou confidentielles.

Une autre pratique à risque consiste à conserver les données après la date indiquée dans la déclaration : lors de leur contrôle, les agents habilités de la CNIL vérifient systématiquement ce point ainsi que l’existence d’une procédure formalisée de purge des données.

L’anonymisation réduit le risque

L’une des solutions consiste à traiter le problème à sa racine en éliminant le critère « personnel » aux données manipulées. Comment ? En les « anonymisant ». Ce processus vise à éviter qu’une personne, un individu, soit identifiable au travers des données collectées⁽⁶⁾.

Cette notion n’est pas normalisée, et dans la littérature on parle aussi bien d’anonymisation des jurisprudences que d’anonymisation des CV, de surf anonyme ou d’anonymisation des données de santé. Ces vocables ne recouvrent pas forcément les mêmes notions. Le présent document se focalise sur l’anonymisation des jeux de test.

Ces dernières années, la CNIL s’est penchée sur l’anonymisation à trois reprises : les données INSEE, le DMP (Dossier Médical Personnel) et l’anonymisation des jurisprudences. Concernant les données de connexions que les FAI doivent conserver un an, le décret d’application fait mention de l’obligation de les « anonymiser » passé ce délai.

Quelles données faut-il « anonymiser » ?

Selon les contextes tout peut potentiellement concourir à l’identification d’une personne. Les éléments concernés par l’anonymisation ne constituent donc pas une liste fermée :

Nom, prénom, surnom, sigle d’entreprise...,
Données personnelles (adresse, numéros de téléphone ou de passeport, âge, lieu de naissance...),
Profession, statut, titres, activités sociales,
Parenté, réseaux, relations,
Référence à des lieux (toponymes, institutions, services, etc.),
Référence à des caractéristiques physiques, culturelles, médicales… uniques ou rares dans son milieu,
Caractéristiques physiques : voix, visage, caractéristiques corporelles, etc.

La première étape d’une démarche d’anonymisation consiste donc à identifier les champs qui doivent être anonymisés.

Quelles sont les techniques d’anonymisation des données ?

La seconde étape d’une démarche d’anonymisation consiste à retenir la technique d'anonymisation la plus pertinente.

Voici une taxinomie possible des techniques disponibles :

Par suppression (ou remplacement par un unique caractère) : c’est la forme la plus simple et la plus radicale, mais souvent la moins souhaitable pour des objectifs de recherche et d’études statistiques :
- Suppression de données (totale ou partielle) : Certains traitements ne requièrent des données nominatives que pour une durée déterminée. Il importe de procéder à la suppression de données identifiantes dès lors que celles-ci ne sont plus indispensables.
- Masquage : dissimulation d'une partie des champs (par exemple par des X ou par des zéro)
Par remplacement ou modification :
- Chiffrement : remplacement des valeurs sensibles au moyen d’algorithmes fournis ou propriétaires (un tiers de confiance pouvant détenir la clé). Attention à la conservation du format !
- Translation : remplacement des valeurs sensibles à partir d'une valeur ou d’une table de translation – le bon vieux code de César !
- Vieillissement : remplacement des dates sensibles tout en maintenant le format initial
- Génération de données : génération de données fictives, aléatoires ou à partir d'une table externe (librairie) – par exemple des libraires de prénoms, noms, type de voie, adresses email, noms de ville, n° de Sécurité Sociale, n° de cartes bleues, etc.
- Remplacement par des données aléatoires
- Variance : les données numériques sont remplacées par des valeurs figurant dans une plage de variation donnée
- Hachage : remplacement de la valeur par une empreinte (technique utilisée dans le cadre des expérimentations DMP)
- Concaténation : remplacement par une valeur issue de la combinaison de plusieurs champs figurant dans la source
- Mélange : les données sont « brassées » sans être modifiées
Par ajout :
- Obfuscation : ajout d’éléments pour « noyer le poisson » (créer des personnes inexistantes, par exemple)

Certaines de ces techniques sont réversibles (comme le chiffrement) – et dans ce cas on pourra plutôt parler de pseudonymisation, car l’anonymat peut être levé à posteriori. Cette levée peut faire intervenir un tiers, dans le cadre d’une procédure formalisée et tracée (c’est l’approche retenue dans le cadre des expérimentations DMP).

D’autres sont irréversibles (comme la suppression ou la prise d’empreinte). Lors de l’anonymisation d’un jeu de test, on peut faire appel à plusieurs de ces techniques. On peut même utiliser, pour un même champ de données, deux techniques différentes (exemple : une technique A pour les hommes et une technique B pour les femmes). La véritable difficulté est de sélectionner celle qui convient aux objectifs (obtenir un jeu de test pleinement fonctionnel) et aux contraintes (qu’il soit impossible à un tiers non autorisé d’identifier un individu à partir de ces données). Le débat porte actuellement sur une restriction du terme anonymisation aux seules démarches irréversibles.

Où sont les difficultés ?

Certains processus d’anonymisation peuvent s’avérer complexes, la priorité étant d’obtenir la pleine fonctionnalité du jeu de test, en commençant par maintenir les relations entre les champs et respecter les formats. De plus, il faut pouvoir identifier les incidents, les éventuels doublons et ne pas en créer (deux individus portant les mêmes références après anonymisation). Il faut également pouvoir gérer les homonymies (deux individus différents, mais portant le même nom) et conserver les cohérences instantanées (par exemple entre les membres d’une même famille) et éventuellement dans le temps (une même personne étant « anonymisée » de la même façon à plusieurs mois d’intervalle). Dans certains cas, les répartitions statistiques devront être respectées (exemple : ratio hommes-femmes et distribution des âges maintenus). Signalons aussi les champs numériques avec CRC ou checksum, dont la valeur de remplacement devra respecter la même vérification.

Exemple : Une application évalue le montant d’une assurance véhicule en prenant en compte le département de résidence du propriétaire du véhicule. Il conviendra alors de veiller à remplacer les codes postaux par d’autres correspondants à des départements générant des primes d’un montant équivalent. De même, si le code postal est modifié, l’indicatif téléphonique devra peut-être être cohérent…

Dans certains cas, il convient de pouvoir archiver la procédure d’anonymisation, pour pouvoir l’appliquer à l’identique sur d’autres informations, mener des comparaisons ou des études statistiques, mais également la présenter lors d’un éventuel contrôle de la CNIL.

Pour aider les entreprises et les collectivités à anonymiser leurs données les plus sensibles, quelques outils sont récemment apparus sur le marché, accessibles à partir de quelques milliers d’euros. Ils permettent l’extraction de données sources (à partir d’une ou de plusieurs bases et tables), la sélection des champs qui doivent être anonymisés, le choix des techniques d’anonymisation adéquates et enfin la création du jeu de test proprement dit.

Mais quelle que soit la qualité de l’outil d’anonymisation retenu, il est indispensable qu’il soit mis en œuvre par du personnel qui possède la logique de l’application et qui maîtrise la manipulation des données (DBA). Lui seul pourra sélectionner les bonnes approches et concevoir une stratégie d’anonymisation adéquate. Il peut utilement se faire aider du RSSI quant à la formalisation de la procédure (qui anonymise ? quand ? dans quelles conditions ? selon quelle procédure ? etc.) et par son Correspondant Informatique & Libertés, si l’entité a pris la décision d’en désigner un.

Un résultat assuré ?

Comme dans bien d’autres domaines, l’utilisation d’un bon outil d’anonymisation n’est pas en soi un gage de réussite. En août 2006, un FAI américain a mis en ligne pendant quelques heures un document contenant des millions de données sur les recherches effectuées par ses utilisateurs américains. Ce fichier avait été rendu anonyme, mais de façon insuffisante : Exploité par de nombreux chercheurs, il a rapidement livré des résultats assez intéressants et permis de retrouver la trace d’internautes, d’identifier leurs numéros de sécurité sociale, leurs adresses parfois, jusqu’à leur nom pour certains. Les journalistes du New York Times sont par exemple parvenus à identifier un internaute par la simple analyse de ses requêtes (“chien qui fait pipi partout”, “taxe foncière de Harrisburg, Virginie”, “solitude”, “Paranoïa”, “Thé pour une bonne santé”, etc.). C’est un exemple d’identification par recoupement.

On voit donc que la taille du corpus a son importance : en France, les équipes de la CNIL ont recours à une doctrine informelle selon laquelle on doit trouver dans le fichier au moins 15 (ou 20) représentants d’une valeur spécifique, pour minimiser les risques d’identifier un individu⁽⁸⁾.

Anonymisation de données personnelles : les bonnes résolutions

Voici quelques conseils qui peuvent s’avérer utiles :

Moins on collecte d’information à caractère personnel, moins on court de risques : à chaque fois, il convient de se poser la question « Avons-nous réellement besoin de disposer de cette information spécifique, au regard de la finalité du traitement ? » ;
La meilleure anonymisation possible, c’est encore la suppression des données à caractère personnel si elles ne sont plus indispensables et, dans tous les cas, de ne les garder que pour la durée minimum ;
Chaque fois que c'est possible, remplacer une donnée identifiante par un numéro d'ordre (avec ségrégation et traçabilité des accès) ;
Chaque fois que c'est possible, ne transmettre un fichier à d'autres entités qu'après en avoir supprimé les données identifiantes ;
Sensibiliser les personnels concernés : développeurs, DBA (Data Base Administrator), administrateurs techniques, formateurs, etc. ;
Au moindre doute, ne pas hésiter à prendre contact avec la CNIL (ou à prendre conseil auprès de son Correspondant Informatique & Libertés).

Afin d’aider ses membres – dont de nombreux Correspondants Informatique & Libertés – l’Association Française des Correspondants à La Protection des Données à caractère Personnel (www.afcdp.net) a rédigé un lexique, une checklist et un référentiel des outils d’anonymisation.

Le maître mot : confiance

Les collectivités locales disposent aujourd’hui de moyens informatiques importants pour gérer l’état civil, les listes électorales, les inscriptions scolaires, l’action sociale, etc. Des renseignements à caractère personnel concernant les administrés font ainsi l’objet d’exploitation informatique. Ces informations, parce qu’elles relèvent de la vie privée et que leur divulgation est susceptible de porter atteinte aux droits et libertés des personnes concernées, doivent être protégées.

Les Rectorats d’Amiens et de Rennes, le Centre Hospitalier de Blois, le Centre Hospitalier Régional d’Orléans, le CHU de Brest, la Chambre de Commerce et d’Industrie de la ville de Paris, la Communauté urbaine de Dunkerque, les Conseils généraux d’Ile et Vilaine, du Lot, du Val d’Oise, du Var, le Conseil régional Languedoc-Roussillon, la DRASS de Champagne, l’Ecole centrale de Lyon, les villes de Paris, Chartres et Saint-Lô, l’Office Public d’HLM de Seine Maritime, les Préfectures du Calvados et de la Marne, de nombreuses Caisses d’Assurance Primaire Maladie… de nombreuses collectivités ont d’ores et déjà montré par un geste fort, leur souci de la protection des données à caractère personnel dont elles ont la charge, en désignant auprès de la CNIL un Correspondant Informatique & Libertés.

Le respect, par les collectivités locales, des règles de protection des données à caractère personnel est un gage de sécurité juridique pour les élus, qui sont responsables des fichiers mis en œuvre. Mais c’est également un facteur de transparence et de confiance à l’égard des usagers et des citoyens. Sans cette confiance, les projets d’administration électronique connaîtront-ils le succès attendu ?

(1) Une donnée peut être personnelle directement ou indirectement, notamment par recoupement
(2) Chapitre V Section 1 Article 34 de la Loi Informatique & Libertés 78-17 du 6 janvier 1978
(3) Bien que le mot « traitement » fasse penser au Responsable du Service Informatique, le Responsable du traitement au sens de la loi Informatique et Libertés est le représentant légal de l’entité. Le responsable du traitement est la personne qui décide de la mise en œuvre du traitement et qui en détermine la finalité et les moyens. C’est sur lui que pèse le risque : maire, président de conseil général ou régional, président d’université, directeur d’hôpital, etc.
(5) Chapitre VII Article 47 de la Loi Informatique & Libertés 78-17 du 6 janvier 1978
(6) « Le maire, en tant que responsable du traitement, est astreint à une obligation de sécurité : il doit faire prendre les mesures nécessaires pour garantir la confidentialité des données et éviter leur divulgation. Il convient, par exemple, de veiller à ce que chaque agent ait un mot de passe individuel régulièrement changé et que les droits d’accès soient précisément définis en fonction des besoins réels ».
Source : site Web de la CNIL
(7) L’anonymisation peut ne pas se limiter à des données « texte » mais concerner également des images, des vidéo ou des sons (voix humaines)
(8) En anglais, cela correspond au Isolated Case Phenomena (exemple ; repérer les dirigeants d’une entreprise en se focalisant sur les salaires les plus élevés)

Formation animée par B. Rasle en relation avec cet article :

L'informatique appliquée au RGPD

Retour à la liste des articles

Anonymisation des données à caractère personnel

Contactez-nous

Adresse

Anonymisation des données à caractère personnel

Contactez-nous

Adresse

Merci !

Merci !