Categories: FAANG

Au-delà de l’anonymisation (Palantir Mode d’Emploi, No.3)

(An English-language version of this post can be read here.)

Note de l’éditeur : Ceci est le troisième article légèrmement ajusté de Palantir Mode d’Emploi, une série qui explore une série de sujets, y compris notre approche de la confidentialité, de la sécurité, de la sécurité AI/ML, et plus encore. Les articles précédents ont exploré notre modèle économique et les contrôles d’accès par finalité.

La pandémie de COVID a accentué l’importance d’un traitement sécurisé et massif des données sensibles. L’analyse des données est aujourd’hui essentielle pour les gouvernements et les entreprises afin de traiter de problèmes complexes, induisant des questionnements légitimes sur la manière avec laquelle cette analyse est effectuée. Les individus veulent savoir ce qui advient de leurs données personnelles, et ceux qui en sont responsables doivent comprendre les moyens à leur disposition pour protéger l’information dont ils ont la responsabilité.

Ce post explore les défis que comporte l’anonymisation pour les organisations cherchant à conjuguer les nécessité de leurs mandats (par exemple l’exécution d’une mission de service public) et la protection de la vie privée. Plus précisément, il sera question de la signification de l’anonymisation, des raisons qui la rendent complexe à mettre en oeuvre, et des bonnes pratiques que nous recommandons pour limiter les risques de ré-identification.

Ce billet de blog fait partie de la série Palantir Mode d’emploi, qui explore une série de sujets, y compris notre approche de la confidentialité, de la sécurité, de la sécurité IA/ML, et plus encore. Nous avons délibérément voulu ce billet de blog court pour le rendre accessible, mais si vous souhaitez en savoir plus sur l’anonymisation à un niveau technique, veuillez consulter notre livre blanc sur ce sujet.

Anonymisation versus dé-identification, et le problème de la ré-identification

L’anonymisation correspond au processus de suppression de toute information identifiable au sein d’un jeu de données, de manière à ce que les personnes décrites par ces données ne puissent pas être ré-identifiées. L’anonymisation est utile car elle permet aux organisations de travailler avec des données qui sont dérivées d’individus sans pour autant compromettre leur vie privée.

La difficulté de l’anonymisation réside dans la complexité de sa mise en oeuvre, et les conséquences d’une mauvaise mise en oeuvre peuvent être graves. Yves-Alexandre de Montjoye, Professeur à l’Imperial College London où il dirige le “Computational Privacy Group” a ainsi récemment démontré que, malgré les processus d’anonymisation des informations, la ré-identification était possible notamment sur les données concernant les médicaments achetés par les consommateurs français transmises à une société, leader mondial de la collecte et de l’analyse des données médicales. Ces révélations ont créé la polémique, faisant notamment réagir la Commission nationale de l’informatique et des libertés (Cnil) dans le cadre de sa décision Entrepôt de données santé IQVIA, rappelant les conditions et le cadre légal ayant permis son autorisation en 2018.

Puisque le terme d’anonymisation peut comporter un sens usurpé de sécurité en suggérant que les données ne peuvent être ré-identifiées, Palantir recommande que les organisations lui substituent le terme “dé-identification”. Comme pour les données anonymes, on retire des données dé-identifiées le nom et autres identificateurs directs comme l’adresse ou la date de naissance. Contrairement aux données anonymisées, les données dé-identifiées sont soumises aux mêmes protections juridiques que les données identifiés. Ceci permet de reconnaitre le risque bien réel de ré-identification — le fait de retracer des données dé-identifiées ou anonymisées à l’individu qu’elles décrivent.

Palantir fournit des logiciels qui interviennent sur des données hautement sensibles, et a ainsi développé des processus et technologies permettant à ses clients de réduire considérablement les risques de ré-identification. Les sections ci-dessous couvrent les questions que les organisations doivent se poser, et les techniques à employer, pour rendre la dé-identification réellement efficace.

Rendre les données moins identifiables

Par expérience, le risque de ré-identification doit être pensé selon deux axes : par rapport aux données elles-mêmes, et par rapport à leur utilisation.

Tout d’abord, nous allons nous intéresser aux propriétés intrinsèques des données, dans quelle mesure elles sont sensibles ou ré-identifiables et comprendre ce qu’il se passerait si elles étaient reliées avec d’autres données.

Les Questions à se poser

  • Les données sont-elles sensibles ? Des données peuvent être sensibles à différents degrés. Ainsi elles pourraient contenir des informations sur des attributs protégés tels que l’adresse, le genre ou la religion d’une personne, ou à un autre degré elles pourraient être intimes, personnelles ou confidentielles. La question à se poser est “Quel est le potentiel risque pour les personnes concernées si leurs données étaient ré-identifiées ?”
  • Est-il facile de ré-identifier les données ? Pour répondre à cette question, il faut considérer la cardinalité de chaque point de donnée, c’est-à-dire à combien d’individus concerne-t-il. Plus le nombre de personnes concernées est faible, plus le risque de ré-identification est élevé.
  • Que se passerait-il si les données étaient reliées à d’autres ? Pour cela il faut considérer l’ensemble de ses systèmes de données, les systèmes actuels et ceux à venir. Est-ce que des données d’autres systèmes pourraient être jointes avec nos données dé-identifiées, provoquant ainsi leur ré-identification ? Quelle est la probabilité qu’une telle jointure ait lieu ? Quelles sont les protections mises en place pour éviter que cela arrive ?

Comment réduire les risques

Voici quelques techniques, chacune présentant avantages et inconvénients, permettant de sensiblement réduire les risques de ré-identification:

  • Généralisation: Réduire la granularité de l’information (par ex. convertir une date de naissance en fourchette d’âge).
  • Agrégation: Regrouper des données individuelles et n’effectuer d’analyses qu’à l’échelle agrégée.
  • Dissimulation: Dissimuler les données identifiables aux utilisateurs non autorisés, par ex. en les masquant ou en les chiffrant.
  • Minimisation dynamique: Ne révéler qu’une partie des données en fonction des besoins et du rôle de l‘utilisateur.
  • Données Synthétiques: Générer des données artificielles répliquant la distribution statistique des données originales.

Un risque technique et organisationnel

Après avoir considéré les risques liés aux données elles-mêmes, il nous faut également évaluer les risque de ré-identification à l’aune de leur utilisation. En effet, s’il existe de nombreuses techniques pour protéger des données statiques, l’approche de Palantir est différente en ce qu’elle cherche à évaluer le risque de ré-identification dans un système complexe et dynamique, c’est à dire le monde dans lequel ces données sont utilisées pour prendre des décisions opérationnelles.

Les Questions à se poser

  • Utilisateurs: Combien d’utilisateurs auront accès à ces données ? Est-ce que cela changera dans le futur ? En effet, le risque augmente à chaque nouvel utilisateur obtenant accès aux données. Cela est d’autant plus important si ces utilisateurs sont tentés de ré-identifier les données afin, peut-être, d’en savoir plus sur des personnalités publiques ou des personnes de leur entourage.
  • Permissions: A quelles données les utilisateurs peuvent-ils accéder ? A quelles autres données ont-ils accès (en dehors de la plateforme contenant les données dé-identifiées) et ces données peuvent-elles être combinées ? Ces utilisateurs ont-ils les permissions pour importer, exporter ou transférer les données sans autorisation ?
  • Gouvernance: Des règles de gouvernance des données ont-elles été mises en place et sont-elles comprises par les utilisateurs ? La plateforme permet-elle d’appliquer ces règles ? Les équipes de gouvernance des données peuvent-elles surveiller et mesurer la conformité à ces règles ?
  • Méta-données: Les jeux de données sont-ils correctement labellisés et décrits, de sorte que les utilisateurs peuvent aisément comprendre leur niveau de sensibilité, l’utilisation prescrite et les règles en régissant l’utilisation ?

Comment réduire les risques

Les équipes de gouvernance des données peuvent user de multiples procédés afin de réduire les risques de ré-identification.

  • Permissions d’accès: S’assurer que les utilisateurs n’ont accès qu’aux sous-ensemble de données qui leur est strictement nécessaire (Cliquez pour comprendre comment ceci est incorporé dans les logiciels de Palantir).
  • Permissions d’usage: Ne permettre qu’aux utilisateurs qui en ont absolument besoin de réaliser certaines actions telles qu’importer, exporter, transférer ou combiner des données.
  • Labeliser : Labeliser les données sensibles de façon cohérente à travers la plateforme afin d’indiquer leur sensibilité et de par exemple empêcher qu’elles ne soient combinées avec d’autres données sensibles possédant un autre tag.
  • Déchiffrement sur demande: Chiffrer et rendre illisible par défaut les données les plus sensibles. Ne permettre aux utilisateurs de les déchiffrer que s’ils justifient de leur besoin d’accéder à ces données.
  • Contrôler: Permettre aux organes de contrôle internes et externes de s’assurer de la conformité du traitement quant aux règles de gouvernance préétablies et qu’aucune action malintentionnée n’a lieu dans les systèmes contrôlés.
  • Détecter les données sensibles: Détecter automatiquement les données sensibles à travers les systèmes utilisés en faisant tourner en arrière plan des algorithmes de détection et ce afin d’alerter et de restreindre l’accès à des données sensibles trop identifiables qui auraient pu être importées accidentellement.
  • Tester & Valider: Permettre de valider et de mettre à l’épreuve les données dé-identifiées avant qu’elles ne soient partagées en interne ou en externe.
  • Lignage des données: Utiliser des outils de visualisations du lignage des données afin de comprendre la manière avec laquelle elles circulent au sein des systèmes. Cela doit permettre de répondre aux questions suivantes: “quels utilisateurs ont accès à quel niveau de données sensible et pour quelles finalités ?”

Une approche holistique

Le développement de nouvelles technologies doit avoir pour priorité la conciliation de l’utilisation des données et de la protection de la vie privée. La recherche basée sur des données et la prise de décision peut grandement améliorer la santé, la sécurité des personnes et bien plus, mais ces finalités ne peuvent être atteintes au mépris du respect du droit à la vie privée. Les organisations qui utilisent des technologies innovantes doivent agir en accord avec les attentes, lorsqu’elles sont raisonnables, des gens dont les données sont traitées. Palantir considère la protection des données et de la vie privée comme des valeurs essentielles du développement de ses produits.

La dé-identification n’est qu’un seul des outils disponibles. Palantir considère que le traitement responsable des données impose une approche holistique. Pour plus d’information sur la façon dont Palantir envisage la protection des données au sein de ses produits, consultez Data Protection in Palantir Foundry.

Auteurs

Megha Arora, Responsable de l’ingénierie vie privée et libertés individuelles, Palantir
Basil Jennings, Ingénieur vie privée et libertés individuelles, Palantir UK
Paula Kift, Responsable des partenariats pour la protection de la vie privée, Palantir


Au-delà de l’anonymisation (Palantir Mode d’Emploi, No.3) was originally published in Palantir Blog on Medium, where people are continuing the conversation by highlighting and responding to this story.

AI Generated Robotic Content

Recent Posts

6 Language Model Concepts Explained for Beginners

Understanding what's happening behind large language models (LLMs) is essential in today's machine learning landscape.

4 hours ago

Unintended consequences: U.S. election results herald reckless AI development

AI accelerationists have won as a consequence of the election, potentially sidelining those advocating for…

5 hours ago

L’Oreal Professionnel AirLight Pro Review: Faster, Lighter, and Repairable

L'Oréal's first professional hair dryer combines infrared light, wind, and heat to drastically reduce your…

5 hours ago

Can “Safe AI” Companies Survive in an Unrestrained AI Landscape?

TL;DR A conversation with 4o about the potential demise of companies like Anthropic. As artificial…

1 day ago

Large language overkill: How SLMs can beat their bigger, resource-intensive cousins

Whether a company begins with a proof-of-concept or live deployment, they should start small, test…

1 day ago

14 Best Planners: Weekly and Daily Notebooks & Accessories (2024)

Digital tools are not always superior. Here are some WIRED-tested agendas and notebooks to keep…

1 day ago