(An English-language version of this post can be read here.)
Note de l’éditeur : Ceci est le troisième article légèrmement ajusté de Palantir Mode d’Emploi, une série qui explore une série de sujets, y compris notre approche de la confidentialité, de la sécurité, de la sécurité AI/ML, et plus encore. Les articles précédents ont exploré notre modèle économique et les contrôles d’accès par finalité.
La pandémie de COVID a accentué l’importance d’un traitement sécurisé et massif des données sensibles. L’analyse des données est aujourd’hui essentielle pour les gouvernements et les entreprises afin de traiter de problèmes complexes, induisant des questionnements légitimes sur la manière avec laquelle cette analyse est effectuée. Les individus veulent savoir ce qui advient de leurs données personnelles, et ceux qui en sont responsables doivent comprendre les moyens à leur disposition pour protéger l’information dont ils ont la responsabilité.
Ce post explore les défis que comporte l’anonymisation pour les organisations cherchant à conjuguer les nécessité de leurs mandats (par exemple l’exécution d’une mission de service public) et la protection de la vie privée. Plus précisément, il sera question de la signification de l’anonymisation, des raisons qui la rendent complexe à mettre en oeuvre, et des bonnes pratiques que nous recommandons pour limiter les risques de ré-identification.
Ce billet de blog fait partie de la série Palantir Mode d’emploi, qui explore une série de sujets, y compris notre approche de la confidentialité, de la sécurité, de la sécurité IA/ML, et plus encore. Nous avons délibérément voulu ce billet de blog court pour le rendre accessible, mais si vous souhaitez en savoir plus sur l’anonymisation à un niveau technique, veuillez consulter notre livre blanc sur ce sujet.
L’anonymisation correspond au processus de suppression de toute information identifiable au sein d’un jeu de données, de manière à ce que les personnes décrites par ces données ne puissent pas être ré-identifiées. L’anonymisation est utile car elle permet aux organisations de travailler avec des données qui sont dérivées d’individus sans pour autant compromettre leur vie privée.
La difficulté de l’anonymisation réside dans la complexité de sa mise en oeuvre, et les conséquences d’une mauvaise mise en oeuvre peuvent être graves. Yves-Alexandre de Montjoye, Professeur à l’Imperial College London où il dirige le “Computational Privacy Group” a ainsi récemment démontré que, malgré les processus d’anonymisation des informations, la ré-identification était possible notamment sur les données concernant les médicaments achetés par les consommateurs français transmises à une société, leader mondial de la collecte et de l’analyse des données médicales. Ces révélations ont créé la polémique, faisant notamment réagir la Commission nationale de l’informatique et des libertés (Cnil) dans le cadre de sa décision Entrepôt de données santé IQVIA, rappelant les conditions et le cadre légal ayant permis son autorisation en 2018.
Puisque le terme d’anonymisation peut comporter un sens usurpé de sécurité en suggérant que les données ne peuvent être ré-identifiées, Palantir recommande que les organisations lui substituent le terme “dé-identification”. Comme pour les données anonymes, on retire des données dé-identifiées le nom et autres identificateurs directs comme l’adresse ou la date de naissance. Contrairement aux données anonymisées, les données dé-identifiées sont soumises aux mêmes protections juridiques que les données identifiés. Ceci permet de reconnaitre le risque bien réel de ré-identification — le fait de retracer des données dé-identifiées ou anonymisées à l’individu qu’elles décrivent.
Palantir fournit des logiciels qui interviennent sur des données hautement sensibles, et a ainsi développé des processus et technologies permettant à ses clients de réduire considérablement les risques de ré-identification. Les sections ci-dessous couvrent les questions que les organisations doivent se poser, et les techniques à employer, pour rendre la dé-identification réellement efficace.
Par expérience, le risque de ré-identification doit être pensé selon deux axes : par rapport aux données elles-mêmes, et par rapport à leur utilisation.
Tout d’abord, nous allons nous intéresser aux propriétés intrinsèques des données, dans quelle mesure elles sont sensibles ou ré-identifiables et comprendre ce qu’il se passerait si elles étaient reliées avec d’autres données.
Voici quelques techniques, chacune présentant avantages et inconvénients, permettant de sensiblement réduire les risques de ré-identification:
Après avoir considéré les risques liés aux données elles-mêmes, il nous faut également évaluer les risque de ré-identification à l’aune de leur utilisation. En effet, s’il existe de nombreuses techniques pour protéger des données statiques, l’approche de Palantir est différente en ce qu’elle cherche à évaluer le risque de ré-identification dans un système complexe et dynamique, c’est à dire le monde dans lequel ces données sont utilisées pour prendre des décisions opérationnelles.
Les équipes de gouvernance des données peuvent user de multiples procédés afin de réduire les risques de ré-identification.
Le développement de nouvelles technologies doit avoir pour priorité la conciliation de l’utilisation des données et de la protection de la vie privée. La recherche basée sur des données et la prise de décision peut grandement améliorer la santé, la sécurité des personnes et bien plus, mais ces finalités ne peuvent être atteintes au mépris du respect du droit à la vie privée. Les organisations qui utilisent des technologies innovantes doivent agir en accord avec les attentes, lorsqu’elles sont raisonnables, des gens dont les données sont traitées. Palantir considère la protection des données et de la vie privée comme des valeurs essentielles du développement de ses produits.
La dé-identification n’est qu’un seul des outils disponibles. Palantir considère que le traitement responsable des données impose une approche holistique. Pour plus d’information sur la façon dont Palantir envisage la protection des données au sein de ses produits, consultez Data Protection in Palantir Foundry.
Megha Arora, Responsable de l’ingénierie vie privée et libertés individuelles, Palantir
Basil Jennings, Ingénieur vie privée et libertés individuelles, Palantir UK
Paula Kift, Responsable des partenariats pour la protection de la vie privée, Palantir
Au-delà de l’anonymisation (Palantir Mode d’Emploi, No.3) was originally published in Palantir Blog on Medium, where people are continuing the conversation by highlighting and responding to this story.
Understanding what's happening behind large language models (LLMs) is essential in today's machine learning landscape.
AI accelerationists have won as a consequence of the election, potentially sidelining those advocating for…
L'Oréal's first professional hair dryer combines infrared light, wind, and heat to drastically reduce your…
TL;DR A conversation with 4o about the potential demise of companies like Anthropic. As artificial…
Whether a company begins with a proof-of-concept or live deployment, they should start small, test…
Digital tools are not always superior. Here are some WIRED-tested agendas and notebooks to keep…