(An English-language version of this post can be read here.)
Nota del editor: Este es el tercer post de Palantir Explained, una serie que explora una selección de temas, incluido nuestro enfoque hacia la privacidad, la seguridad, y la seguridad de la IA/ML, entre otros. Las entradas anteriores exploran nuestro modelo de negocio y los controles de acceso basados en el propósito.
La pandemia de COVID-19 ha reforzado la importancia de procesar datos sensibles de forma segura y a gran escala. En un mundo en el que la analítica de datos es cada vez más crucial para hacer frente a retos cada vez más complejos, existen preguntas importantes acerca de la utilización de estos datos. Los ciudadanos quieren saber qué información está siendo utilizada, mientras que los responsables del tratamiento de datos personales necesitan proteger la información que tienen a su cargo.
En esta entrada del blog, exploramos cómo la anonimización de datos puede ayudar a las organizaciones a equilibrar sus responsabilidades, como la rápida distribución de vacunas, con la protección de la privacidad. Concretamente, explicaremos qué significa la anonimización, por qué no es sencillo implementar un proceso de anonimización con garantías y cómo mitigar los riesgos de la reidentificación.
La serie Palantir Explained explora una serie de temas, incluyendo nuestro enfoque hacia la privacidad, la seguridad, la seguridad de la IA/ML, entre otros. Hemos mantenido deliberadamente la brevedad de esta entrada de blog para hacerla accesible, pero si desea obtener más información sobre la anonimización a nivel técnico, consulte nuestra documentación especializada al respecto.
(En esta sección se utilizará terminología que puede resultar desconocida para quienes no son profesionales de la privacidad. Algunos de estos términos serán introducidos a continuación, pero el blog Understanding Patient Data ofrece un glosario útil para quienes estén interesados).
La anonimización se refiere al proceso de eliminar información identificable de un conjunto de datos, de modo que las personas descritas en éstos no puedan ser reidentificadas. La anonimización se presenta como una herramienta de gran utilidad al permitir a las organizaciones trabajar con datos asociados a individuos sin poner en riesgo su privacidad.
El reto que plantea la anonimización es ser capaces de implementarla con garantías totales de éxito, dadas las consecuencias que pudieran derivar de una anonimización fallida. Citando un ejemplo conocido, un estudiante de posgrado logró utilizar datos hospitalarios de Massachusetts, supuestamente anonimizados, para enviar al Gobernador de Massachusetts su propio historial médico. El fallo es lo suficientemente común como para que la Oficina del Comisario de Información del Reino Unido lo califique de “riesgo real” para las organizaciones sujetas al RGPD (GDPR por sus siglas en inglés).
Dado que el término “anonimización” puede transmitir una falsa sensación de seguridad al sugerir que los datos son imposibles de reidentificar, recomendamos que las organizaciones utilicen en su lugar el término desidentificación. Al igual que con los datos anónimos, los datos desidentificados han sido despojados de nombres y otros identificadores personales como las direcciones o las fechas de nacimiento. A diferencia de ellos, los datos desidentificados están sujetos a la misma protección legal que los datos identificables, reconociendo el riesgo real de la reidentificación: que los datos desidentificados o anonimizados pudieran ser nuevamente asociados a la persona que describen (y por lo tanto reidentificadas).
Al proporcionar nuestro software a clientes que manejan datos altamente sensibles — como el National COVID Cohort Collaborative (N3C) de los Institutos Nacionales de Salud de EE.UU. (NIH) — Palantir ha implementado marcos de referencia tecnológicos para ayudar a sus clientes a minimizar los riesgos derivados de la reidentificación. Continúe leyendo para conocer en detalle las técnicas que puedes emplear para ayudar a proteger tus datos, de manera que los procesos de desidentificación sean efectivos.
Dada nuestra experiencia, el riesgo de reidentificación debe abordarse en dos niveles: los datos en sí y las circunstancias en las que se utilizan.
En primer lugar, nos centramos en los datos: su sensibilidad, su facilidad de reidentificación y lo que podría ocurrir si estos datos fuesen cruzados con otras bases de datos.
¿Qué grado de sensibilidad tienen los datos? La sensibilidad de los datos puede ser entendida de múltiples maneras: pueden contener información sobre características protegidas como la salud, el sexo o el origen étnico; o pueden ser en algún otro sentido íntimos, personales o confidenciales. Debemos preguntarnos: “¿Cuál sería el daño potencial para estos individuos si esta información fuera reidentificada?”
¿Cómo de fácil es reidentificar los datos? Para responder a esta pregunta, hay que tener en cuenta cómo de único es el punto de datos individual, es decir, a cuántas personas se les puede atribuir este dato. Cuanto menor sea el número de personas a las que este dato se pueda atribuir, mayor será el riesgo de reidentificación.
¿Qué ocurre si se une a otros datos? Piense en los demás datos de su sistema, presentes y futuros. ¿Podrían esos datos, unidos a otros datos ya desidentificados, dar lugar a una reidentificación? ¿Qué probabilidad hay de que se produzca esa unión (en el sistema o si los datos se publican en otro lugar)? ¿Qué protecciones existen para evitarlo?
Existen varias técnicas para manipular y modificar los datos con el fin de evitar la reidentificación, cada una de ellas con ventajas e inconvenientes. Las técnicas, que se pueden combinar, son las siguientes:
A continuación, evaluaremos cómo las circunstancias en las que se utilizan los datos afectan a la probabilidad de reidentificación. Existen muchas técnicas conocidas para reducir la reidentificación de un conjunto de datos estáticos, pero nuestro enfoque pretende calcular el riesgo en un sistema complejo y dinámico, es decir, el mundo en el que las personas utilizan datos para tomar decisiones.
Los equipos de gobernanza de datos pueden aplicar medidas de protección para mitigar riesgos de reidentificación.
Proteger la privacidad durante el uso de los datos debe ser una prioridad absoluta en el desarrollo de nuevas tecnologías. La investigación y la toma de decisiones basadas en datos pueden mejorar enormemente la salud, la seguridad, los procesos de producción, etc., pero no deben tener un coste desproporcionado para la privacidad. Las organizaciones que utilizan tecnologías innovadoras deben actuar acorde a las expectativas de las personas, cuyos datos están siendo procesados. La regulación y las buenas prácticas deben evolucionar junto a estas tecnologías. Esto requiere un compromiso constante con la sociedad civil, las comunidades y las personas implicadas. En Palantir consideramos que la protección de datos y la privacidad es un proceso continuo y mantenemos ese valor como algo fundamental en el diseño de todos nuestros productos.
La “desidentificación” es una de muchas de las herramientas. Según nuestra experiencia, el tratamiento responsable de los datos requiere un enfoque integral. Para obtener más información sobre cómo pensamos en la protección de datos en nuestros productos, consulta nuestro post Protección de datos en Palantir Foundry.
Megha Arora, Lead de Ingeniería de Privacidad y Libertades Civiles de Palantir
Basil Jennings, Lead de Ingeniería de Privacidad y Libertades Civiles de Palantir UK
Paula Kift, Head of Privacy Partnerships de Palantir
Más que anonimizar (Explicando Palantir, #3) was originally published in Palantir Blog on Medium, where people are continuing the conversation by highlighting and responding to this story.
Jasper Research Lab’s new shadow generation research and model enable brands to create more photorealistic…
We’re announcing new updates to Gemini 2.0 Flash, plus introducing Gemini 2.0 Flash-Lite and Gemini…
Interactive digital agents (IDAs) leverage APIs of stateful digital environments to perform tasks in response…
This post is co-written with Martin Holste from Trellix. Security teams are dealing with an…
As AI continues to unlock new opportunities for business growth and societal benefits, we’re working…
An internal email obtained by WIRED shows that NOAA workers received orders to pause “ALL…