Categories: FAANG

Más que anonimizar (Explicando Palantir, #3)

(An English-language version of this post can be read here.)

Nota del editor: Este es el tercer post de Palantir Explained, una serie que explora una selección de temas, incluido nuestro enfoque hacia la privacidad, la seguridad, y la seguridad de la IA/ML, entre otros. Las entradas anteriores exploran nuestro modelo de negocio y los controles de acceso basados en el propósito.

La pandemia de COVID-19 ha reforzado la importancia de procesar datos sensibles de forma segura y a gran escala. En un mundo en el que la analítica de datos es cada vez más crucial para hacer frente a retos cada vez más complejos, existen preguntas importantes acerca de la utilización de estos datos. Los ciudadanos quieren saber qué información está siendo utilizada, mientras que los responsables del tratamiento de datos personales necesitan proteger la información que tienen a su cargo.

En esta entrada del blog, exploramos cómo la anonimización de datos puede ayudar a las organizaciones a equilibrar sus responsabilidades, como la rápida distribución de vacunas, con la protección de la privacidad. Concretamente, explicaremos qué significa la anonimización, por qué no es sencillo implementar un proceso de anonimización con garantías y cómo mitigar los riesgos de la reidentificación.

La serie Palantir Explained explora una serie de temas, incluyendo nuestro enfoque hacia la privacidad, la seguridad, la seguridad de la IA/ML, entre otros. Hemos mantenido deliberadamente la brevedad de esta entrada de blog para hacerla accesible, pero si desea obtener más información sobre la anonimización a nivel técnico, consulte nuestra documentación especializada al respecto.

Anonimización frente a desidentificación, y el problema de la reidentificación

(En esta sección se utilizará terminología que puede resultar desconocida para quienes no son profesionales de la privacidad. Algunos de estos términos serán introducidos a continuación, pero el blog Understanding Patient Data ofrece un glosario útil para quienes estén interesados).

La anonimización se refiere al proceso de eliminar información identificable de un conjunto de datos, de modo que las personas descritas en éstos no puedan ser reidentificadas. La anonimización se presenta como una herramienta de gran utilidad al permitir a las organizaciones trabajar con datos asociados a individuos sin poner en riesgo su privacidad.

El reto que plantea la anonimización es ser capaces de implementarla con garantías totales de éxito, dadas las consecuencias que pudieran derivar de una anonimización fallida. Citando un ejemplo conocido, un estudiante de posgrado logró utilizar datos hospitalarios de Massachusetts, supuestamente anonimizados, para enviar al Gobernador de Massachusetts su propio historial médico. El fallo es lo suficientemente común como para que la Oficina del Comisario de Información del Reino Unido lo califique de “riesgo real” para las organizaciones sujetas al RGPD (GDPR por sus siglas en inglés).

Dado que el término “anonimización” puede transmitir una falsa sensación de seguridad al sugerir que los datos son imposibles de reidentificar, recomendamos que las organizaciones utilicen en su lugar el término desidentificación. Al igual que con los datos anónimos, los datos desidentificados han sido despojados de nombres y otros identificadores personales como las direcciones o las fechas de nacimiento. A diferencia de ellos, los datos desidentificados están sujetos a la misma protección legal que los datos identificables, reconociendo el riesgo real de la reidentificación: que los datos desidentificados o anonimizados pudieran ser nuevamente asociados a la persona que describen (y por lo tanto reidentificadas).

Al proporcionar nuestro software a clientes que manejan datos altamente sensibles — como el National COVID Cohort Collaborative (N3C) de los Institutos Nacionales de Salud de EE.UU. (NIH) — Palantir ha implementado marcos de referencia tecnológicos para ayudar a sus clientes a minimizar los riesgos derivados de la reidentificación. Continúe leyendo para conocer en detalle las técnicas que puedes emplear para ayudar a proteger tus datos, de manera que los procesos de desidentificación sean efectivos.

Hacer que los datos sean menos identificables

Dada nuestra experiencia, el riesgo de reidentificación debe abordarse en dos niveles: los datos en sí y las circunstancias en las que se utilizan.

En primer lugar, nos centramos en los datos: su sensibilidad, su facilidad de reidentificación y lo que podría ocurrir si estos datos fuesen cruzados con otras bases de datos.

Preguntas a plantear

¿Qué grado de sensibilidad tienen los datos? La sensibilidad de los datos puede ser entendida de múltiples maneras: pueden contener información sobre características protegidas como la salud, el sexo o el origen étnico; o pueden ser en algún otro sentido íntimos, personales o confidenciales. Debemos preguntarnos: “¿Cuál sería el daño potencial para estos individuos si esta información fuera reidentificada?”

¿Cómo de fácil es reidentificar los datos? Para responder a esta pregunta, hay que tener en cuenta cómo de único es el punto de datos individual, es decir, a cuántas personas se les puede atribuir este dato. Cuanto menor sea el número de personas a las que este dato se pueda atribuir, mayor será el riesgo de reidentificación.

¿Qué ocurre si se une a otros datos? Piense en los demás datos de su sistema, presentes y futuros. ¿Podrían esos datos, unidos a otros datos ya desidentificados, dar lugar a una reidentificación? ¿Qué probabilidad hay de que se produzca esa unión (en el sistema o si los datos se publican en otro lugar)? ¿Qué protecciones existen para evitarlo?

Acciones preventivas a considerar

Existen varias técnicas para manipular y modificar los datos con el fin de evitar la reidentificación, cada una de ellas con ventajas e inconvenientes. Las técnicas, que se pueden combinar, son las siguientes:

  • Generalización: Reducir la granularidad de la información (por ejemplo, convertir la fecha de nacimiento en edad o rango de edad).
  • Agregación: Agrupar datos sobre individuos y continuar el análisis a nivel agregado.
  • Ofuscación: Ocultar los datos de identificación a las partes no autorizadas, quizás mediante enmascaramiento o encriptación.
  • Minimización dinámica: Mostrar sólo partes de los datos en función de las necesidades o la función del usuario.
  • Datos sintéticos: Producir datos artificiales que reproduzcan tendencias importantes subyacentes en los datos originales.

Riesgo técnico y organizacional

A continuación, evaluaremos cómo las circunstancias en las que se utilizan los datos afectan a la probabilidad de reidentificación. Existen muchas técnicas conocidas para reducir la reidentificación de un conjunto de datos estáticos, pero nuestro enfoque pretende calcular el riesgo en un sistema complejo y dinámico, es decir, el mundo en el que las personas utilizan datos para tomar decisiones.

Preguntas a plantear

  • Usuarios: ¿Cuántos usuarios tendrán acceso a estos datos? ¿Cómo puede cambiar esto con el tiempo? Se debe tener en cuenta que el riesgo aumenta con cada nuevo usuario que obtiene acceso. Esto es especialmente importante si los usuarios pudieran tener una motivación para reidentificar los datos, quizás para aprender sobre figuras públicas o conocidos.
  • Permisos: ¿A qué cantidad de datos pueden acceder los usuarios? ¿A qué otros datos pueden acceder (fuera de la plataforma en la que acceden a los datos desidentificados), y podrían éstos combinarse con los datos desidentificados? ¿Tienen estos usuarios credenciales que les permitan importar, exportar o transferir los datos de forma imprevista?
  • Políticas: ¿Existen políticas claras de gobernanza de datos, y en qué medida las entiende el usuario medio? ¿Aplica la plataforma estas políticas? ¿Pueden los equipos de gobernanza de datos supervisar y medir el cumplimiento?
  • Metadatos: ¿Están los conjuntos de datos de la plataforma claramente etiquetados y descritos, de modo que los usuarios operativos y de gobierno de datos puedan comprender rápidamente su sensibilidad, su uso previsto y las políticas de protección aplicables?

Acciones preventivas a tener en cuenta

Los equipos de gobernanza de datos pueden aplicar medidas de protección para mitigar riesgos de reidentificación.

  • Permisos de acceso: Garantizar que los usuarios sólo tengan acceso a subconjuntos concretos de datos necesarios en función de sus responsabilidades. (Haz clic para aprender cómo funcionan los controles de acceso basados en el propósito en nuestro software).
  • Permisos sobre acciones: Restringir los permisos para llevar a cabo acciones potencialmente sensibles, como importar, exportar, transferir o combinar datos, a aquellos usuarios que lo necesiten estrictamente.
  • Marcado de datos: Etiquetado persistente de conjuntos de datos sensibles para indicar claramente su sensibilidad, y para restringir acciones como la de unirlos con conjuntos de datos que presenten otro “marcado” y que pueda suponer un riesgo al ser combinados.
  • Descifrado selectivo: Cifrar los datos de tal modo que sean ilegibles por defecto. Los usuarios deben proporcionar una justificación aceptable para poder descifrar los subconjuntos de datos necesarios.
  • Auditoría: Permitir que los organismos de supervisión comprueben y verifiquen el cumplimiento de las políticas de gobernanza de datos para datos desidentificados, y que no se realicen acciones fraudulentas, maliciosas o arriesgadas.
  • Detectar datos sensibles: Realizar validaciones a fondo para detectar datos sensibles en todo el sistema, marcando y bloqueando automáticamente los datos sensibles cargados accidentalmente o desidentificados de forma limitada.
  • Pruebas y validación: Proporcionar la capacidad de realizar validaciones y pruebas de datos anonimizados en escenarios simulados antes de que se compartan más ampliamente dentro del sistema o se exporten para uso externo.
  • Linaje de datos: Aprovechar el seguimiento del linaje para entender cómo fluyen los datos dentro del sistema: qué usuarios tienen acceso a qué nivel de datos identificables, y con qué fines, en cada una de las diferentes etapas de integración y transformación.

Un enfoque integral

Proteger la privacidad durante el uso de los datos debe ser una prioridad absoluta en el desarrollo de nuevas tecnologías. La investigación y la toma de decisiones basadas en datos pueden mejorar enormemente la salud, la seguridad, los procesos de producción, etc., pero no deben tener un coste desproporcionado para la privacidad. Las organizaciones que utilizan tecnologías innovadoras deben actuar acorde a las expectativas de las personas, cuyos datos están siendo procesados. La regulación y las buenas prácticas deben evolucionar junto a estas tecnologías. Esto requiere un compromiso constante con la sociedad civil, las comunidades y las personas implicadas. En Palantir consideramos que la protección de datos y la privacidad es un proceso continuo y mantenemos ese valor como algo fundamental en el diseño de todos nuestros productos.

La “desidentificación” es una de muchas de las herramientas. Según nuestra experiencia, el tratamiento responsable de los datos requiere un enfoque integral. Para obtener más información sobre cómo pensamos en la protección de datos en nuestros productos, consulta nuestro post Protección de datos en Palantir Foundry.

Autores

Megha Arora, Lead de Ingeniería de Privacidad y Libertades Civiles de Palantir
Basil Jennings, Lead de Ingeniería de Privacidad y Libertades Civiles de Palantir UK
Paula Kift, Head of Privacy Partnerships de Palantir


Más que anonimizar (Explicando Palantir, #3) was originally published in Palantir Blog on Medium, where people are continuing the conversation by highlighting and responding to this story.

AI Generated Robotic Content

Recent Posts

AI, Light, and Shadow: Jasper’s New Research Powers More Realistic Imagery

Jasper Research Lab’s new shadow generation research and model enable brands to create more photorealistic…

15 hours ago

Gemini 2.0 is now available to everyone

We’re announcing new updates to Gemini 2.0 Flash, plus introducing Gemini 2.0 Flash-Lite and Gemini…

15 hours ago

Reinforcement Learning for Long-Horizon Interactive LLM Agents

Interactive digital agents (IDAs) leverage APIs of stateful digital environments to perform tasks in response…

15 hours ago

Trellix lowers cost, increases speed, and adds delivery flexibility with cost-effective and performant Amazon Nova Micro and Amazon Nova Lite models

This post is co-written with Martin Holste from Trellix.  Security teams are dealing with an…

15 hours ago

Designing sustainable AI: A deep dive into TPU efficiency and lifecycle emissions

As AI continues to unlock new opportunities for business growth and societal benefits, we’re working…

15 hours ago

NOAA Employees Told to Pause Work With ‘Foreign Nationals’

An internal email obtained by WIRED shows that NOAA workers received orders to pause “ALL…

16 hours ago