Confianza en los Datos (Explicando Palantir, #4)

(An English-language version of this post can be read here.)

Nota del editor: Este es el cuarto post de Explicando Palantir, una serie que explora una selección de temas, incluyendo nuestro enfoque hacia la privacidad, la protección, y la seguridad de la IA/ML, entre otros. Las entradas anteriores exploran nuestro modelo de negocio, los controles de acceso basados en el propósito y la anonimización de datos.

Organizaciones de todo el mundo utilizan el software de Palantir para sus iniciativas más críticas: desde la respuesta a pandemias a la investigación del cáncer, la optimización de cadenas de suministro y el desarrollo de energías limpias. Aunque estos proyectos varían en alcance e impacto, todos parten de una misma pregunta fundamental: ¿se dispone de los datos relevantes? Si es así, ¿cuál es la calidad de estos datos, en términos de exhaustividad, precisión y actualidad? Es crucial que protejamos a nuestras instituciones más importantes de las consecuencias de la entropía de los datos: datos deficientes, decisiones deficientes.

En esta entrada del blog, exploraremos por qué es crucial para instituciones de todo tipo mantener un alto nivel de calidad de los datos. Destacaremos estrategias de seguimiento y control de la calidad e integridad de los datos, y abordaremos el modo en que las organizaciones pueden fomentar la confianza de los usuarios en los datos. Por último, como socio tecnológico de múltiples Gobiernos desde hace décadas, compartiremos lo aprendido en la respuesta a la COVID-19, entre otras cosas, por qué los principios de responsabilidad y transparencia son especialmente cruciales en situaciones de crisis. Si desea más información sobre el funcionamiento de nuestras herramientas de calidad y origen de datos, lea nuestra publicación, disponible aquí.

¿Por qué es importante?

La calidad de los datos es la base sobre la que se construyen todos los proyectos exitosos de análisis de datos y de éxito. Un solo conjunto de datos incorrecto tiene el potencial de comprometer toda una iniciativa, desencadenando en la desconfianza del consumidor o usuario final de estos datos y haciendo que el esfuerzo desempeñado sea puesto en discusión.

Además, independientemente de la causa de la baja calidad de los datos (origen incorrecto, definiciones no alineadas, recopilación de datos sesgada o incluso errores en la preparación de datos), las decisiones tomadas sobre datos incorrectos pueden propagarse de forma rápida y dañina en toda la organización. Sin los controles adecuados en los datos, las decisiones mal informadas pueden pasar desapercibidas, resultando en conclusiones equivocadas que lejos de aportar soluciones, creen problemas aún más complejos de resolver. Esta es la razón por la cual la calidad de los datos debe ir acompañada de una sólida transparencia de los datos: todos los usuarios, con roles y permisos relevantes, deben tener todo el contexto necesario para usar sus datos de manera adecuada y confiable.

¿Por qué es difícil?

No todos los datos se crean de la misma manera, y rara vez se presentan de forma limpia, confiable y fácil de analizar. En realidad, no existe una fuente de datos perfecta. A veces, la fuente carece de la amplitud o profundidad de la información necesaria. Otras veces, los sistemas de origen están anticuados, lo que hace que la arquitectura de datos, los esquemas o la estructura no estén adecuados para admitir un nuevo caso de uso. Peor aún, las fuentes pueden contener datos inexactos o desactualizados.

Más allá de los datos en sí, el importante contexto que los rodea puede ser fragmentario o inexistente. Con frecuencia, las actualizaciones se reciben en forma de extractos únicos o ficheros CSV sin visibilidad del origen, de cuándo se actualizó por última vez o cualquier indicación de posibles problemas o deficiencias. En el caso de que dicha información existiera, es posible que solo se encontrara en un correo electrónico o en un intercambio verbal sin ningún registro duradero.

Todos estos problemas pueden afectar a un único conjunto de datos. Ahora, imagine tomar decenas o cientos de estas fuentes de datos únicas y armonizarlas en una única fuente verdadera. Los diferentes estándares, definiciones, esquemas y formatos dificultan garantizar que los datos se preparen, combinen y examinen correctamente antes de que se presenten a los responsables de la toma de decisiones.

¿Cómo pensamos en ello?

Cada vez que comenzamos un proyecto, animamos a los usuarios y tomadores de decisiones a que hagan estas preguntas fundamentales sobre cualquier activo de datos integrado:

¿Qué fuentes componen el activo? ¿Qué reputación tienen dichas fuentes? ¿Qué sabemos acerca de dónde provienen los datos?
¿Cómo de fiables son estas fuentes de datos? ¿Están estos datos tan sesgados que podrían dar lugar a interpretaciones engañosas?
¿Cómo de consistente es esta información? ¿Sabríamos si la forma o la calidad de los datos cambiase o se deteriorara?
¿Cuándo se actualizó por última vez esta información? ¿Ha habido retrasos en su actualización? Si es así, ¿cómo podría esto afectar a los datos y a la toma de decisiones?
Si hay varias fuentes de datos que deben unirse, ¿qué fuente de datos tiene prioridad si hay un conflicto? ¿Cómo podemos rastrear la decisión de sobrescribir o priorizar una fuente de datos?

Las respuestas a estas preguntas son relevantes no solo para la integración inicial de los datos, sino también en cada etapa del ciclo de vida de datos, y son necesarias para crear activos de datos confiables. A partir de nuestra extensa experiencia trabajando con cientos de clientes alrededor del mundo, hemos aprendido que responder estas preguntas a la escala y velocidad necesarias era extraordinariamente difícil en ausencia de estructuras y aplicaciones que ayudasen a rastrear y asegurar la calidad de los datos.

Como resultado, diseñamos las herramientas de integración de datos de Foundry de modo que cualquier ingeniero de datos pueda realizar un seguimiento del estado general de la canalización de datos como parte del proceso de gestión, y para que el usuario pueda saber de dónde provienen los datos y cómo deben ser interpretados.

¿Cómo funciona?

Calidad de datos, integridad y transparencia para desarrolladores en Foundry

Foundry permite a los ingenieros de datos construir canalizaciones de datos de calidad con un conjunto de herramientas para monitorizar y detectar anomalías que pudiesen contaminar la calidad del activo de datos.

Herramientas de trazabilidad de datos: Comprender dónde han estado los datos y hacia dónde se dirigen permite a los ingenieros de datos rastrear posibles problemas de calidad de los datos en toda la plataforma, lo que garantiza que los datos verificados estén disponibles para todas las divisiones comerciales y equipos correspondientes.

Exploración de entradas de forma ascendiente: Foundry permite a los ingenieros de datos y a los usuarios rastrear, investigar y resolver los problemas de calidad de los datos directamente en el origen.
Seguimiento de los efectos de forma descendente: Data Lineage de Foundry permite a los usuarios rastrear de manera proactiva dónde los problemas de calidad de los datos puedan haber afectado los artefactos posteriores.

Comprobaciones automáticas del estado de los datos: Foundry automatiza las comprobaciones diseñadas para detectar problemas con los datos, ya sea la puntualidad de las actualizaciones de datos, la integridad, la coherencia o incluso la identificación de falta de contenidos, para garantizar una calidad robusta de los datos a gran escala. Las canalizaciones de datos también pueden configurarse para monitorizar estas comprobaciones y evitar la propagación de los datos en caso que alguna de las comprobaciones falle.

Vista de los problemas (Issues) del set de datos

Análisis ad hoc para la comparación de los datos: Foundry proporciona herramientas para que los ingenieros de datos realicen análisis ad hoc para comprender mejor el estado de los datos y sus tendencias a lo largo del tiempo. Esto permite a los ingenieros de datos identificar de manera proactiva patrones anómalos y realizar análisis de raíz en los problemas de los datos.

Calidad, integridad y transparencia de los datos para los consumidores en Foundry

Incluso después de validar metódicamente los datos, el trabajo aún no está terminado: el uso y la interpretación de los datos dependen de los usuarios, y los usuarios varían ampliamente en su enfoque y necesidades. A algunos usuarios no se les exige ni se espera que inspeccionen los datos, otros “confían, pero verifican” y algunos quieren saber cada paso de cómo han sido preparados los datos. Foundry está diseñado para satisfacer las necesidades de muchos de estos perfiles de usuario, proporcionando herramientas para sacar a la luz la información crítica para su trabajo.

Rastreadores de fuentes de datos y catálogos de datos: Foundry permite a los usuarios explorar datos autorizados en toda la organización. Brindar a los usuarios visibilidad sobre su activo de datos es clave para establecer una base de confianza y contexto en la plataforma. Foundry no solo brinda visibilidad de qué datos hay en la plataforma, sino también de los metadatos críticos, como descripciones, clasificaciones y orientación para el uso compartido y el manejo de datos.

Perfiles de datos, documentación y metadatos: Foundry también puede mostrar a los usuarios información contextual junto con los propios datos, como por ejemplo, la falta de datos, limitaciones, rango de tiempo o inquietudes conocidas. Esto permite a todos los usuarios tener el contexto necesario sobre los datos antes de usarlos para la toma de decisiones.

Problemas etiquetados a las columnas: Los conjuntos de datos que se actualizan regularmente cambian y evolucionan con el tiempo: los datos que son saludables hoy pueden no serlo en el futuro. La transparencia en toda la plataforma sobre posibles problemas de datos permite a los usuarios de la plataforma, ingenieros de datos y agencias de propietarios de datos hacer preguntas o señalar posibles problemas sobre los datos, democratizando inspecciones de calidad de los datos.

Trazabilidad visual de los datos: La visibilidad de extremo a extremo desde la integración inicial hasta la limpieza, agregación y análisis de datos permite a los usuarios realizar un seguimiento de cómo se preparan los datos y cómo encaja en el vision general. Esto incluye informes, análisis, modelos y todos los procesos intermedios.

Dotar a los usuarios de transparencia sobre los orígenes, la preparación y las transformaciones de los datos les da confianza en la calidad y la trazabilidad de su información, así como en la validez de los resultados derivados.

Transparencia en los datos para la confianza pública

Para las organizaciones cuyos mandatos y eficacia dependen de la confianza del público, como los departamentos de sanidad pública, la transparencia es de suma importancia. Para fomentar esta confianza, muchas organizaciones publican datos agregados o anonimizados junto con notas detalladas sobre el origen y la preparación de la información, lo que brinda al público información clave sobre los datos que impulsan las decisiones más críticas.

Dicha documentación debe incluir una comunicación clara sobre las fuentes de toda la información relevante, cómo se prepararon los datos y dónde existen fallos en la calidad de los datos. Ser sincero sobre los problemas potenciales demuestra que la organización está actuando de buena fe, utilizando cuidadosamente los datos disponibles y teniendo en cuenta las limitaciones.

Hemos visto ejemplos de esto tanto en el Reino Unido como en los EE. UU., donde brindamos acceso público a datos completos acerca del COVID-19 impulsados por Palantir Foundry, permitiendo no solo una inmensa utilidad para las universidades, los legisladores locales y los ciudadanos, sino también una visibilidad sin precedentes de la calidad y la integridad de los datos publicados a medida que evolucionan con el tiempo. Este nivel de informes de datos públicos también ha creado un circuito de retroalimentación más amplio, ya que las comunidades locales usan los mismos datos nacionales para informar las políticas locales, lo que a su vez mejora la calidad y la recopilación de datos en la fuente.

Creemos que la confianza en los datos es un bien público que evita que las instituciones parezcan estar operando opacamente. Si el público va a confiar en sus instituciones, esa confianza debe construirse sobre una base de transparencia.

Poniendo todo en conjunto

Durante más de 20 años, Palantir ha estado apoyando a sus clientes, Gobiernos y empresas, a afrontar algunos de los desafíos más complejos y críticos de las últimas décadas, y las transformaciones de datos más complejas han dejado claro al menos una cosa: la calidad de los datos requiere un ciclo virtuoso entre productores de datos transparentes y consumidores de datos informados. Tomar mejores y más confiables decisiones con los datos requiere aprovechar las herramientas adecuadas para automatizar y realizar revisiones, proporcionar documentación y comentarios, e interactuar con el contexto completo de la trazabilidad y el historial de los datos. Foundry proporciona todas estas herramientas, junto con la transparencia desde el origen hasta los resultados. Nuestros clientes toman algunas de las decisiones más importantes del mundo y nos enorgullece decir que estamos construyendo las herramientas que permiten a la sociedad confiar en sus datos.

Autora

Alice Yu, responsable de Privacidad, Libertades Civiles y Sanidad Pública y líder del proyecto HHS Protect de respuesta al COVID-19 en EE. UU en 2020.

Confianza en los Datos (Explicando Palantir, #4) was originally published in Palantir Blog on Medium, where people are continuing the conversation by highlighting and responding to this story.