Privacidad de datos y modelos de anonimización

Consultores estratégicos en Ciencia de Datos

Privacidad de datos y modelos de anonimización

Preservar la privacidad de datos es crucial en todo proceso de BIG DATA, al igual que los modelos de anonimización.

Principalmente en el sector de la salud . Conviene repasar los principios del triángulo de la seguridad de los datos,  también conocido como el triángulo CIA:

 

Privacidad de datos y modelos de anonimización

Privacidad de datos y modelos de anonimización

Este triángulo considera que los tres elementos deben estar en armonía…

La confidencialidad con aspectos como el control de accesos a aplicaciones, sistemas y computadores, sistemas de anonimización..

En segundo término tenemos la Disponibilidad, asegurando mecanismos de acceso a los datos, prevención de pérdida y de inactividad y  por último la Integridad buscando tener un inventario de los datos.

Identificando los posibles riesgos por daño personal y posibles desajuste de los registros.

¿De dónde viene esta preocupación?

Ya desde el año 2004 el Comité asesor de tecnologías de Información de los EUA en un afán de mejora la calidad y disponibilidad de información de registros médicos publicó el informe “Revolucionando la atención sanitaria a través de las tecnologías de información”, uno de los puntos clave del informe, fué el de establecer un sistema nacional de registros médicos electrónicos que fomentara el intercambio de conocimiento médico.

Sin embargo, otros esfuerzos de empresas similares por publicar datos con fines de intercambio, terminaron en fracasos y altercados legales, por lo que tuvieron que retirar los datos de sitios publicos porque en algunos casos, era posible relacionar los casos con las personas, violando así el principio de preservación de la privacidad en la publicación de datos (privacy-preserving data publishing o PPDP).

A partir de ese momento, todo proceso de captura de información donde se involucren datos personales,  deberá preservar estos principios, contando par ello  con mecanismos de Anonimización o Preservación de la Privacidad.

 

Los atributos de la información en Salud:

En los Registros de Salud desde el punto de vista de privacidad y Anonimización hablamos de 4 tipos de atributos (variables)

  • Los identificadores: tales como nombre, cédula, sexo, edad
  • Los cuasi identificadores: tales como los datos que de manera indirecta ayudan a identificar un individuo, como nombre de los padres, dirección, lu
  • Los datos sensibles: Los que están relacionados con enfermedades, salario percibido, preferencias sexuales o creencias religiosas.
  • Los datos no sensibles: Es información de carácter general o especifica que no permite identificar a la persona como un resultado de laboratorio, o un dato de historia clínica familiar sin especificación.

Pero ocurre un problema !

Sin embargo y aún eliminando los datos identificadores, investigadores que demostraron que todavía era posible identificar personas específicas por ejemplo por su lugar de residencia, sexo, edad y enfermedad lo que obligó a desarrollar mecanismos aún más sofisticados para “anonimizar” los datos.  Al dia de hoy hay una gran cantidad de métodos y técnicas.A pesar que los procesos PPDP,  persiguen anonimizar los datos también es cierto que en estos casos también se busca que la información que se desea analizar no pierda valor después de los procesos efectuados (De acuerdo al tercer elemento o Availability o Disponibilidad de los datos).

Hay que reconocer que hay un punto de “no retorno” en donde el conjunto de datos una vez anonimizado se vuelve inservible y es ahí donde está el arte del científico de datos o del data “steward” de buscar ese balance.

Hay varias técnicas de Anonimización y cada día surgen más algoritmos que buscan ocultar información. Que permita la identificación especifica de un individuo utilizando medidas razonablemente intensivas.

Diferentes modelos de Anonimización

  •  Modelos de protección:

Protección no interactiva.

  Se produce un conjunto de datos “protegido” en donde resulta imposible con métodos razonables identificar un paciente. es usado en investigaciones de caracter general cuando se publican datos para múltiples propósitos.

Protección interactiva:

Se realiza una consulta al grupo de datos principal y se devuelve un resultado protegido de los datos.  Se utiliza en investigaciones dirigidas cuando de antemano se conoce el tipo de analisis y las variables a utilizar.

 

  • Métodos de aleatorización:

En este tipo de procesos, lo que se hace es introducir “ruido “en los datos a través de fórmulas, sin embargo, este tipo de métodos no funciona de manera adecuada, cuando en el conjunto de datos hay “valores extremos”.

Por ejemplo un paciente con un peso de más de 240 Kg de peso, o menos de 50Kg son fácilmente identificables.

La cantidad de ruido que se introduzca en el conjunto de datos, debe ser tal que no afecte el resultado final del análisis y que tampoco afecte a la totalidad de los casos. Las afectaciones se realizan con el único propósito de “volver inidentificables los casos”

 

  • El modelo k-anonymity (K-anonimato)  

Este modelo detrás del concepto fue formulado por primera vez por Latanya Sweeney en un trabajo publicado en 2002 con el objeto de resolver el problema: “Dados unos datos estructurados con campos específicos personales como poder asegurar con garantía científica, que en una nueva versión modificada de estos datos no se puedan re identificar los individuos a los que se refieren, a la vez que los datos sigan siendo útiles en la práctica.”

Se dice que un conjunto de datos publicados tiene la propiedad de k-anonimato (o es k-anónimo), si la información de todas y cada una de las personas contenidas en ese conjunto es idéntica al menos con otras k-1. Personas que también aparecen en dicho conjunto, varios procedimientos para generar datos anonimizados con k-anonimato que han sido patentados en los Estados Unidos.

Ejemplos de k-anonimato

En el contexto del k-anonimato, una base de datos es una tabla con n filas y m columnas. Cada fila de la tabla representa un registro relacionando con un miembro concreto de una población. Los valores en las columnas corresponden a los atributos que se asocian con los miembros de la población. La tabla siguiente es una base de datos no anonimizada que incluye los registros de pacientes ficticios.

 

Hay  6 atributos (variables) y 10 registros (pacientes) en estos datos. Hay dos métodos comunes para obtener k-anonimato para un cierto valor deseado de k.

  1. Supresión: En este método, algunos valores de los atributos se pueden reemplazar  por un asterisco ‘*’. Todos o algunos de los valores de una columna pueden ser reemplazados por ‘*’. En la tabla anonimizada inferior, todos los valores en el atributo ‘Nombre’ y en el atributo ‘religión’ han sido reemplazado por un ‘*’

 

    2. Generalización (agrupamiento ) : En este método, los valores individuales de atributos son reemplazados por una categoría más amplia (grupos de edad por ej) . Por ejemplo, el valor ’19’ del atributo ‘        Edad’ puede ser reemplazado por ‘ ≤ 20′, el valor ’23’ por ’20 < Edad ≤ 30′ , etc.

A continuación, la base de datos anonimizada.

Esquema privacidad de datos y modelos de anonimización

Esquema privacidad de datos y modelos de anonimización

Estos datos son 2-anónimos respecto a los atributos ‘Edad’, ‘Género’ y ‘Estado de residencia’, ya que para cualquier combinación de estos atributos encontrados en cualquier fila de la tabla existen al menos 2 filas con idénticos atributos. Los atributos disponibles para un adversario son cuasi identificadores. Pero hay que considerar que cada dupla (grupo de datos) cuasi identificador se presenta en al menos k registros, para un conjunto de datos con k-anonimato​

Meyerson y Williams (2004) demostraron que el k-anonimato es un problema NP-completo; no obstante con métodos heurísticos como el de k-optimización propuesto por Bayardo y Agrawal (2005) a menudo se obtienen resultados muy eficaces

  • El modelo de privacidad diferencial

Este modelo busca para proteger los resultados de las consultas a una base de datos de manera interactiva. El modelo se ubica entre investigador y  “administrador” virtual que maneja un algoritmo.

Por tanto, la privacidad diferencial es una condición en el mecanismo de publicación, no en el conjunto de datos en sí.

Osea que los datos siguen estando iguales excepto que a la hora de consultarlos o publicarlos se anonimizan.

En resumen, resulta   de gran utilidad porque precisamente lo que se busca con la preservación de la privacidad,  es que los datos de una persona en particular, no afecten el resultado final del análisis.

Conclusión:

Si se desea proteger la privacidad de los pacientes en cualquier tipo de análisis de minería,  es necesario someter los datos a procesos de Anonimización.

Los métodos no interactivos son sin duda la mejor opción si de publicar datos de forma masiva para múltiples propósitos. Si se desean realizar análisis específicos sobre datos conocidos los métodos interactivos son la solución adecuada.

Los métodos aleatorios tienen la ventaja de su bajo costo, PERO no garantizan la privacidad completa de los pacientes por los retos que representan los cuasi identificadores.

El modelo de k-anonimato también tiene sus ventajas y desventajas.  Es muy útil y eficaz pero el “data steward” necesita conocer muy bien las variables cuasi identificadoras para poder garantizar que no se logre un cruce “indebido” entre ellas, y esto no permita la identificación de un paciente con esfuerzos “razonables”.   El costo de aplicar modelos de k-anonimato suele ser más alto.

Por último el modelo privado diferencial (basado en un modelo interactivo) no publica directamente los datos,  sino sus resultados por lo que resulta un modelo muy usado entre los investigadores.

Como hemos podido observar de los modelos presentados, ningún modelo es perfecto, ni aporta todas las garantías desde el punto de vista de privacidad del paciente ni de Disponibilidad para el Investigador.

Por lo que posiblemente la aplicación conjunta de varias técnicas sea la mejor opción.

Artículo escrito por el Dr. Juan I. Barrios Arce , actualizado de la versión original de Julio del 2017. (Barcelona 2019)

 

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *