La importancia de los datos en salud
En las últimas semanas y con relación a la Emergencia sanitaria que vivimos, nos estamos enfrentando a un tema que para algunos podría pasar desapercibido: EL DATO. De ahí la importancia de los datos en salud .
Es innegable la importancia del dato. Esperamos con ansias las conferencias de prensa donde las autoridades nos presentan con base en los últimos datos el avance o retroceso de la Pandemia. Y es que todos confiamos en que los datos que nos están dando son verídicos y que por tanto tambien las acciones y decisiones que se están tomando se realizan con base en ese precepto: VERACIDAD.
Las características del dato en salud
Nos preguntamos a veces: ¿Son verdaderamente ciertos los datos presentados? – Nos hemos puesto a pensar la interminable cadena humana que interviene para suministrarnos ese DATO FINAL.?
El dato es un elemento cada vez mas complejo y por tanto, cada vez más SENSIBLE.
Hace algunos años los que trabajamos con datos, hablábamos de las 3, las 4 y las 5 «V»refiriéndonos a:
-
• VERACIDAD: Grado de fiabilidad del dato.
-
• VOLUMEN: Cantidad de datos disponibles.
-
• VELOCIDAD: Velocidad en la que los datos se multiplican.
-
• VARIEDAD: Se refiere a los medios, los tipos y las fuentes de donde se obtienen los datos.
Recientemente con el BIG DATA se habla de las 8 “V” del BIG DATA, lo que nos coloca en una mejor perspectiva sobre la complejidad de este tema.
Para contextualizar esto de mejor forma veamos:
El Ciclo de vida de los datos
La vida del dato arranca con los procesos de captura, y concluye con el archivo o desecho del mismo.
En este ciclo describimos 6 FASES:
-
Captura / Creación / Recolección del Dato.
En esta fase, se trata de “adquirir” por diversos medios los datos,
Los métodos de recolección incluyen:
-
-
- Métodos Manuales (cuando por ejemplo recogemos “a mano” datos de un paciente en la Historia Clínica)
-
-
-
- Métodos Automáticos (cuando a través de nuestras acciones diarias, los sistemas informáticos van registrando actividades, consumos, tiempos,)Esta recolección también se puede realizar a través de dispositivos automáticos. Otra forma de recoger datos para los sistemas de información son las técnicas de webscraping, (métodos automáticos de captura de información en las páginas web)
-
-
Almacenamiento.
Acá se incluyen todos los procedimientos enfocados a conservar el dato mientras es procesado. Y aquí se define: ¿dónde almacenarlo ?, ¿de qué forma ?, en qué formato?, ¿por cuánto tiempo?
-
Procesamiento del Dato
El objetivo de esta fase es procesar preliminarmente el dato. Este procesamiento incluye tareas de integración, limpieza, enriquecimiento, así como procesos de extracción, transformación y carga del dato (conocidos en inglés como ETL – (extract, transform, and load).
-
Uso del Dato
Una vez que el dato ha sido capturado, almacenado y procesado con las respectivas transformaciones que pudiese haber sufrido, la Organización lo podrá utilizar para diversos fines.
La Organización también definirá de qué forma lo utilizarán, quiénes podrán usarlo (uso permitido del dato), a través de qué medios las personas tendrán acceso a él, y por cuanto tiempo.
-
Publicación / Envío del Dato
En esta fase el dato procesado y transformado se pone a disposición de otros usuarios tanto internos como externos de la Organización (web, Intranet, publicaciones escritas, publicaciones digitales, presentaciones, conferencias, etc.
-
Archivo y /o Eliminación de Datos
Esta fase se caracteriza porque se aplican mecanismos para conservar los datos en un entorno donde serán almacenados conservando en todo momento su vigencia en el tiempo y permitiendo que sean leídos / recuperados de cara al futuro y que de acuerdo a las normas legales y las política internas de las Organizaciones y que al final puedan ser desechados de la forma adecuada.
Obteniendo Conocimiento a partir de los datos. El proceso KDD
Recientemente con la introducción del BIG DATA, las técnicas de procesamiento de datos han sufrido cambios importantes. En principio el propósito del dato es generar conocimiento y esto actualmente el BIG DATA lo hace en estas 5 fases:
-
1.SELECCIÓN:
-
En esta etapa se seleccionan las fuentes y se capturan los datos. Específicamente en lo que a captura refiere podremos utilizar varios instrumentos y técnicas que podrían incluir la digitalización, el reconocimiento óptico de caracteres u «OCR» , o también los medios manuales de captura, (digitación)
-
2.PRE PROCESADO:
-
El Pre-procesado de datos se podría considerar el paso previo a las labores de Minería de datos. El procesado de los datos siempre es necesario y mejora sustancialmente las etapas posteriores del KDD, sin embargo, no siempre recibe la atención requerida.
-
3.TRANSFORMACION:
-
Esta etapa se incorporan procesos cada vez más sofisticados en los que se busca crear nuevos atributos o variables a partir de los datos originales. ( Por ejemplo cuando cruzamos el valor de peso y la talla y obtenemos el Indice de Masa corporal podría tener esto mas valor que el dato de peso «crudo»
-
Estos cambios considerados modificaciones “sintácticas” se llevan a cabo sobre los datos, pero sin que esto a futuro implique cambios en las técnicas de minería que vayamos a utilizar. Las transformaciones de los datos sin duda contribuirán a los datos de bajo nivel pasen a alto nivel. La trasformación es un insumo vital para los procesos de minería y de Machine Learning (aprendizaje automático).
-
4.MINERIA DE DATOS
-
Una vez transformados los datos, existen una serie de metodologías (modelos, algoritmos, herramientas, técnicas) que pueden ser aplicadas según el tipo de resultado que se busca. A stas metodología se le conoce como «Minería de datos», y se entiende como: el proceso a través del cual se extrae información de un conjunto de datos, gracias a la identificación de patrones comprensibles y sus relaciones. Las técnicas de aprendizaje automático favorecen además la visualización de patrones ocultos en los datos.
-
5.INTERPRETACIÓN Y EVALUACIÓN:
-
Durante esta etapa, se pretende es que el investigador a través de las técnicas anteriormente usadas, logre explicar: Cómo esos fenómenos condicionaron determinados comportamientos ? El investigador en etsa etapa compara los objetivos e hipótesis iniciales con los resultados obtenidos y así logra explicar determinados comportamientos. En caso de que fuese necesario, se replantear las investigaciones o profundizar en otras áreas que puedan explicar los hallazgos.
El procesamiento de los datos en el campo de la salud
Para aumentarle la complejidad a este tema, usualmente en el sector salud los pasos para la captura de los datos se multiplican de forma exponencial por la cantidad de procesos que intervienen. Además, consideremos que en los procesos informatizados en salud hay suficiente espacio para problemas en la transcripción del dato.
Es obligatorio que las Organizaciones utilicen métodos para “validar” la calidad del dato. En sistemas informáticos se usan las validaciones “en línea”, sistemas cruzados, etc. También se norma procedimientos que buscan asegurar la máxima calidad del dato.
Cuando hablamos de calidad del dato ninguna sale sobrando. Por laborioso que puede parecer un procedimiento nunca resultará suficiente. Acá queremos insistir que buscamos la VERACIDAD y OPORTUNIDAD. Ya habrán vivido en éstos días lo SENSIBLE que puede resultar ese dato final.
La importancia de las normas (Las reglas del juego) :
En todas las Organizaciones se definen las reglas de las categorías, las normas de cada proceso y los métodos a través de los cuales se incorporan datos en los registros de salud.
Pongamos un ejemplo: En España en ocasión de la epidemia del Coronavirus se venían realizando pruebas serológicas únicamente a la población con síntomas severos y no a los sintomáticos leves o menos aun a los pacientes asintomáticos, si a partir de ahora se realizan pruebas a toda la población el numero esperado de “positivos” aumentará y esto estaría inflando los números de manera “artificial”.
Una posible solución podría ser contabilizar por separados los positivos asintomáticos para poder hacer las series comparables ….
Los nuevos perfiles que administran los datos en las Organizaciones.
El perfil mas novedoso en el manejo de datos en la actualidad lo constituye el Chief Data Officer CDO ( un experto de los datos de la Organizaciones que ocupa un puesto en la Junta Directiva) además se tornan importantes el científico de datos (experto que diseña las arquitecturas de datos y luego analiza los datos a través de técnicas de BIG DATA ).
También debería incorporarse un Ingeniero de Machine Learning ( el experto que aplica los algoritmos de Inteligencia Artificial a los conjuntos de datos a través de técnicas de programación ) El ingeniero de datos (preparar todo el ecosistema para que los demás puedan obtener sus datos limpios y preparados para su análisis ) y además perfiles tradicionales tales como: el estadístico, el matemático, el economista, el analista de negocio, el data steward, el data citizen.
Conclusiones:
La importancia del dato es cada día mas evidente. Hay estudios que demuestran que en esta época el activo mas importante de las Organizaciones son sus datos.
Los datos no dependen en exclusiva de los sistemas informáticos, ya que los datos los manipulamos los seres humanos y si en cada una de estas etapas no ponemos el énfasis como corresponde, el resultado de cualquier evento podría terminar siendo muy diferente.
La habilidad de los científicos de datos será el de velar porque en todas las etapas y pasos que hemos visto con anterioridad se ponga el esfuerzo para que el dato final sea de la mayor calidad.
-
* El autor Dr. Juan I. Barrios es médico especialista en Informática médica, es máster en Business Intelligence y experto en BIG DATA y Ciencia de datos. Su trabajo consiste la aplicación de modelos de de Inteligencia artificial en el campo de la salud . Reside en la ciudad de Barcelona, donde colabora en la cátedra de Informática Médica de la Universidad de Barcelona, como profesor visitante. Tambien es faculty member de la Universidad de Rochester en los EUA