Están los países preparados para abrir sus fronteras ?

Consultores estratégicos en Ciencia de Datos

Están los países preparados para abrir sus fronteras ?

Introducción

por Juan Ignacio Barrios Arce  MD Msc Dsc *

Muchos países principalmente de Europa después de unas muy duras jornadas se aprestan a abrir sus fronteras a partir del 1 de Julio del 2020  con la excusa de reactivar sus deterioradas economías después de la Pandemia. Pero están los países preparados para abrir sus fronteras ?   Ese tráfico será sólo dentro de los llamados “corredores seguros”  de  Europa, o también incluye abrir las rutas aéreas de nuevo hacia América o el Asia ?

Como decidir si es el momento perfecto para esto ?  Talvéz el Indice R0 podría ayudarnos .  Estoy tomando solo algunos bloques de un artículo previo que escribí hace algunos días.  A los lectores que ya tuvieron la grata amabilidad de leerlo,  les pido disculpas por las repeticiones,  ésta vez les prometo que no hay fórmulas complejas ni ecuaciones.  Les aseguro que el resultado les va a gustar  !

Objetivo:

Lo que que se quiere hacer es:  calcular el Indice R0 para todos los países del mundo, la idea es compararlos de forma gráfica, y observar las tendencias del valor de R0 para 220 países que reportan sus datos a través de sus páginas web.  Al ser  humanamente imposible recordar todos los valores , luego de esa fotografía vamos a crear un modelo que ordene de menor a mayor los países de acuerdo valor de R0 y que ademas también los ordene considerando los intervalos de mayor densidad ya en ocasiones países como Costa Rica, que tuvieron la llamada “primera ola” con muy pocos casos, tuvieron n mucha variabilidad entre los datos a (días por ejemplo con sólo 1 caso ó tres casos y otros días con 15 y luego de nuevo 5, etc.  ) , esa característica nos  confiere un Indice de mayor densidad “IMD” muy alto y entonces eso se traduce en que:  el verdadero valor de R0  podría variar entre un rango de límites  superior e inferior muy amplio.    Veamos un ejemplo:

Valores mas probables del Indice R0 para Costa Rica con límites superior e inferior

En este caso el valor de R0 en el día 12 de Junio estaba en un valor mas probable de 1.32 con límites entre 0.9 y 1.76 (esa variabilidad  se debe a que al ser números inicialmente muy pequeños con grandes variaciones a la hora de calcular el Indice los valores probables se observa un rango de incertidumbre mucho mayor. ) Recordemos que :  Error es la diferencia entre el valor medido y el valor verdadero valor del Indice  R0,   mientras que la incertidumbre es una cuantificación de la duda sobre el resultado de esa medida.    Ese conjunto de métricas las vamos a ir midiendo con el Indice de mayor densidad IMD.

 Pero qué es el Índice R0 ?

Se dice que: El valor del Índice R0 es el indicador que debería estar  permitiendo  administrar la Pandemia del COVID19

Los líderes políticos, los epidemiólogos, los economistas y hasta los informáticos están obsesionados con el valor del R0 en estos días.

En epidemiología,  se dice que el número básico de reproducción R0 , o ritmo reproductivo básico (que en realidad NO es una tasa sino una ratio ó una razón ) es el número promedio de casos nuevos que genera un caso dado,  a lo largo de un período infeccioso.  Dicho de otra forma,  es la cantidad de personas que se infectan en promedio a partir de una persona enferma.

Hay enfermedades como el Covid19  donde el R0 tiene un valor promedio  de  2.5 o sea que una misma persona puede contagiar en promedio a 2.5 personas.  El R0 de otras enfermedades infecciosas puede llegar a ser hasta de 18,  por ejemplo en el caso del sarampión lo que la hace una enfermedad altamente contagiosa.

Este concepto se aplica específicamente a una población de personas que previamente estaban libres de infección y no han sido vacunadas.

Cómo calcular el Índice R0.

Es imposible medir el R0 directamente, por lo que tenemos que hacer es:  estimarlo. Afortunadamente, hay muchas formas de hacerlo. A lo largo de este documento presentaré en detalle, un método particular descrito desde el año 2008 por Bettencourt y Ribeiro.  Este documento se titula : “Estimación bayesiana en tiempo real del potencial epidémico de enfermedades infecciosas emergentes”.  Esa estimación utiliza los algoritmos bayesianos (teorema de Bayes)  para estimar el valor más probable de R0 y también devuelve un intervalo posible a modo de límites para el valor verdadero de R0.  De esta forma, aunque no conocemos exactamente su valor,  lo conoceremos con mucha probabilidad, dentro de un rango esperado.

El modelo Bayesiano

El algoritmo original de Bettencourt & Ribeiro para estimar R0 es una función de cuántos casos nuevos aparecen cada día. La relación entre el número de casos de ayer y el número de casos de hoy nos orienta sobre el valor de R0. Sin embargo, no podemos utilizar sólo este dato, ni  confiar demasiado en los datos de un único día para estimar R0, ya que toda la logística de recolección de datos incorpora una cantidad enorme de sesgos.  Ver mi post sobre este tema en este enlace:

Sin embargo, utilizando el Teorema de Bayes, podemos de la información de casos diarios,  ajustar el verdadero valor de R0 .  Nos  acercáremos mas  al valor real de R0  a medida que disponemos  de más datos (en ete caso utilizamos unos 14dias en prioncpio pero ademas se ajusta con el valor logarítmico de esa serie.

El  modelo que utiliza en institutos muy prestigiosos como la Facultad de medicina de la Universidad de Ginebra en conjunto con el el Centro Suizo de Ciencia de Datos  Swiss Data Science Center, ETH Zürich-EPFL,   o el Imperial College de londres creadores del modelo EPIESTIM  son nuestra base de cálculo.

Los valores de R0 para Costa Rica estimados por el Swiss Data Science Center coinciden bastante bien con nuestra estimación  y que se observa en éste gráfico:

Valores reales y observados del valor R0 para Costa Rica con intervalos (12-6-2020)

La fuente de los datos

Hay una importante cantidad de repositorios de los datos de covid19 a nivel mundial,  que actualizan diariamente sus cifras.  Estos sitios recolectan en la mayoría de los casos de forma automática,  ( a través de técnicas de Webscraping ) las cifras que los gobiernos de mas de 220 países publican cada día,

En nuestro caso utilizaremos el repositorio de la Universidad de Johns Hopkins el cual se encuentra también replicado en el MEGA portal de Our World in Data  y que es en estas Pandemia posiblemente el mas usado por su confiabilidad.

El  formato de los datos que se puede obtener es similar al que presento acá abajo ( este es apenas un segmento de esos mega archivos que se pueden descargar de estos repositorios)

Como se puede ver éste archivo tiene  6 variables:  (fecha, Ubicación, nuevos casos, nuevas muertes. total casos, total muertes) pero conforme avanza la pandemia y los días,  el archivo también crece exponencialmente y ya tiene mas de 22.000 renglones.

Webscraping de datos de Costa Rica del repositorio de Johns Hopkins University

Analizando el caso de Costa Rica

Consideraciones Iniciales

 

Echando un vistazo al Ejemplo de Costa Rica, necesitamos comenzar diciendo que el modelo funciona “mejor” cuando hay  un número constante de casos cada día.  En algunos casos  el hecho de que algunos “países” reporten cero casos en un determinado día,  trastoca  el modelo ( por motivo  de la división por cero )  y lo convierte en errático.

Para obtener una  mejor visión de cómo podrían ser los datos “verdaderos”, se aplicó un filtro gaussiano a las series de tiempo . Obviamente, éste es un truco mas de orden visual que busca suavizar la curva . Usualmente esto se hace,  ya que como lo expuse en éste articulo previo es un hecho de que todo el conjunto de procesos que lleva el procesamiento de los datos en el mundo real,  no es tan estocástico como el que al final se presenta en un informe del sistema de salud debidamente validado y ajustado. Veamos una gráfica de los casos diarios de COVID19 en Costa Rica.

En este caso la gráfica se actualiza diariamente de forma dinámica gracias a un  Dashboard  inteligente que hice para Costa Rica y que se puede consultar acá.

Total casos de coronavirus en Costa Rica

 

 

Los primeros resultados del R0

A continuación, se pueden ver todos los días  de esta distribución del día “posterior”   graficados simultáneamente. Las observaciones posteriores comienzan sin mucha confianza (con una gráfica más amplia) y con el paso de los días se vuelven progresivamente más confiables  (o sea más angostos), esto sin duda es la clara representación de lo que al final significa el verdadero valor de   R0

Calculo del dia posterior par evaluar el valor de R0

Calculo del día posterior para evaluar el valor de R0. Costa Rica

Trazado en el dominio de tiempo con valores “creíbles”

Como nuestros resultados todavía presentan  alguna incertidumbre, vamos a colocarlos en una tabla,  y les calcularemos un límite superior y un limite inferior probabilístico con el valor más probable de R0,  utilizando el intervalo de mayor densidad.

La columna RO se refiere al valor “ML” ( most Likelihood) o sea el al valor más probable de R0 en Costa Rica en los últimos 15 días. Las columnas “Low y High” se refieren a los límites superior e inferior de ese valor probable de R0.  Nótese que los valores en el caso de Costa Rica, los datos de R0 (ML) y los valores High y Low presentan un rango muy amplio,  lo que le aumenta significativamente el nivel de incertidumbre a todo el modelo. Esto es una muestra mas , de lo difícil que resulta calcular el Indice R0 en el caso particular de Costa Rica y como veremos mas adelante cuando se compara Costa Rica con otros países,   resulta “castigada”.  Veamos la tabla de los valores de R0 para Costa Rica de los últimos 15 días (Esta imagen se actualiza diariamente en forma  dinámica )

Valores historicos del Indiced r0 par costa Rica

Valores históricos de R0 para Costa Rica

Esto se calculó con ayuda del intervalo de mayor densidad (IMD) y en este caso para el Período comprendido entre el inicio de la Pandemia y el día de hoy (este gráfico también se actualiza diariamente de forma dinámica).

Estos y otros  datos actualizados de COVID19 en Costa Rica  se pueden ver en mi Dashboard

Indice r0 calculado para cad dia desde el inicio de la Pandemias en Costa Rica

Indice r0 calculado para cada día desde el inicio de la Pandemia en Costa Rica

* Las marcas redondas de color rojo están en límites peligrosos,  en donde la probabilidad de infección se multiplica, las marcas redondas de color gris,   están en una zona de "riesgo"  y las marcas de color negro  son los valores en los  días donde hay pocas probabilidades de contagio.  Las bandas de color gris, representan la probabilidad mayor y menor del verdadero valor de R0, y que el algoritmo Bayesiano nos facilitó obtener.  Estas  franjas del Intervalo de mayor densidad IMD,  nos garantizan que el 95% de los valores esperados del R0 se encuentran dentro de esas franjas superior e inferior.

La importancia del valor predictivo del Indice R0

Costa Rica empezó a tener una situación de mayor riesgo como habíamos predicho en nuestra redes a  partir del día 3 de Junio,  en donde era evidente una subida del R0 a partir desde el día 25 de Mayo. el índice estaba por debajo de 1 y empieza a subir a 1.06, luego 1,22, 1,30 , 1.37 y así sucesivamente.

Análisis cantonal en Costa Rica

 

Utilizando los datos que recolecta el Ministerio de Salud y la CCSS ( gracias aporte de la UNED y el proyecto Geovisión A )  vamos a realizar una comparación entre los 81 cantones  y sus cifras de R0 desde el inicio de la pandemia para que de forma visual podamos ver las semejanzas y diferencias entre los mismos.  Pero OJO: que este análisis debería realizarse cada día porque esa es una fotografía en un momento determinado.

Sobra decir que este “trabajito” no fue fácil y exigió un ejercicio de trabajo importante y un procesamiento de muchísima información conjunta.

 

Cálculo del Indice R0 para todos los países. www.juanbarrios.com

Evaluando los resultados :

En este primer cuadro comparativo  tenemos el valor del indice R0 para todos los cantones de Costa Rica  en orden ascendente sin importar el rango de incertidumbre del valor del R0, sencillamente están ordenados del valor mas bajo al mas alto.

Cantones de Costa Rica valores del Indice R0 de Covid19 al 11-6-2020 ordenados de acuerdo a valor medio esperado.

Cantones de Costa Rica valores del Indice R0 de Covid19 al 11-6-2020 ordenados de acuerdo a valor medio esperado.

En el segundo grupo  colocamos  de la misma forma a todos los cantones con sus  valores de R0 pero  considerando los valores y además sus  rangos de incertidumbre .

Cantones de Costa Rica valores del Indice R0 de Covid19 al 11-6-2020 ordenados de acuerdo a los valores del intervalo superior

Cantones de Costa Rica valores del Indice R0 de Covid19 al 11-6-2020 ordenados de acuerdo a valores de los limites

Si quisiéramos establecer una regla de decisión por cantón para decidir Al igual en los países,  cuáles cantones están en una situación en control o sin control, tendríamos que decir que en este momento NO es posible por las magnitudes de los números y por ende por las incertidumbres implícitas a esta condición,  establecer cuáles cantones  están en riesgo y los que están sin riesgo . ( Los cantones con mas baja incertidumbre son san José central y Alajuela  pero aún estos están altos. )

 

Análisis mundial  ( modelo comparativo para todos los países)

Como mencionamos al  inicio,  vamos a utilizar los datos que recolecta la Universidad de J. Hopkins para calcular el valor de R0 para todos los países desde el inicio de la Pandemia y  realizar una comparación entre ellos,  con el fin de evaluar si están los países preparados para abrir sus fronteras. Veremos  de forma visual  las semejanzas y diferencias entre los mismos.  Pero debemos prestar especial atención a este análisis que debería realizarse cada día,  ya que esta es solo una fotografía en un momento determinado y el virus por razones obvias se comporta dinámicamente.

Cálculo y graficado del Indice R0 para todos los países al 12-6-2020

Modelo de clasificación automática

Sobre la base de los graficos anteriores construimos  una regla que nos permite  comparar territorios, me refiero a países, pero también podrían ser cantones o Provincias o pueblos o lo que queramos y clasificarlos en “territorios en condiciones para abrir  fronteras ó  movilidad entre vecinos o por el contrario territorios que deben “esperar” . ( o lo que es lo mismo:  en control o fuera de control)

Como se podrán imaginar este análisis ha requerido no sólo muchas horas de procesamiento, así como horas de análisis y transformación de datos.

Resultados:

En el primer conjunto de 2 cuadros tenemos el valor del indice R0 para todos los países en orden ascendente sin importar el rango de incertidumbre del valor del R0, sencillamente están ordenados del valor de R0 mas bajo al sitio con valor mas alto.

En el segundo grupo  colocamos  de la misma forma a todos los países con los valores de R0 PERO considerando no sólo  los valores sino que ademas los rangos de incertidumbre  ( en este caso por ejemplo Costa Rica que tiene un rango muy amplio y por tanto el valor superior del rango de ese R0 nos coloca en a posición desventajosa.)

Los últimos dos  cuadros  son los de acuerdo al modelo, los valores de R0 y sus límites nos indican que están BAJO control o que están FUERA de CONTROL, en ese caso los países con rangos de incertidumbre altos NO pueden ser evaluados porque el valor de R0 es incierto.  Este conjunto de vcariuables sin duda orienta a los ssalubristas a determinar si están los países preparados para abrir sus fronteras

LISTADO DE PAÍSES ORDENADOS DE MENOR A MAYOR POR EL INDICE R0

PAÍSES ORDENADOS DE MENOR A MAYOR POR EL INDICE R0 -SEGUNDO BLOQUE

GRUPO DE PAÍSES ORDENADOS DE MENOR A MAYOR POR EL INDICE R0 ORDENADOS POR LIMITE SUPERIOR DE INCERTIDUMBRE

CONJUNTO DE PAÍSES ORDENADOS DE MENOR A MAYOR POR EL INDICE R0 ORDENADOS POR LIMITE SUPERIOR DE INCERTIDUMBRE — Obsérvese el caso de Costa Rica en donde la alta variabilidad de sus datos nos castiga por tener de acuerdo a nuestro modelo un límite del rango superior tan elevado….

 

Nota: los países que no aparecen en estas últimas 2 categorías ( p.e. Costa Rica)  son países en donde el valor del Indice R0 y sus características de incertidumbre (error) son tal altas,  que impiden al modelo clasificarlo de manera adecuada.

 

 

 

 

 

Bibliografía:

1. Como se calcula el RO ?

a.) Modelo de La Universidad  de Ginebra . Suiza. Swiss Data Science Center

https://shiny.dide.imperial.ac.uk/epiestim/

b.) Modelo de la Imperial college de Londres:

https://renkulab.shinyapps.io/COVID-19-Epidemic-Forecasting/

3. Ridenhour, Kowalik y Sahay, El numero reproductivo básico y sus consideraciones en salud pública.

https://www.scielosp.org/pdf/rpsp/2015.v38n2/167-17

4. James Holland. Stanford University. Notes on R0

https://web.stanford.edu/~jhj1/teachingdocs/Jones-on-R0.pdf

5. Scire, Nadeau, Vaugnan y cols.  Reproductive number of the COVID-19 epidemic in Switzerland

https://smw.ch/article/doi/smw.2020.20271

6. Kevin Systrom. Modelos de corona virus en los EUA. Los EUA ante un  umbral peligroso

https://github.com/k-sys/

  1. Predictive Monitoring of COVID 19. Singapur Data Driven Inovation Lab

https://ddi.sutd.edu.sg/

  1. Universidad  de Ginebra . Suiza. Swiss Data Science Center

https://renkulab.shinyapps.io/COVID-19-Epidemic-Forecasting/

Nota:

Se agradece la ayuda y participación de muchos amigos y colegas alrededor del mundo, en especial de :  Dr. Álvaro Salas Chaves, y de  nuestro compañero Ashik Mohamm.

* El autor es informático médico, máster en Business Intelligence y especialista en BIG DATA y Ciencia de Datos, aplica modelos de Machine Learning y de Inteligencia Artificial en el campo de la salud. Actualmente reside en Barcelona y colabora en la cátedra de Informática Médica de la Universidad de Barcelona, como profesor visitante.

2 Responses

  1. Freddy chaves dice:

    Increíble lo completo del análisis lo felicito

  2. Estimado Juan. Como siempre es maravilloso el trabajo que haces . Hoy en dia solo Podemos ver en general informacion de las situaciones actulaes pero si proyecciones. Tu modelo me parece debe ser usado seriamente por goviernos y organismos internacionales .

    Solo tengo una pregunta : Tu modelo contempla la variable de influencia internacional , me refiero el analisis de proyecciones en Europa con paises de Euro[pa debe ser dieferente se se considera otras Regiones con incremento de casos COVID-19

    Saludos

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *