Están los países preparados para abrir sus fronteras ?
Introducción
por Juan Ignacio Barrios Arce MD Msc Dsc *
Muchos países principalmente de Europa después de unas muy duras jornadas se aprestan a abrir sus fronteras a partir del 1 de Julio del 2020 con la excusa de reactivar sus deterioradas economías después de la Pandemia. Pero están los países preparados para abrir sus fronteras ? Ese tráfico será sólo dentro de los llamados «corredores seguros» de Europa, o también incluye abrir las rutas aéreas de nuevo hacia América o el Asia ?
Como decidir si es el momento perfecto para esto ? Talvéz el Indice R0 podría ayudarnos . Estoy tomando solo algunos bloques de un artículo previo que escribí hace algunos días. A los lectores que ya tuvieron la grata amabilidad de leerlo, les pido disculpas por las repeticiones, ésta vez les prometo que no hay fórmulas complejas ni ecuaciones. Les aseguro que el resultado les va a gustar !
Objetivo:
Lo que que se quiere hacer es: calcular el Indice R0 para todos los países del mundo, la idea es compararlos de forma gráfica, y observar las tendencias del valor de R0 para 220 países que reportan sus datos a través de sus páginas web. Al ser humanamente imposible recordar todos los valores , luego de esa fotografía vamos a crear un modelo que ordene de menor a mayor los países de acuerdo valor de R0 y que ademas también los ordene considerando los intervalos de mayor densidad ya en ocasiones países como Costa Rica, que tuvieron la llamada «primera ola» con muy pocos casos, tuvieron n mucha variabilidad entre los datos a (días por ejemplo con sólo 1 caso ó tres casos y otros días con 15 y luego de nuevo 5, etc. ) , esa característica nos confiere un Indice de mayor densidad «IMD» muy alto y entonces eso se traduce en que: el verdadero valor de R0 podría variar entre un rango de límites superior e inferior muy amplio. Veamos un ejemplo:
En este caso el valor de R0 en el día 12 de Junio estaba en un valor mas probable de 1.32 con límites entre 0.9 y 1.76 (esa variabilidad se debe a que al ser números inicialmente muy pequeños con grandes variaciones a la hora de calcular el Indice los valores probables se observa un rango de incertidumbre mucho mayor. ) Recordemos que : Error es la diferencia entre el valor medido y el valor verdadero valor del Indice R0, mientras que la incertidumbre es una cuantificación de la duda sobre el resultado de esa medida. Ese conjunto de métricas las vamos a ir midiendo con el Indice de mayor densidad IMD.
Pero qué es el Índice R0 ?
Se dice que: El valor del Índice R0 es el indicador que debería estar permitiendo administrar la Pandemia del COVID19
Los líderes políticos, los epidemiólogos, los economistas y hasta los informáticos están obsesionados con el valor del R0 en estos días.
En epidemiología, se dice que el número básico de reproducción R0 , o ritmo reproductivo básico (que en realidad NO es una tasa sino una ratio ó una razón ) es el número promedio de casos nuevos que genera un caso dado, a lo largo de un período infeccioso. Dicho de otra forma, es la cantidad de personas que se infectan en promedio a partir de una persona enferma.
Hay enfermedades como el Covid19 donde el R0 tiene un valor promedio de 2.5 o sea que una misma persona puede contagiar en promedio a 2.5 personas. El R0 de otras enfermedades infecciosas puede llegar a ser hasta de 18, por ejemplo en el caso del sarampión lo que la hace una enfermedad altamente contagiosa.
Este concepto se aplica específicamente a una población de personas que previamente estaban libres de infección y no han sido vacunadas.
Cómo calcular el Índice R0.
Es imposible medir el R0 directamente, por lo que tenemos que hacer es: estimarlo. Afortunadamente, hay muchas formas de hacerlo. A lo largo de este documento presentaré en detalle, un método particular descrito desde el año 2008 por Bettencourt y Ribeiro. Este documento se titula : “Estimación bayesiana en tiempo real del potencial epidémico de enfermedades infecciosas emergentes”. Esa estimación utiliza los algoritmos bayesianos (teorema de Bayes) para estimar el valor más probable de R0 y también devuelve un intervalo posible a modo de límites para el valor verdadero de R0. De esta forma, aunque no conocemos exactamente su valor, lo conoceremos con mucha probabilidad, dentro de un rango esperado.
El modelo Bayesiano
El algoritmo original de Bettencourt & Ribeiro para estimar R0 es una función de cuántos casos nuevos aparecen cada día. La relación entre el número de casos de ayer y el número de casos de hoy nos orienta sobre el valor de R0. Sin embargo, no podemos utilizar sólo este dato, ni confiar demasiado en los datos de un único día para estimar R0, ya que toda la logística de recolección de datos incorpora una cantidad enorme de sesgos. Ver mi post sobre este tema en este enlace:
Sin embargo, utilizando el Teorema de Bayes, podemos de la información de casos diarios, ajustar el verdadero valor de R0 . Nos acercáremos mas al valor real de R0 a medida que disponemos de más datos (en ete caso utilizamos unos 14dias en prioncpio pero ademas se ajusta con el valor logarítmico de esa serie.
El modelo que utiliza en institutos muy prestigiosos como la Facultad de medicina de la Universidad de Ginebra en conjunto con el el Centro Suizo de Ciencia de Datos Swiss Data Science Center, ETH Zürich-EPFL, o el Imperial College de londres creadores del modelo EPIESTIM son nuestra base de cálculo.
Los valores de R0 para Costa Rica estimados por el Swiss Data Science Center coinciden bastante bien con nuestra estimación y que se observa en éste gráfico:
La fuente de los datos
Hay una importante cantidad de repositorios de los datos de covid19 a nivel mundial, que actualizan diariamente sus cifras. Estos sitios recolectan en la mayoría de los casos de forma automática, ( a través de técnicas de Webscraping ) las cifras que los gobiernos de mas de 220 países publican cada día,
En nuestro caso utilizaremos el repositorio de la Universidad de Johns Hopkins el cual se encuentra también replicado en el MEGA portal de Our World in Data y que es en estas Pandemia posiblemente el mas usado por su confiabilidad.
El formato de los datos que se puede obtener es similar al que presento acá abajo ( este es apenas un segmento de esos mega archivos que se pueden descargar de estos repositorios)
Como se puede ver éste archivo tiene 6 variables: (fecha, Ubicación, nuevos casos, nuevas muertes. total casos, total muertes) pero conforme avanza la pandemia y los días, el archivo también crece exponencialmente y ya tiene mas de 22.000 renglones.
Analizando el caso de Costa Rica
Consideraciones Iniciales
Echando un vistazo al Ejemplo de Costa Rica, necesitamos comenzar diciendo que el modelo funciona «mejor» cuando hay un número constante de casos cada día. En algunos casos el hecho de que algunos «países» reporten cero casos en un determinado día, trastoca el modelo ( por motivo de la división por cero ) y lo convierte en errático.
Para obtener una mejor visión de cómo podrían ser los datos «verdaderos», se aplicó un filtro gaussiano a las series de tiempo . Obviamente, éste es un truco mas de orden visual que busca suavizar la curva . Usualmente esto se hace, ya que como lo expuse en éste articulo previo es un hecho de que todo el conjunto de procesos que lleva el procesamiento de los datos en el mundo real, no es tan estocástico como el que al final se presenta en un informe del sistema de salud debidamente validado y ajustado. Veamos una gráfica de los casos diarios de COVID19 en Costa Rica.
En este caso la gráfica se actualiza diariamente de forma dinámica gracias a un Dashboard inteligente que hice para Costa Rica y que se puede consultar acá.
Los primeros resultados del R0
A continuación, se pueden ver todos los días de esta distribución del día «posterior» graficados simultáneamente. Las observaciones posteriores comienzan sin mucha confianza (con una gráfica más amplia) y con el paso de los días se vuelven progresivamente más confiables (o sea más angostos), esto sin duda es la clara representación de lo que al final significa el verdadero valor de R0
Trazado en el dominio de tiempo con valores «creíbles»
Como nuestros resultados todavía presentan alguna incertidumbre, vamos a colocarlos en una tabla, y les calcularemos un límite superior y un limite inferior probabilístico con el valor más probable de R0, utilizando el intervalo de mayor densidad.
La columna RO se refiere al valor «ML» ( most Likelihood) o sea el al valor más probable de R0 en Costa Rica en los últimos 15 días. Las columnas «Low y High» se refieren a los límites superior e inferior de ese valor probable de R0. Nótese que los valores en el caso de Costa Rica, los datos de R0 (ML) y los valores High y Low presentan un rango muy amplio, lo que le aumenta significativamente el nivel de incertidumbre a todo el modelo. Esto es una muestra mas , de lo difícil que resulta calcular el Indice R0 en el caso particular de Costa Rica y como veremos mas adelante cuando se compara Costa Rica con otros países, resulta «castigada». Veamos la tabla de los valores de R0 para Costa Rica de los últimos 15 días (Esta imagen se actualiza diariamente en forma dinámica )
Valores históricos de R0 para Costa Rica
Esto se calculó con ayuda del intervalo de mayor densidad (IMD) y en este caso para el Período comprendido entre el inicio de la Pandemia y el día de hoy (este gráfico también se actualiza diariamente de forma dinámica).
Estos y otros datos actualizados de COVID19 en Costa Rica se pueden ver en mi Dashboard
* Las marcas redondas de color rojo están en límites peligrosos, en donde la probabilidad de infección se multiplica, las marcas redondas de color gris, están en una zona de "riesgo" y las marcas de color negro son los valores en los días donde hay pocas probabilidades de contagio. Las bandas de color gris, representan la probabilidad mayor y menor del verdadero valor de R0, y que el algoritmo Bayesiano nos facilitó obtener. Estas franjas del Intervalo de mayor densidad IMD, nos garantizan que el 95% de los valores esperados del R0 se encuentran dentro de esas franjas superior e inferior.
La importancia del valor predictivo del Indice R0
Costa Rica empezó a tener una situación de mayor riesgo como habíamos predicho en nuestra redes a partir del día 3 de Junio, en donde era evidente una subida del R0 a partir desde el día 25 de Mayo. el índice estaba por debajo de 1 y empieza a subir a 1.06, luego 1,22, 1,30 , 1.37 y así sucesivamente.
Análisis cantonal en Costa Rica
Utilizando los datos que recolecta el Ministerio de Salud y la CCSS ( gracias aporte de la UNED y el proyecto Geovisión A ) vamos a realizar una comparación entre los 81 cantones y sus cifras de R0 desde el inicio de la pandemia para que de forma visual podamos ver las semejanzas y diferencias entre los mismos. Pero OJO: que este análisis debería realizarse cada día porque esa es una fotografía en un momento determinado.
Sobra decir que este «trabajito» no fue fácil y exigió un ejercicio de trabajo importante y un procesamiento de muchísima información conjunta.
Evaluando los resultados :
En este primer cuadro comparativo tenemos el valor del indice R0 para todos los cantones de Costa Rica en orden ascendente sin importar el rango de incertidumbre del valor del R0, sencillamente están ordenados del valor mas bajo al mas alto.
En el segundo grupo colocamos de la misma forma a todos los cantones con sus valores de R0 pero considerando los valores y además sus rangos de incertidumbre .
Si quisiéramos establecer una regla de decisión por cantón para decidir Al igual en los países, cuáles cantones están en una situación en control o sin control, tendríamos que decir que en este momento NO es posible por las magnitudes de los números y por ende por las incertidumbres implícitas a esta condición, establecer cuáles cantones están en riesgo y los que están sin riesgo . ( Los cantones con mas baja incertidumbre son san José central y Alajuela pero aún estos están altos. )
Análisis mundial ( modelo comparativo para todos los países)
Como mencionamos al inicio, vamos a utilizar los datos que recolecta la Universidad de J. Hopkins para calcular el valor de R0 para todos los países desde el inicio de la Pandemia y realizar una comparación entre ellos, con el fin de evaluar si están los países preparados para abrir sus fronteras. Veremos de forma visual las semejanzas y diferencias entre los mismos. Pero debemos prestar especial atención a este análisis que debería realizarse cada día, ya que esta es solo una fotografía en un momento determinado y el virus por razones obvias se comporta dinámicamente.
Cálculo y graficado del Indice R0 para todos los países al 12-6-2020
Modelo de clasificación automática
Sobre la base de los graficos anteriores construimos una regla que nos permite comparar territorios, me refiero a países, pero también podrían ser cantones o Provincias o pueblos o lo que queramos y clasificarlos en «territorios en condiciones para abrir fronteras ó movilidad entre vecinos o por el contrario territorios que deben «esperar» . ( o lo que es lo mismo: en control o fuera de control)
Como se podrán imaginar este análisis ha requerido no sólo muchas horas de procesamiento, así como horas de análisis y transformación de datos.
Resultados:
En el primer conjunto de 2 cuadros tenemos el valor del indice R0 para todos los países en orden ascendente sin importar el rango de incertidumbre del valor del R0, sencillamente están ordenados del valor de R0 mas bajo al sitio con valor mas alto.
En el segundo grupo colocamos de la misma forma a todos los países con los valores de R0 PERO considerando no sólo los valores sino que ademas los rangos de incertidumbre ( en este caso por ejemplo Costa Rica que tiene un rango muy amplio y por tanto el valor superior del rango de ese R0 nos coloca en a posición desventajosa.)
Los últimos dos cuadros son los de acuerdo al modelo, los valores de R0 y sus límites nos indican que están BAJO control o que están FUERA de CONTROL, en ese caso los países con rangos de incertidumbre altos NO pueden ser evaluados porque el valor de R0 es incierto. Este conjunto de vcariuables sin duda orienta a los ssalubristas a determinar si están los países preparados para abrir sus fronteras
Nota: los países que no aparecen en estas últimas 2 categorías ( p.e. Costa Rica) son países en donde el valor del Indice R0 y sus características de incertidumbre (error) son tal altas, que impiden al modelo clasificarlo de manera adecuada.
Bibliografía:
1. Como se calcula el RO ?
a.) Modelo de La Universidad de Ginebra . Suiza. Swiss Data Science Center
https://shiny.dide.imperial.ac.uk/epiestim/
b.) Modelo de la Imperial college de Londres:
https://renkulab.shinyapps.io/COVID-19-Epidemic-Forecasting/
3. Ridenhour, Kowalik y Sahay, El numero reproductivo básico y sus consideraciones en salud pública.
https://www.scielosp.org/pdf/rpsp/2015.v38n2/167-17
4. James Holland. Stanford University. Notes on R0
https://web.stanford.edu/~jhj1/teachingdocs/Jones-on-R0.pdf
5. Scire, Nadeau, Vaugnan y cols. Reproductive number of the COVID-19 epidemic in Switzerland
https://smw.ch/article/doi/smw.2020.20271
6. Kevin Systrom. Modelos de corona virus en los EUA. Los EUA ante un umbral peligroso
- Predictive Monitoring of COVID 19. Singapur Data Driven Inovation Lab
- Universidad de Ginebra . Suiza. Swiss Data Science Center
https://renkulab.shinyapps.io/COVID-19-Epidemic-Forecasting/
Nota:
Se agradece la ayuda y participación de muchos amigos y colegas alrededor del mundo, en especial de : Dr. Álvaro Salas Chaves, y de nuestro compañero Ashik Mohamm.
* El autor es informático médico, máster en Business Intelligence y especialista en BIG DATA y Ciencia de Datos, aplica modelos de Machine Learning y de Inteligencia Artificial en el campo de la salud. Actualmente reside en Barcelona y colabora en la cátedra de Informática Médica de la Universidad de Barcelona, como profesor visitante.
2 Responses
Increíble lo completo del análisis lo felicito
Estimado Juan. Como siempre es maravilloso el trabajo que haces . Hoy en dia solo Podemos ver en general informacion de las situaciones actulaes pero si proyecciones. Tu modelo me parece debe ser usado seriamente por goviernos y organismos internacionales .
Solo tengo una pregunta : Tu modelo contempla la variable de influencia internacional , me refiero el analisis de proyecciones en Europa con paises de Euro[pa debe ser dieferente se se considera otras Regiones con incremento de casos COVID-19
Saludos