el Indice R0: “el indicador para administrar la Pandemia del COVID19”

Consultores estratégicos en Ciencia de Datos

el Indice R0: “el indicador para administrar la Pandemia del COVID19”

por : Dr. Juan Ignacio Barrios Arce *

Se dice que: El valor del Índice R0 es el indicador que debería estar  permitiendo  administrar la Pandemia del COVID19

Los líderes políticos, los epidemiólogos, los economistas y hasta los informáticos están obsesionados con el valor del R0 en estos días.

En epidemiología,  se dice que el número básico de reproducción, o ritmo reproductivo básico (que en realidad NO es una tasa sino una ratio) es el número promedio de casos nuevos que genera un caso dado,  a lo largo de un período infeccioso.  Dicho de otra forma,  es la cantidad de personas que se infectan en promedio a partir de una persona enferma.

Hay enfermedades como el Corona virus que el R0 tiene un valor promedio  de 2.5 o sea que una misma persona puede contagiar en promedio a 2.5 personas.  El R0 de otras enfermedades infecciosas puede llegar a ser hasta de 18,  por ejemplo en el caso del sarampión lo que la hace una enfermedad altamente contagiosa.

Este concepto se aplica específicamente a una población de personas que previamente estaban libres de infección y no han sido vacunadas.

Indice reproductivo básico para diversas enfermedades

Índice reproductivo básico para diversas enfermedades. Fuente: SWI

¿Qué significan los valores de R0 en el caso de la infección por Corona virus?

  •  Si el valor del R0 es menor que 1, cada infección existente causaría   menos de una infección nueva., por ejemplo, 100 personas enfermas infectarán a menos de otras 100. Cada generación sucesiva de infecciones será más pequeña que la anterior. En este caso, la enfermedad irá disminuyendo y finalmente desaparecerá.
  • Si el valor de R0 es igual a 1, cada infección existente causa una nueva infección. La enfermedad se mantendrá viva y estable, pero no habrá un brote o una epidemia.
  • Si el R0 es más de 1, cada infección existente causa más de una infección nueva. La enfermedad se transmitirá entre las personas y podría haber un brote o epidemia.

Pero el comportamiento del R0 es más complejo de lo que parece, ya que está influenciado por una serie enorme de variables:  es importante entender que varía de una ciudad a otra, de un día a otro y por supuesto depende de las condiciones del enfermo, pero lo más complejo es que también depende de las condiciones del virus.

El término mal llamado ” Tasa Básica reproductiva”  viene de la demografía donde se utiliza para describir las tasas de natalidad.  De ahí que la R se refiere a la reproducción y el 0 a la generación cero, como en el paciente “cero”.  Por eso se le conoce de manera conjunta como Número básico reproductivo o R0.

En resumen: el valor del R0 nos ayuda a entender la posible trayectoria de un brote.

Ejemplo

Digamos que 1,000 personas tienen una simple influenza cuyo R0 se estima que es en promedio 1.3.

Esas 1000 personas  podrían entonces llegar a infectar un total de 1300 personas. Lo grave de esto,  es que una segunda generación llegaría a unas 1700 personas y al final de 30 días un total de alrededor de 40.000 personas habrían contraído el virus, a partir de esos primeros 1000 enfermos.

En el caso del Corona virus el R0 se estimaba originalmente de acuerdo a los datos de Wuhan en China en un valor entre 2.2 y 2.7, aunque al inicio tuvo una propagación tan alta,  que se cree que el R0 pudo haber llegado a cifras alrededor de hasta  5.7.  (este mismo fenómeno se repite en muchas ciudades según se podrá ver al final en los cuadros comparativos del R0 entre  varios países. ( Cifras muy altas al inicio que luego van descendiendo de acuerdo a la efectividad las medidas de aislamiento social.  Consideremos además que el intervalo de serie o el tiempo promedio entre infecciones es de aprox.  4.5 días.   Sin embargo, también se llegó a ver tiempos de duplicación de entre 2 y 3 días.

Con el R0,  también es posible calcular el porcentaje de la población que necesitaría estar inmune.  Si el R0 es de 5.7,  hasta un 82% necesitaría estar inmune al COVID-19 para detener su transmisión a través ya sea de una vacuna,  o de adquirir la inmunidad colectiva. (inmunidad de rebaño)

Pero acá viene lo malo:   cualquier R0 es solo una estimación y, según los epidemiólogos, una estimación MUY imperfecta.

El impacto del distanciamiento social y del confinamiento en los hogares.

Tratándose de que COVID19 es una enfermedad contagiosa, Si una persona entra en contacto con muchas personas que no están infectadas o vacunadas, la enfermedad se transmitirá más rápidamente.

Pero si la persona permanece en su casa en un período mientras está en la fase “contagiosa”, la enfermedad no se transmitirá o lo hará más lentamente. Una alta velocidad de contagio, como es obvio,  contribuirá a un valor mas alto del R0.

Medios de propagación del virus

Las enfermedades que se transmiten con mayor rapidez y facilidad son las que pueden viajar por el aire, como la gripe o el sarampión.  En el caso del COVID no existe evidencia que se transmita por el aire, excepto cuando estamos demasiado cerca de una persona contagiada y las pequeñas gotículas de saliva pueden alcanzar nuestras mucosas e infectarnos.

En las enfermedades que se transmiten por el aire  el contacto físico con una persona que tiene una enfermedad, no es necesaria para transmitirla. Puede contraer la gripe al respirar cerca de alguien que la tiene, incluso si nunca la toca.

Por el contrario, las enfermedades que se transmiten a través de fluidos corporales, como el Ébola o el VIH, no son tan fáciles de contraer o de transmitir. Esto se debe a que necesita entrar en contacto con sangre, saliva u otros fluidos corporales infectados,  para contraerlos.

Las enfermedades transmitidas por el aire,  tienden a tener un valor de R0 más alto que las transmitidas por contacto directo.

Cómo calcular el Índice R0.

Es imposible medir el R0 directamente, por lo que tenemos que hacer es:  estimarlo. Afortunadamente, hay muchas formas de hacerlo. A lo largo de este documento presentaré en detalle, un método particular descrito desde el año 2008 por Bettencourt y Ribeiro.  Este documento se titula : “Estimación bayesiana en tiempo real del potencial epidémico de enfermedades infecciosas emergentes”.  Esa estimación utiliza los algoritmos bayesianos (teorema de Bayes)  para estimar el valor más probable de R0 y también devuelve un intervalo posible a modo de límites para el valor verdadero de R0.  De esta forma, aunque no conocemos exactamente su valor conoceremos con mucha probabilidad, dentro de que rango se encuentra su valor.

El método tradicional de cálculo del R0

Dentro de los muchos modelo epidemiológicos que se utilizan para describir las epidemias,  se encuentra el modelo SIR (susceptible–infectado–recuperado), este es un modelo relativamente sencillo ideado para describir epidemias, los individuos empiezan como susceptibles ante un agente patógeno determinado,  luego se infectan, y al final se recuperan o sea pasan por las tres etapas ó categorías.  Ese movimiento dentro de las categorías es lo que el modelo describe.

Para entender ese movimiento entre categorías se define un sistema de tres ecuaciones diferenciales ordinarias (EDO), a saber:

1) dS = – βI S dt N

2) dI = βI S – γ∗I dt N

3) dR =γ∗I dt

Acá conviene saber que:  β es la tasa de transmisión, “γ” es la tasa de recuperación (o la inversa del período infeccioso) y “N” es el tamaño total de la población, de manera que N = S + I + R. En el modelo ordinario de la ecuación se da por sentado que no hay nacimientos ni muertes.

Al comienzo del brote o epidemia (t será = 0) además suponemos que la población está constituida totalmente por individuos susceptibles y que además un solo individuo está infectado. Con este modelo, si la tasa de transmisión excede a la de recuperación (es decir, β/γ > 1), la enfermedad se propagará (dI/dt > 0). Ver gráfica del modelo SIR más adelante.

Por otro lado, β / γ, es el número de infecciones nuevas por unidad de tiempo multiplicado por el tiempo que dura la infección, y describe el número de infecciones nuevas que se originaron del individuo infectado inicialmente. En este modelo SIR básico, el número reproductivo básico R0 se obtiene de dividir:  β/γ.

En la web encontré varios modelos de como calcular R0 a partir de un modelo SIR. En estadística comúnmente usamos un lenguaje llamado ”R”.   Luego de un poco de investigación  logramos extraer las fórmulas necesarias para construir las tres ecuaciones diferenciales escritas en lenguaje “R” y a partir de ese punto las transformé a  Python, ya que acá podemos utilizar nuestros propios modelos de inteligencia artificial que nos permitirán “predecir” los valores de R0 o a la inversa los elementos originales de la ecuación (Susceptibles, Infectados y Recuperados), labor que arrancaremos en los próximos días.

Extracto del programa escrito en lenguaje Python para describir el modelo SIR

Extracto del programa escrito en lenguaje Python para el cálculo de R0 a partir del modelo SIR

Obteniendo R0 a partir de otros modelos epidemiológicos ( SIS y SEIR)  

Empezamos nuestro trabajo estimando el R0 a través de  modelos sencillos como el descrito por las ecuaciones anteriores.

Los especialistas en modelización pueden ir modificando el modelo SIR agregándole o quitándole “categorías”.  Por ejemplo, se puede eliminar la clase de individuos recuperados (R) para las enfermedades en las que estos individuos se reincorporan a la clase de susceptibles, con lo cual el modelo se transforma a un SIS, el cual puede usarse para enfermedades como la gripe o el catarro común. Si la enfermedad tiene un período de latencia prolongado en  comparación con el período infeccioso, también podrían agregarse otras categorías, como una clase de “expuestos” (E), lo que daría origen a otro modelo llamado SEIR, que también se usa con frecuencia para la gripe . Al irse haciendo más modificaciones al modelo SIR de base, los modelos compartimentados se van volviendo mas complejos. Quisiera concluir con este segmento diciendo que los modelos SIR o SEIR resultan útiles para demostrar las características esenciales del R0.   En todos estos modelos el valor de  R0  se obtiene de  β / γ.

El modelo Bayesiano

El algoritmo original de Bettencourt & Ribeiro para estimar R0 es una función de cuántos casos nuevos aparecen cada día. La relación entre el número de casos de ayer y el número de casos de hoy nos orienta sobre el valor de R0. Sin embargo, no podemos utilizar sólo este dato, ni  confiar demasiado en los datos de un único día para estimar R0, ya que toda la logística de recolección de datos incorpora una cantidad enorme de sesgos.  Ver mi post sobre este tema en este enlace:

Sin embargo, utilizando el Teorema de Bayes, podemos de la información de casos diarios,  ajustar el verdadero valor de R0 .  Nos  acercáremos mas  al valor real de R0  a medida que disponemos  de más datos de los casos nuevos que se presentan cada día.

El  modelo que se utilizó al inicio se empezó  a notar que tenía un comportamiento “errático” y era difícil que R0 bajara de 1, lo cual lo hacía inconveniente.  De hecho hemos visto en la práctica como en ocasiones en Costa Rica tenemos valores diarios del número de casos muy bajo, lo que sin duda es una muestra de que R0 rondaba esos días valores por debajo de 1.  Luego de realizar varias evaluaciones y comparaciones con otros modelos  se optó por no utilizar únicamente el valor del día anterior, sino que se utilizó un promedio de los últimos siete a catorce días, lo que estadísticamente es válido y se conoce como un promedio móvil. Pero este simple cálculo que muchos utilizan como único elemento en estos días,  es sólo la punta del iceberg de lo que pretendemos demostrar con todo el modelo.

El teorema de Bayes:

El teorema de Bayes es de enorme relevancia puesto que vincula la probabilidad de A dado B con la probabilidad de B dado A. Es decir, por ejemplo, que sabiendo la probabilidad de tener un dolor de cabeza dado que se tiene gripe, se podría saber (si se tiene algún dato más), la probabilidad de tener gripe si se tiene un dolor de cabeza.  Con este simple ejemplo es posible entender la alta relevancia del teorema para la ciencia en todas sus ramas, puesto que  vincula la comprensión de la probabilidad de aspectos causales dados los efectos observados.

El teorema se expresa con la fórmula:

Aplicándolo a nuestro caso, podemos decir que existiendo  un total de “k” nuevos casos, tenemos probabilidad de  que la distribución de R0 será igual a:

  • A lo que creíamos que era el valor de PAGS(R0 sin datos …
  • Las veces que la probabilidad de R0, en la que hemos visto “k” nuevos casos …
  • a una división de la probabilidad de los casos en general.

Esto es,  para  un sólo día. Para hacerlo iterativo: cada día que pasa, utilizamos el resumen del día anterior)

Aca lo importante es que , 𝑃(𝑘) es una constante , y por tanto el numerador será proporcional al del día  “anterior”. Así pues toda la distribución de probabilidades sumará 1,  y si ignoramos P(𝑘), trataremos de llegar a un valor normalizado del día anterior para que al final sume 1.

Para hacerlo iterativo: cada día que pasa, utilizamos el dato del día anterior. 𝑃(𝑅01|𝑘𝑡1) , de esta forma el dato de ayer  𝑃(𝑅0)  será  el dato del día siguiente y así sucesivamente.

Modificación propuesta al teorema inicial de Bayes

La modificación que se realizó  fue la de  incorporar  el último  valor de “m días”  a la función de probabilidad. Al hacer esto, el algoritmo previo se basa en el pasado mas reciente, que es mucho más útil, que toda la historia de la epidemia.  Este pequeño cambio,  que podría considerarse  muy simple, nos  lleva a una fórmula como ésta :

Elegir una función de probabilidad

L (RtEl |kt)L(RtEl |kt)

Una función de probabilidad nos dice que tan probable es que  un valor de R0  esté presente  en un conjunto de nuevos casos k.

Cada vez que necesitamos modelar ‘llegadas’ durante un período de tiempo, en estadística usamos la Distribución de Poisson .  La que expresa que:  dada una tasa de nuevos casos  λ  por día, la probabilidad de ver k nuevos casos, se distribuirán  de acuerdo con este modelo:


Distribución de Probabilidad

Acá es importante entonces traer  el concepto de la distribución de probabilidad:

En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos y cada uno de los sucesos es el rango de valores de la variable aleatoria. También puede decirse que tiene una relación estrecha con las distribuciones de frecuencia. De hecho, una distribución de probabilidades puede comprenderse como una frecuencia teórica, ya que describe cómo se espera que varíen los resultados. (Wikipedia)

La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada x real es la probabilidad de que la variable aleatoria sea menor o igual que x.

La distribución de Poisson recordemos que se utiliza para describir eventos  independientes, y por eso resulta particularmente útil en nuestro caso.

Conectando LAMBDA y el valor de R0

La idea clave para hacer que esto funcione es darse cuenta de que hay una conexión entre  λ y R0.

dónde “γ”,   es el recíproco del intervalo en la serie ( aproximadamente 4 días para COVID19 ). Como sabemos que en cada nuevo caso cuenta el día anterior, ahora podemos reformular la función de probabilidad como un parámetro de Poisson mediante la fijación de k y empezar a mejorar nuestro valor de R0.

Este es el cambio realizado al modelo Bayesiano 

Para realizar esta actualización del modelo bayesiano , debemos multiplicar la probabilidad por la del día anterior y así ir obteniendo las posteriores. Si hacemos esto,  usando el producto acumulado día por día, obtenemos un gráfico como éste y que vamos a llamar el cálculo del día posterior.

Finalmente,  vamos  a trazar los valores mas probables para R0 y un Intervalo de mayor densidad o IMD a lo largo del tiempo.  Acá podremos apreciar más claramente como varía nuestra certeza sobre estos valores.  La zona gris es la zona de los límites superior e inferior de probabilidad,  dentro de los cuales estimamos que:   con un 95% de probabilidad el verdadero valor de r0 se encontrará dentro de esos límites.

Valores más probables de r0 y el Indice de Mayor Densidad

Tomando los datos del mundo real

Hay una importante cantidad de repositorios de los datos de covid19 a nivel mundial,  que actualizan diariamente las cifras de COVID-19.  Estos sitios recolectan en la mayoría de los casos de forma automática,  ( a través de técnicas de Webscraping ) las cifras que los gobiernos de mas de 220 países publican cada día,

En nuestro caso utilizaremos el repositorio de la Universidad de Johns Hopkins el cual se encuentra también replicado en el MEGA portal de Our World in Data 

El  formato de los datos que se puede obtener es similar al que presento acá abajo ( este es apenas un segmento de esos mega archivos que se pueden descargar de estos repositorios)

Como se puede ver éste archivo tiene  6 variables:  (fecha, Ubicación, nuevos casos, nuevas muertes. total casos, total muertes) pero conforme avanza la pandemia y los días,  el archivo también crece exponencialmente y ya tiene mas de 20.000 renglones.

Webscraping de datos de Costa Rica del repositorio de Johns Hopkins University

Web scraping de Datos de Costa Rica del repositorio de Johns Hopkins University

Consideraciones Iniciales de nuestro análisis

Echando un vistazo al Ejemplo de Costa Rica, necesitamos comenzar diciendo que el modelo funciona cuando hay  un número constante de casos cada día.  En algunos casos  el hecho de que algunos “países” reporten cero casos en un determinado día,  trastoca  el modelo ( por motivo  de la división por cero )  y lo hace iniciar de nuevo.

Para obtener una  mejor visión de cómo podrían ser los datos “verdaderos”, se aplicó un filtro gaussiano a las series de tiempo . Obviamente, éste es un truco mas de orden visual que busca suavizar la curva . Usualmente esto se hace,  ya que como lo expuse en éste articulo previo es un hecho de que todo el conjunto de procesos que lleva el procesamiento de los datos en el mundo real,  no es tan estocástico como el que al final se presenta en un informe del sistema de salud debidamente validado y ajustado.veamos una gráfica de los casos diarios de COVID19 en Costa Rica actualizado al 25-5-2020

Costa Rica casos nuevos de Covid19 por dia . Fuente: Ministerio de Salud /CCSS

Costa Rica casos nuevos de Covid19 por día . Fuente: Ministerio de Salud /CCSS

Los primeros resultados de R0

A continuación, se pueden ver todos los días  de esta distribución del día “posterior”   graficados simultáneamente. Las observaciones posteriores comienzan sin mucha confianza (con una gráfica más amplia) y con el paso de los días se vuelven progresivamente más confiables  (o sea más angostos), esto sin duda es la clara representación de lo que al final significa el verdadero valor de   R0

Calculo del dia posterior par evaluar el valor de R0

Calculo del día posterior par evaluar el valor de R0

Trazado en el dominio de tiempo con valores “creíbles”

Como nuestros resultados todavía presentan  alguna incertidumbre, vamos a colocarlos en una tabla,  y les calcularemos un límite superior y un limite inferior probabilístico con el valor más probable de R0,  utilizando el intervalo de mayor densidad.

La columna ML ( most Likelihood) se refiere al valor más probable de R0 en Costa Rica en los últimos 15 días. Las columnas “Low y High” se refieren a los límites superior e inferior de ese valor probable de R0.  Nótese que los valores en el caso de Costa Rica, los datos de R0 (ML) y los valores High y Low presentan un rango muy amplio,  lo que le aumenta significativamente el nivel de incertidumbre a todo el modelo. Esto es una muestra mas , de lo difícil que resulta calcular el Indice R0 en el caso particular de Costa Rica y como veremos mas adelante cuando se compara Costa Rica con otros países,   resulta “castigada”. Veamos la tabla de los valores de R0 para Costa Ricas de los últimos 15 días a partir del 1-6-2020

Valores históricos de R0 para Costa Rica

Esto se calculó con ayuda del intervalo de mayor densidad (IMD) y en este caso para el Período comprendido entre el 3-3-2020 y el  1-6-2020

* Las marcas redondas de color rojo están en límites peligrosos,  en donde la probabilidad de infección se multiplica, las marcas redondas de color gris,   están en una zona de "riesgo"  y las marcas de color negro  son los valores en los  días donde hay pocas probabilidades de contagio.  Las bandas de color gris, representan la probabilidad mayor y menor del verdadero valor de R0, y que el algoritmo Bayesiano nos facilitó obtener.  Estas  franjas del Intervalo de mayor densidad IMD,  nos garantizan que el 95% de los valores esperados del R0 se encuentran dentro de esas franjas superior e inferior.

Comparación entre países

A modo comparativo he querido incluir 16 países que por diversas razones, principalmente por su comportamiento durante la pandemia me  resultaban particularmente  interesante analizar.

Costa Rica está en  una posición privilegiada pero como todos los países y como lo resalta el Ministro de Salud costarricense: Dr Daniel Salas,  todavía se camina sobre un terreno terriblemente frágil,  que él lo asemeja a  “cáscaras de huevo y en donde deben jugar las medidas de vigilancia estrecha.

Panamá,  por su parte presentó un pico importante al inicio,  que los ha venido afectando a lo largo de estos meses y que les ha dejado mas de 10.000 casos y 300 muertos. De acuerdo  a los modelos de  Tomas Pueyo es posible que Panamá tenga en la actualidad mas de 210.000 casos (90% asintomáticos)  en total  (gracias a la formula de T. Pueyo de 700 casos x cada muerte = 700x 300) Dichosamente ya vienen aplanando la curva y se recuperan visiblemente.

Estados Unidos aunque todavía tiene muchos casos,  el control, cuando hacemos el  análisis por cada estado se nota que esta siendo efectivo.  México aún en estado de alarma y con valores de R0 por arriba de 1 que aun debe controlar.

El Reino Unido (UK)  apenas viene saliendo de un rebrote de casos que los deja con mas de 250.000 casos y como el país  con mas muertes con una cifra de 37.000 a esta fecha.

El resto de países de centroamérica siguen sufriendo las consecuencias de  un débil control de la Pandemia,   lo que les ha provocado picos intermitentes y cifras muy altas de infectados. El Salvador y Guatemala con brotes esporádicos y El Salvador a las puertas de un rebrote, como se puede observar a continuación:

Brasil con picos “peligrosos” que les han dejado mas de 350.000 casos y mas de 22.000 muertes.

España, Italia y Francia recuperándose de situaciones muy difíciles,  pero con cifras muy positivas a pesar de ser los países con mas casos y muertes de forma proporcional a su población.

En los países que han tenido muchísimos casos,  esas las bandas o límites de incertidumbre son muy angostas, por lo que el verdadero valor de  R0 es fácil de aproximar, en el caso de Costa Rica,  los números son tan bajos que la  incertidumbre del verdadero valor  del R0 es muy alta y sus bandas tan anchas así lo demuestran.

También es posible incluir en el modelo comparaciones ente países y a partir de estos indicadores poder incluso tomar decisiones .

Ejercicio de simulación

Un tipo de ejercicio numérico como éste es útil para apoyar la decisión de si  “abrir” o desconfinar una ciudad.

En estos gráficos se observa en primer término a la izquierda el grupo de países y sus valores de R0 ordenados de menor  a mayor.  Acá destacan:  El Reino Unido en primer lugar y España en último.  Este primer conjunto es el llamado ML (Most Likelihood) : es el modelo mas probable de que sea el que represente el valor de R0.  Pero observe las barritas sobre cada una de las barras y que representa que tan grande es el espacio entre el límite superior y e inferior (viene siendo como una medición del grado de  error en el cálculo del R0 para cada país.)  EEUU con una incertidumbre muy baja y Costa Rica con la más alta.

En el segundo gráfico se presentan los intervalos de probabilidad del valor de R0 combinados con los valores mas probables de R0.  En este caso los países están ordenados por los valores de los limites “inferiores” de probabilidad de R0 .   Recordemos que CR por la cantidad tan pequeña de casos que ha tenido aunado a la gran variabilidad en los números de un día a otro,  explican que  su incertidumbre sea  tan alta  ( o sea ese rango tan amplio entre el límite superior y el inferior (Barritas de error más altas, es un caso similar al de Suiza).  Esta circunstancia provoca una gran incertidumbre en el verdadero valor de R0  y nos coloca con el valor de R0 mas bajo, pero como observamos con las franjas de  error,  también con el valor mas alto.

Expliquemos esto  mejor:  Costa Rica por ejemplo en días pasados,  presentó en un día únicamente 3 casos nuevos. Sólo un día después se presentan  12 casos.  Esta variación que en números absolutos parece ser muy pequeña representa una diferencia estadística  de un  400% .  Esa gran variabilidad entre los datos debilita el modelo, le aumenta la incertidumbre y la probabilidad de que el valor de R0 sea el correcto disminuye .  ( Veamos como tenemos probabilidad de que el R0 sea muy cercano a 0 o que también sea prácticamente 2,  esta amplio rango entre limites,  nos “castiga” y nos aleja del valor real.

En los últimos dos gráficos se presentan los países de este grupo,  en donde el R0 se encuentra Bajo control y en los que está fuera de control.  ( Este es nuestro modelo de decisión por simulación para de decidir si abrimos o no ) 

Nótese y repito que no sólo se consideran  los valores de R0 bajos,  sino que además, que  los rangos de probabilidad sean estrechos para garantizar de que el valor de R0 sea lo mas real posible.  Por ejemplo: ni Panamá, ni Costa Rica ni Suiza aparecen en esa lista, porque a pesar de  que tienen valores de R0 por debajo de 1, el nivel de incertidumbre sobre el valor de R0 es alto.

Por último a la derecha hay un grupo de 3 países que se consideran de acuerdo al modelo sin control, por dos motivos :  no sólo tienen cifras de R0 por arriba de 1 sino que su incertidumbre es baja ( lo que nos garantiza que efectivamente ese valor de R0 está muy cerca de la realidad.

Predicciones:

Ningún modelo epidemiológico estaría completo sin un módulo que permita proyectar casos.  Siendo que en gran medida el motivo de escribir este post tenía en mente analizar el dato de Costa Rica , el alto margen de incertidumbre de los limites también complica la estimación.  Estimar el número de casos en EEUU o en Brasil con esos miles de casos serias una tarea mas sencilla,  pero la realidad de Costa Rica con 5 , 8 , 10  y 6 casos por día es una tarea en la que el error estará presente.

Veamos el modelo empleado:

Debido a que los modelos empleados previamente por esa variabilidad resultaban muy inexactos decidí aplicar un modelo de  Inteligencia Artificial. Resulta un poco mas laborioso,  pero aproxima mejor que los modelos estocásticos y los modelos logísticos que solo tienden a subir y nunca a bajar

Dentro de los Algoritmos de Inteligencia Artificial se describen los algoritmos supervisados y los no supervisados, dentro de una gran familia del  Aprendizaje Automático clásico.

Dentro del Aprendizaje automático moderno tenemos nuevos algoritmos que en su mayoría lo componen las redes neuronales y los algoritmos de aprendizaje por refuerzo y los algoritmos de ensamble ( varios algoritmos aplicándose de manera simultánea)

 

 

 

La principal ventaja de este tipo de algoritmos es que tienen  una precisión de clasificación muy alta . Ademas son más rápidos  que las redes neuronales. Esto viene siendo como una carrera entre una vagoneta  y un auto de carreras. El camión puede transportar mas y hacer más, pero si quiere ir mas rápido, sería mejor utilizar un auto de carreras.

Si desea un ejemplo real de BOOSTING , abra su Facebook o el Google y comience a escribir una consulta en el espacio de búsqueda. ¿No escucha un ejército de árboles rugiendo y aplastando juntos para ordenar los resultados por relevancia?  Eso es porque estamos  usando el boosting.

Hoy en día hay tres herramientas populares para hacer  BOOSTING en el campo de la salud:   CatBoost vs. LightGBM vs. XGBoost  En este caso vamos a utilizar XG-BOOST

El Algorimo XGBOOST de Inteligencia Artificial

XGBoost Extreme Gradient Boosting es un algoritmo predictivo supervisado que utiliza el principio de boosting.

La idea detrás del boosting es generar múltiples modelos de predicción “débiles” secuencialmente,y que cada uno de estos tome los resultados del modelo anterior, para generar un modelo más “fuerte”, con mejor poder predictivo y mayor estabilidad en sus resultados.

Para conseguir un modelo más fuerte, se emplea un algoritmo de optimización, este caso Gradient Descent (descenso de gradiente).

Durante el entrenamiento, los parámetros de cada modelo débil son ajustados iterativamente tratando de encontrar el mínimo de una función objetivo, que puede ser la proporción de error en la clasificación, el área bajo la curva (AUC), la raíz del error cuadrático medio (RMSE) o alguna otra.

Cada modelo es comparado con el anterior. Si un nuevo modelo tiene mejores resultados, entonces se toma este como base para realizar nuevas modificaciones. Si, por el contrario, tiene peores resultados, se regresa al mejor modelo anterior y se modifica ese de una manera diferente.

Este proceso se repite hasta llegar a un punto en el que la diferencia entre modelos consecutivos es insignificante, lo cual nos indica que hemos encontrado el mejor modelo posible, o cuando se llega al número de iteraciones máximas definido por el usuario.

XGBoost usa como uno de sus  modelos débiles árboles de decisión de diferentes tipos, que pueden ser usados para tareas de clasificación y de regresión, pero que al ser utilizados de forma conjunta miles y hasta millones de veces resulta altamente eficiente.

 

Resultados:

En los gráficos a continuación se observa estimaciones par todas las variables que hemos venido manejando a saber: número de casos nuevos cada día (new_cases) , número de muertes por día (new_deaths) , número de casos acumulados (total_cases) , numero de muertes acumuladas(total_deaths)  y el valor del R0.  En resumen podemos decir que el numero de nuevos casos estimado en los primeros días rondara entre los 21 y 24 casos , y con un R0 que tiene a descender tímidamente.

 

 

 

 

Otros modelos predictivos como el modelo logístico ó de Verhulst ,  tienen comportamientos mas agresivos con tendencias que asemejan tendencias lineales,  aunque NO debieran.

 

 

 

 

 

 

 

Aclaración IMPORTANTE:

Como lo he dicho a lo largo de este POST,  el caso de Costa Rica es especial y numéricamente muy complicado.  La altísima variabilidad de los datos aunado a la poca cantidad de ellos,   le aumenta muchísimo la incertidumbre a este o a cualquier modelo.

Conclusiones:

El valor del R0 es incuestionable en el manejo de cualquier  Pandemia, y viene siendo como:  “las cuentas por  cobrar” para un empresario, o la cantidad de combustible para un piloto.

Es claro por los valores de R0 de los países utilizados en este modelo,   que la Pandemia está  perdiendo fuerza aceleradamente .  Las medidas de confinamiento alrededor del mundo,  han surtido efecto y es posible que la rápida mutación del virus también haya contribuido a su debilitamiento.  Algunos pocos países muestran todavía esos puntos “rojos” que es necesario vigilar.

En este caso en particular,   el apoyo en  algoritmos matemáticos y de la Inteligencia Artificial,  son fundamentales de cara a los procesos analíticos  que el mundo del Siglo XXI nos exige para la administración de los Servicios de Salud.   Estamos hablando de 5.361.786 de  casos y mas de 350.000 muertes reportadas por COViD19 al día de hoy.

Aunque el R0 ( bien calculado)  es difícil de lograr,  es importante aunar esfuerzos para obtener su valor día con día ( de ser posible en tiempo real) de la forma mas precisa  ,  con miras a regular el confinamiento /desconfinamiento de  los habitantes de las ciudades, de las mega ciudades o hasta del pueblo mas pequeño, de una manera cada vez inteligente y estratégica .  Hay otras tecnologías  que se han utilizado y propuesto para este mismo fin, y  que describo en un par de artículos que escribí días atrás . (Ver:  articulo 1 y articulo 2)

Este reporte que presento el día de hoy,  es sólo una fotografía en el tiempo.  Este cálculo debe realizarse cada día,  de manera permanente a lo largo de la Pandemia y con el grado de desagregación que sea necesario para que permita tomar las mejores decisiones.

 Bibliografía:

  1. Ávila Ayala Rocío, Inferencia en modelos epidemiológicos estocásticos

https://cimat.repositorioinstitucional.mx/jspui/bitstream/1008/549/1/TE%20625.pdf

  1. Ridenhour, Kowalik y Sahay, El numero reproductivo básico y sus consideraciones en salud pública.

https://www.scielosp.org/pdf/rpsp/2015.v38n2/167-176

  1. James Holland. Stanford University. Notes on R0

https://web.stanford.edu/~jhj1/teachingdocs/Jones-on-R0.pdf

  1. Vanesa Baters y Alana Biggers. What Is R0? Gauging Contagious Infections

https://www.healthline.com/health/r-nought-reproduction-number

  1. The New York Times, El explicador del R0 del coronavirus.

https://www.nytimes.com/2020/04/23/world/europe/coronavirus-R0-explainer.html

  1. Tom Britton. Basic Stochastic transmission models and their inference

https://arxiv.org/pdf/1801.09594.pdf

7.       Scire, Nadeau, Vaugnan y cols.  Reproductive number of the COVID-19 epidemic in Switzerland

https://smw.ch/article/doi/smw.2020.20271

  1. Kevin Systrom. Modelos de coronavirus en los EUA. Los EUA ante un  umbral peligroso

https://github.com/k-sys/covid-19/

  1. Predictive Monitoring of COVID 19. Singapur Data Driven Inovation Lab

https://ddi.sutd.edu.sg/

  1. Universidad  de Ginebra . Suiza. Swiss Data Science Center

https://renkulab.shinyapps.io/COVID-19-Epidemic-Forecasting/

11.

 

Nota:

Se agradece la ayuda y participación de muchos amigos y colegas alrededor del mundo, en especial de :  Dr. Álvaro Salas Chaves, de Oliver Gómez y de Ashik Mohamm en las diversas partes de este modelo, asi como de otro gran número de amigos y colegas.

* El autor es informático médico, máster en Business Intelligence y especialista en BIG DATA y Ciencia de Datos, aplica modelos de Machine Learning y de Inteligencia Artificial en el campo de la salud. Actualmente reside en Barcelona y colabora en la cátedra de Informática Médica de la Universidad de Barcelona, como profesor visitante.

 

 

 

 

 

 

 

2 Responses

  1. Freddy chaves dice:

    Increíble te felicito

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *