La matriz de confusión y sus métricas

Consultores estratégicos en Ciencia de Datos

La matriz de confusión y sus métricas

Sobre la matriz de confusión y sus métricas y si medimos la efectividad de nuestro modelo por la cantidad de aciertos que tuvo, sólo teniendo en cuenta a la clase mayoritaria podemos estar teniendo una falsa sensación de que el modelo funciona bien. Para poder entender esto un poco mejor, utilizaremos la llamada «Confusión matrix» que nos ayudará a comprender las salidas de nuestro modelo:

La Matriz de confusión

En el campo de la inteligencia artificial una matriz de confusión es una herramienta que permite la visualización del desempeño de un algoritmo que se emplea en aprendizaje supervisado. Cada columna de la matriz representa el número de predicciones de cada clase, mientras que cada fila representa a las instancias en la clase real. Uno de los beneficios de las matrices de confusión es que facilitan ver si el sistema está confundiendo lasdiferentes clases o resultadosde la clasificación.

Si en los datos de entrada,  el número de muestras de clases diferentes cambia mucho,  la tasa de error del clasificador no será representativa. Si por ejemplo hay 990 muestras con resultado  1, pero solo 10 con resultado  2, el clasificador tendra  un sesgo a clasificar hacia la clase 1. Si el clasificador clasifica todas las muestras como clase 1 su precisión será del 99%. Esto no significa que sea un buen clasificador, pues tuvo un 100% de error en la clasificación de las muestras de la clase 2.

Veámoslo representado en la siguiente tabla:

 

 
  • VP es la cantidad de positivos que fueron clasificados correctamente como positivos por el modelo.
  • VN es la cantidad de negativos que fueron clasificados correctamente como negativos por el modelo.
  • FN es la cantidad de positivos que fueron clasificados incorrectamente como negativos. Error tipo 2 (Falsos Negativos)
  • FP es la cantidad de negativos que fueron clasificados incorrectamente como positivos. Error tipo 1 (Falsos positivos)

Breve explicación de LAS METRICAS :

a.) La Exactitud ( en inglés Accuracy )  y la Precisión (en inglés Precision)

1.) La Exactitud (accuracy)

la Exactitud  ( en inglés, “Accuracy”) se refiere a lo cerca que está el resultado de una medición del valor verdadero. En términos estadísticos, la exactitud está relacionada con el sesgo de una estimación. También se conoce como Verdadero Positivo (o “True positive rate”).  Se representa por la proporción entre los positivos reales predichos por el algoritmo y todos los casos positivos.  OJO:  en inglés en ocasiones se usa el término “precision” para la exactitud y el término español precisión ser refiere a “accuracy”. Lo que puede llevar a confusión.

En forma práctica la Exactitud es  la cantidad de predicciones positivas que fueron correctas

(VP+VN)/(VP+FP+FN+VN)

 

2.) La Precisión (precision)

La Precisión (en inglés “Precision”)  Se refiere a la dispersión del conjunto de valores obtenidos a partir de mediciones repetidas de una magnitud. Cuanto menor es la dispersión mayor la precisión. Se representa por la proporción entre el número de predicciones correctas (tanto positivas como negativas) y el total de predicciones. 

En forma práctica es  el porcentaje de casos positivos detectados.

Se calcula como:  VP/(VP+FP)

3.) Sesgo (Bias, Inaccuracy):

Es la diferencia entre el valor medio y el verdadero valor de la magnitud medida. El sesgo pertenece al concepto de exactitud.

b.) La  Sensibilidad (en Inglés Recall o sensitivity)  y la Especificidad )( En inglés Especificity)

La sensibilidad y la especificidad son dos valores que nos indican la capacidad de nuestro estimador para discriminar los casos positivos, de los negativos. La sensibilidad es la fracción de verdaderos positivos, mientras que la especifidad, es la fracción de verdaderos negativos.

1.) La Sensibilidad (“Recall” o “Sensitivity” ),

También se conoce como Tasa de Verdaderos Positivos (True Positive Rate) ó TP. Es la proporción de casos positivos que fueron correctamente identificadas por el algoritmo.
Se calcula:  VP/(VP+FN),   o lo que seria igual en términos de salud:  Verdaderos positivos / Total Enfermos (es la capacidad de de poder deterctar corrctamete la enfermedad entre los enfermos).

2.) La Especificidad (“Especificity”)

Tambien conocida como laTasa de Verdaderos Negativos, (“true negative rate”) o TN. Se trata de los casos negativos que el algoritmo ha clasificado correctamente.  Expresa cuan bien puede el modelo detectar esa clase.
Se calcula:  VN/(VN+FP), o lo que seria igual en términos de salud:  Verdaderos Negativos / Total Sanos (es la capacida de poder identificar los casos de los pacientes sanos entre todos los sanos)

 

De manera resumida:

 

EL F 1 SCORE

Combina precisión y sensibilidad en una sola métrica. (Precision y Recall en una sóla metrica) por ello es de gran utilidad cuando la distribución de las clases es desigual ( Ej. cuando se tienen pacientes etiquetados con Diabetes  y sin Diabetes)

Se calcula:  2 * (Recall * Precision) / (Recall + Precision)

Conforme a estas métricas tenemos cuatro casos posibles para cada clase:

  • Alta precision y alto recall: el modelo maneja perfectamente esa clase
  • Alta precision y bajo recall: el modelo no detecta la clase muy bien, pero cuando lo hace es altamente confiable.
  • Baja precisión y alto recall: La clase detecta bien la clase pero también incluye muestras de otras clases.
  • Baja precisión y bajo recall: El modelo no logra clasificar la clase correctamente.

Cuando tenemos un dataset con desequilibrio, suele ocurrir que obtenemos un alto valor de precisión en la clase Mayoritaria y un bajo recall en la clase Minoritaria.

Ejemplo de la matriz de confusion

 

      

Los valores del ejemplo 4 y 12 se refieren : a los falsos positivos de la clase 1,  arriba a la derecha:4  , y falsos negativos  de la clase 2,  abajo izquierda:12)

Si sumamos 4 +12 /80 nos dara el  20% que es la imprecision del modelo, o bien el 0.8 que es la precisión

Veamos un ejemplo con una salida típica de las métricas,  asociadas a la matriz de conmfusión en este caso con 2 clases y los valores de F1:

Si colocamos todas las métricas  en una solo gráfico obtenemos esto:

a es el número de predicciones correctas de clase negativa (negativos reales)

b es el número de predicciones incorrectas de clase positiva (falsos positivos)

c es el número de predicciones incorrectas de clase negativa (falsos negativos)

d es el número de predicciones correctas de clase positiva (positivos reales)

Si desea veer mas detalles de las formas de calculo y

 

 

 

 

 

 

 

 

Si desea ver las formulas de cáculo con mayor detalle puede consultar el blog de Carlos Zelada

Notas generales

La precisión es un gran estadístico, Pero es útil únicamente cuando se tienen datasets simétricos (la cantidad de Falsos negativos y de  falsos positivos es similar)

El indicador F1 de la matriz de confusión es útil si se  tiene una distribución de clases desigual.

Elija mayor precisión para conocer qué tan seguro está de los verdaderos positivos, Mientras que el “Recall” le servirá para saber si no está perdiendo positivos

Por ejemplo si cree que es mejor en su caso tener falsos positivos que falsos negativos, utilice un RECALL alto (sensibilidad) , cuando la aparición de falsos negativos le resulta inaceptable pero no le importa tener falsos positivos adicionales (falsas alarmas).

Un ejemplo de esto es:  Prefieres que algunas personas sanas sean etiquetadas como diabéticas en lugar de dejar a una persona diabética etiquetada como sana.

Elija precisión o precision en inglés  si quiere estar más seguro de sus verdaderos positivos. por ejemplo, correos electrónicos no deseados.  En este caso se prefiere tener algunos correos electrónicos “no deseados” en su bandeja de entrada en lugar de tener correos electrónicos “reales” en su bandeja de SPAM.

Elija Especificidad:  si desea identificar los verdaderos negativos, o lo que es igual cuando no desea falsos positivos.

Un ejemplo de esto es: Se está llevando a cabo una prueba de drogas en la que todas las personas que dan positivo irán a la cárcel de inmediato, la idea es que ninguna persona “libre de drogas” vaya a la cárcel. Los falsos positivos aquí son intolerables.

Escrito con base en los blogs de Juan Ignacio Baignato, de  Paloma Recuero   y el blog de  Sarang Narkhede.

https://towardsdatascience.com/understanding-confusion-matrix-a9ad42dcfd62

y el blog think big

 

 

 

 

One Response

  1. Arline Cruz dice:

    Muy completo, me ayudó mucho.

    Gracias

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *