Evaluación de algoritmos no supervisados

Inteligencia Artificial en Salud

Evaluación de algoritmos no supervisados

Evaluación de algoritmos no supervisados


Evaluación de modelos

La evaluación de modelos no supervisados puede ser un desafío debido a la ausencia de una «verdad fundamental» o de etiquetas de clasificación predefinidas, que es común en los modelos supervisados. A pesar de esto, existen varias técnicas que se utilizan para evaluar modelos no supervisados.

Cuando se habla de validar o evaluar un modelo de aprendizaje automático, es importante saber que las técnicas de validación empleadas no sólo ayudan a medir el rendimiento, sino que también contribuyen en gran medida a entender el modelo a un nivel más profundo. Esta es la razón por la que se dedica una cantidad significativa de tiempo al proceso de validación de resultados y evaluación del modelo mientras se construye un modelo de aprendizaje automático.  Puedes consultar nuestro articulo previo sobre evaluación de modelos supervisados en este enlace

La validación de resultados es un paso muy crucial, ya que garantiza que nuestro modelo da buenos resultados no sólo en los datos de entrenamiento, sino, lo que es más importante, también en los datos reales o de prueba.

¿En qué se diferencia la evaluación del aprendizaje supervisado?

En el caso del aprendizaje supervisado, la evaluación se realiza sobre todo midiendo las métricas de rendimiento como la exactitud, la precisión, exhaustividad, el AUC, etc. en el conjunto de entrenamiento y en los conjuntos de espera. Estas métricas de rendimiento ayudan a decidir la viabilidad del modelo. A continuación, podemos ajustar los hiperparámetros y repetir el mismo proceso hasta conseguir el rendimiento deseado. ver enlace como evaluar modelos de clasificación en este enlace

Sin embargo, en el caso del aprendizaje no supervisado, el proceso no es tan sencillo, ya que no tenemos la verdad de base (las etiquetas). En ausencia de etiquetas, es muy difícil identificar cómo se pueden validar los resultados.  Si quieres aprender más sobre los modelos no supervisados consulta el siguiente enlace

Por lo tanto, es en general difícil evaluar la calidad de un algoritmo no supervisado debido a la ausencia de una métrica de bondad explícita como la que se utiliza en el aprendizaje supervisado.

 

Técnicas de evaluación

Hay dos clases de técnicas Evaluación de algoritmos no supervisados en principio del aprendizaje de clusters . Estas son:

  1. Validación externa
  2. Validación interna

1. Validación externa

Métrica en la que se requieren etiquetas originales para evaluar los clusters.
Este tipo de validación se puede llevar a cabo si se dispone de etiquetas de cluster verdaderas.
En este enfoque tendremos un conjunto de clusters S = {C1, C2, C3,…, Cn } que han sido generados como resultado de algún algoritmo de clustering. Tendremos otro conjunto de clusters P = {D1, D2, D3,…, Dm} que representan las verdaderas etiquetas de los clusters sobre los mismos datos. La idea es medir la similitud estadística entre los dos conjuntos. Un conjunto de clusters se considera bueno si es muy similar al conjunto de clusters verdadero.
Para medir la similitud entre S y P, etiquetamos cada par de registros de los datos como Positivo si los pares pertenecen al mismo cluster en P, si no, Negativo. También se realiza un ejercicio similar para S. A continuación, calculamos una matriz de confusión entre las etiquetas de los pares de S y P que puede utilizarse para medir la similitud.

image.png

Las traducciones exactas de la imagen anterior se pueden encontrar a continuación:


Eje X: Etiquetas para P Eje Y: Etiquetas para S

  • TP: Número de pares de registros que están en el mismo cluster, tanto para S como para P.
  • FP: Número de pares de registros que están en el mismo cluster en S pero no en P.
  • FN: Número de pares de registros que están en el mismo cluster en P pero no en S.
  • TN: Número de pares de registros que no están en el mismo cluster en S y en P.

Sobre los 4 indicadores anteriores, podemos calcular diferentes métricas para obtener una estimación de la similitud entre S (etiquetas de cluster generadas por el método no supervisado) y P (verdaderas etiquetas de cluster). Algunos ejemplos de métricas que pueden utilizarse son Precisión, Exhaustividad y Valor F.

Representación matricial

Podemos representar nuestros resultados en una matriz, mostrando qué porcentaje de las canciones de cada lista de reproducción han acabado en cada cluster.
Si la agrupación hubiera sido perfecta, esperaríamos que cada fila y cada columna de la matriz contuvieran exactamente una entrada del 100% (no es necesario que esté en una diagonal, por supuesto, ya que la asignación del nombre del cluster es arbitraria).

Representación matricial para Algo 1

image.png

En enlace ‘ward’ por defecto, que trata de minimizar la varianza dentro de los clusters, ha hecho un buen trabajo con los cuatro géneros, aunque hay algunas fugas en el cluster B, es decir, en la 2ª columna, hay entradas en múltiples clusters y no sólo en uno.

Representación matricial para Algo 2

image.png

Está claro que el enlace completo no ha funcionado bien. Ha colocado gran parte del conjunto de datos en el cluster A. El cluster C consta de una sola canción de rap.

Representación matricial para Algo 3

image.png

En enlace-medio tiene problemas similares a el enlace-completo. Muchos puntos de datos se han colocado en un solo clúster, con dos clúster que consisten en una sola canción.

Representación matricial para Algo 4

image.png

Al igual que con el algoritmo análisis jerárquico de cluster (HAC) que utiliza el enlace ‘ward’, la agrupación K-Medias ha hecho un buen trabajo en la mayoría de los algoritmos, con algunas canciones de jazz y rap que se ‘confunden’ con el K-Pop.

Representación matricial

Aunque estas matrices son buenas para «echar un vistazo» a nuestros resultados, están lejos de ser matemáticamente rigurosas. Consideremos algunas métricas que nos ayuden a asignar un número a la calidad de nuestros clúster.

Índice de Rand ajustado

Esta medida compara cuán similares son dos agrupaciones de datos. Puede ser utilizado para comparar la agrupación producida por el modelo no supervisado con alguna agrupación de «verdad fundamental» predefinida, si existe.

El Índice de Rand ajustado intenta expresar qué proporción de las asignaciones de clúster son «correctas». Calcula una medida de similitud entre dos métodos de clustering diferentes considerando todos los pares de muestras, y contando los pares que se asignan en los mismos o diferentes clúster predichos, contra las verdaderas etiquetas de los clúster, ajustando el azar.

Esto (así como las otras métricas que consideraremos) puede ser evaluado usando Scikit-Learn.

image.png

El índice de Rand ajustado está delimitado entre -1 y 1. Más cerca de 1 es bueno, mientras que más cerca de -1 es malo.

image.png

Vemos que K-Medias y Enlace Ward tienen una puntuación alta. Es lo que esperábamos, basándonos en las matrices que hemos observado anteriormente.

Puntuación de Fowlkes Mallows

La puntuación de Fowlkes Mallow es similar al índice de Rand ajustado, en la medida en que indica el grado en que las asignaciones de clusters son «correctas».

En concreto, calcula la media geométrica (tipo especial de media en la que se multiplican los números y luego se saca una raíz cuadrada (para dos números)) entre la precisión y la recuperación. Está delimitada entre 0 y 1, y los valores más altos son mejores.

image.png
image.png

Tenemos clasificaciones similares a las del Índice de Rand ajustado, lo que era de esperar, dado que son dos métodos para intentar responder a la misma pregunta.

Índice de Silueta (Silhouette Index):

Este método utiliza la distancia media entre un punto de datos y todos los demás puntos en el mismo cluster (a), así como la distancia media entre un punto de datos y todos los demás puntos en el cluster más cercano (b). El índice de silueta es la diferencia entre b y a, dividida por el mayor de los dos valores. Los valores del índice de silueta oscilan entre -1 y 1, donde un valor cercano a 1 indica que los puntos de datos están bien agrupados.

Método de Elbow (Codo):

Esta técnica se utiliza para determinar el número óptimo de grupos en los algoritmos de agrupamiento, como K-means. Se grafica la variación dentro del grupo para diferentes números de grupos, y se busca un «codo» o punto de inflexión en la gráfica. El número de grupos correspondiente a este punto se considera el número óptimo.

Coeficiente de Correlación de Cophenetic:

Esta medida evalúa la calidad de un dendrograma (árbol jerárquico) en un algoritmo de agrupamiento jerárquico. Mide la correlación entre las distancias originales de los datos y las distancias de los datos en el dendrograma. Un valor cercano a 1 indica una representación de alta calidad.

Análisis de Componentes Principales (PCA):

Aunque no es una técnica de evaluación per se, el PCA puede utilizarse para visualizar los resultados de los modelos no supervisados. Esta técnica reduce la dimensionalidad de los datos, lo que permite una visualización en 2D o 3D.

Más técnicas de validación externa

Otras técnicas de validación externa son las siguientes y de Evaluación de algoritmos no supervisados incluyen:

  • Similitud de Jaccard
  • Información mutua

Inconvenientes de la validación externa

La validación empresarial/de usuario, como su nombre indica, requiere entradas externas a los datos.

La idea es generar clusters sobre la base de los conocimientos de los expertos en la materia y luego evaluar la similitud entre los dos conjuntos de clusters, es decir, los clusters generados por ML y los clusters generados como resultado de las entradas humanas.

Sin embargo, en la mayoría de los casos, estos conocimientos no están fácilmente disponibles. Además, este enfoque no es muy escalable. Por ello, en la práctica, se suele omitir la validación externa.

2. Validación interna

Métricas en las que no se requieren etiquetas originales para evaluar los clúster.

¿Por qué la validación interna?

Dado que tratar con datos no etiquetados es uno de los principales casos de uso del aprendizaje no supervisado, necesitamos algunas otras métricas que evalúen los resultados de la agrupación sin necesidad de referirse a las etiquetas «verdaderas».

¿Cómo la validación interna?

La mayor parte de la literatura relacionada con la validación interna para el aprendizaje de clusters gira en torno a los siguientes dos tipos de métricas

  1. La cohesión dentro de cada clúster
  2. Separación entre los distintos clúster
image.png

Intuición

Supongamos que tenemos los siguientes resultados de 3 análisis de clustering distintos.

image.png
image.png
image.png

Evidentemente, cuanto más «apretados» podamos hacer nuestros clúster, mejor. ¿Existe alguna forma de dar un número a esta idea de «estrechez»?

Métricas de validación interna

En la práctica, en lugar de tratar con dos métricas, existen varias medidas que combinan la cohesión y el acoplamiento en una sola medida. Algunos ejemplos de estas medidas son

  • Coeficiente de silueta
  • Coeficiente Calisnki-Harabasz
  • Índice de Dunn
  • Puntuación de Xie-Beni
  • Índice de Hartigan

Puntuación de silueta

La puntuación de silueta intenta describir la similitud de un punto de datos con otros puntos de datos de su clúster, en relación con los puntos de datos que no están en su clúster (esto se agrega a todos los puntos de datos para obtener la puntuación de un clúster global). En otras palabras, piensa en lo «distintos» que son los clúster en el espacio; de hecho, se podría utilizar cualquier medida de «distancia» para calcular la puntuación.

Está limitada entre -1 y 1. Más cerca de -1 sugiere una agrupación incorrecta, mientras que más cerca de +1 muestra que cada cluster es muy denso.

image.png
image.png

Vemos que ninguno de los clusters tiene puntuaciones de silueta muy altas. Curiosamente, vemos que los clusters de vinculación media tienen las puntuaciones más altas. Recuerde, sin embargo, que este algoritmo produjo dos clusters que contenían cada uno un solo punto de datos, lo cual es poco probable que sea un resultado deseable en una situación del mundo real (¡una lección de que a menudo no se puede confiar en una sola métrica para tomar decisiones sobre la calidad de un algoritmo!)

Índice Calinski Harabaz

El índice de Calinski Harabaz es la relación entre la varianza de un punto de datos comparado con los puntos de otros clúster, frente a la varianza comparada con los puntos de su clúster.

Como queremos que esta primera parte sea alta y la segunda baja, es deseable un índice CH alto. A diferencia de otras métricas que hemos visto, esta puntuación no está acotada.

image.png
image.png

Aquí vemos que nuestros algoritmos K-Medias y Enlace Ward obtienen una alta puntuación. Los algoritmos de enlace Completo y Medio son castigados por tener uno o dos clúster grandes, que tendrán un nivel más alto de intravarianza.

El presente articulo fue tomado del sitio aiplanet.com y fue complementado por el Dr. Juan I. Barrios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

HTML Snippets Powered By : XYZScripts.com