Criterios de similitud. Similitud, divergencia y distancia

 Criterios basados en distancias como indicadores de disimilaridad
                    DISTANCIA EUCLIDEA
                    DISTANCIA EUCLIDEA NORMALIZADA
                    DISTANCIA DE MAHALANOBIS
                    OTRAS DISTANCIAS

Criterios basados en similaridades. Medidas de similaridad

 Ir a Análisis Cluster  Ir a fases

       Una vez hemos hecho una adecuada selección de las variables a considerar, cada uno de los individuos sujetos al análisis nos vendrá representado por los valores que tomen estas variables en cada uno de ellos. Este es el punto de partida de la clasificación. Para clasificar adecuadamente los individuos deberemos determinar lo similares o disimilares (divergentes) que son entre sí, en función de lo diferentes que resulten ser sus representaciones en el espacio de las variables.

        Para medir lo similares ( o disimilares) que son los individuos existe una enorme cantidad de índices desimilaridad y de disimilaridad o divergencia. Todos ellos tienen propiedades y utilidades distintas y habrá que ser consciente de ellas para su correcta aplicación al caso que nos ocupe.

        La mayor parte de estos índices serán o bien, indicadores basados en la distancia (considerando a los individuos como vectores en el espacio de las variables) (en este sentido un elevado valor de la distancia entre dos individuos nos indicará un alto grado de disimilaridad entre ellos); o bien, indicadores basados en coeficientes de correlación ; o bien basados en tablas de datos de posesión o no de una serie de atributos.

 

Criterios basados en distancias como indicadores de disimilaridad

Se da, en general, el nombre de distancia o disimilaridad entre dos individuos i y j a una medida, indicada por d(i,j) , que mide el grado de semejanza, o a mejor decir de desemejanza, entre ambos objetos o individuos, en relación a un cierto número de características cuantitativa y / o cualitativas. El valor de d(i,j) es siempre un valor no negativo, y cuanto mayor sea este valor mayor será la diferencia entre los individuos i y j.

Toda distancia debe verificar, al menos, las siguientes propiedades:

(P.1)    d(i,j) > 0 (no negatividad)

(P.2)    d(i,i) = 0                         

(P.3)    d(i,j) = d(j,i) (simetría)     

Diremos que una distancia es euclidiana cuando pueda encontrarse un espacio vectorial de dimensión igual o inferior a la dimensión del espacio de las variables en el que podamos representar a los individuos por puntos cuya distancia euclídea ordinaria coincida con la distancia utilizada.

Es decir si existe un espacio vectorial Rm , con m < n (siendo n el número de variables consideradas para representar a los individuos ) y dos puntos de ese espacio, Pi y Pj de coordenadas : Pi = (Pi1 , Pi2 ,... Pi m ) y Pj = (Pj1 , Pj2 ,..., Pj m ) verificándose que la distancia que estamos considerando entre los individuos i y j es igual a la distancia euclídea entre los puntos Pi y Pj en Rm ; esto es: Si d (i,j) =º ( Pi - Pj )º , diremos que la distancia d (i,j) es euclidiana .

Cuando la distancia es euclidiana se verifica además que:

(P.4)         d(i,j)< d(i,t) + d(j,t) (desigualdad triangular)

(P.5)        d(i,j) > 0 " i ¹ j                                             

 

Cualquier distancia que verifica la propiedad P.4 es llamada distancia métrica. Cumpliéndose , en consecuencia, que las distancias euclidianas son un subconjunto de las distancias métricas.

Si además de verificar la propiedad P.4 una distancia verifica la propiedad:

(P.6) d(i,j) < max [ (d(i,t), d(j,t) ] (desigualdad triangular ultramétrica) se dice que la distancia es ultramétrica.

Existe una gran cantidad de distancias e indicadores de disimilaridad y no se puede disponer de una regla general que nos permita definir una disimilaridad conveniente para todo tipo de análisis. De las propiedades de que goce, de la naturaleza de las variables utilizadas y de los individuos estudiados y de la finalidad del análisis dependerá la adecuada elección de una u otra.

Comentaremos aquí, no todas y cada una de ellas, pero sí, al menos, las más importantes. Antes de pasar a ello hagamos algunas precisiones en cuestión de notación:

Recordemos que los datos de partida del análisis son las observaciones de n variables y N individuos.

Teniendo en cuenta esto, podemos representar a los individuos en el espacio de las variables de manera que representaremos al individuo i-simo por el vector :

                                             ; y al individuo j-simo:

DISTANCIA EUCLIDEA

    La distancia euclídea es la disimilaridad más conocida y más sencilla de comprender, pues su definición coincide con el concepto más común de distancia.

Su expresión es la siguiente:             d (i,j) = (Wi - Wj )' (Wi - Wj)

La distancia euclídea, a pesar de su sencillez de cálculo y de que verifica algunas propiedades interesantes tiene dos graves inconvenientes:

La solución a este problema pasa por analizar las componentes principales (que están incorrelacionadas) en vez de las variables originales. Otra posible solución es ponderar la contribución de cada par de variables con pesos inversamente proporcionales a las correlaciones, lo que nos lleva, como veremos a la utilización de la distancia de Mahalanobis.

La distancia euclídea será, en consecuencia, recomendable cuando las variables sean homogéneas y estén medidas en unidades similares y/o cuando se desconozca la matriz de varianzas.

 

DISTANCIA EUCLIDEA NORMALIZADA

La distancia euclídea normalizada entre los individuos i y j la definiremos como : d (i,j)= (Wi - Wj)' S-1 (Wi - Wj)

Donde S es una matriz diagonal con las varianzas en su diagonal principal y ceros en el resto de sus elementos.
Obviamente S-1 será su inversa: la matriz diagonal que tendrá los valores recíprocos de las varianzas en su diagonal.

Utilizar como matriz de la forma cuadrática distancia la matriz S-1 , en vez de la matriz identidad, I, es, claramente, equivalente a utilizar como valores de partida los valores de las variables cambiados de escala a la desviación típica de las variables.

Empleando este tipo de distancia solventamos el inconveniente de los efectos de unidades de medida distintas de las variables y obtenemos una distancia que no dependerá de las unidades de medida.

Sin embargo, la alta correlación entre algunas variables puede seguir siendo un grave inconveniente.

 

DISTANCIA DE MAHALANOBIS

La distancia de Mahalanobis entre los individuos i y j la definimos por la expresión: d (i,j) = (Wi - Wj )' V-1 (Wi - Wj )

Donde la matriz asociada a la forma cuadrática V-1 es la inversa de la matriz de varianzas V.

Esta distancia presenta las ventajosas propiedades de solventar los dos inconvenientes de la aplicación de la distancia euclídea: Por una lado es invariante ante los cambios de escala y no depende, por tanto de las unidades de medida.

En efecto: Si consideramos las variables originales x representadas por el vector de variables:

y consideramos su transformación lineal a otras nuevas variables, y, representadas por el vector de variables: que vendrá dada por la relación Y = C X ;

 

                                                la matriz de varianzas de Y será : V= C' V C

En el espacio de las nuevas variables los individuos vendrán representados por un nuevo vector: W* = C' W

La distancia de Mahalanobis sobre las nuevas variables será entonces:

 

D (i,j) = (Wi* - Wj* )' V-1(Wi* - Wj*) =

(Wi - Wj )' C [(C' V-1 C) ]C' (Wi - Wj )==(Wi-Wj)'V-1(Wi-Wj)

que es la distancia de Mahalanobis calculada sobre las variables originales.

Por otro lado al utilizar la matriz V , se consideran las correlaciones entre las variables y se corrige el efecto de la redundancia.

Es interesante hacer ahora dos observaciones finales más:

1)Si las variables están incorrelacionadas, la distancia de Mahalanobis coincide con la distancia euclídea normalizada.

En efecto: Si las variables están incorrelacionadas la matriz V coincide con la matriz S , y, por tanto, la inversa de V coincidirá con la inversa de S.

2)La distancia de Mahalanobis coincide con la distancia euclídea calculada sobre el espacio de las componentes principales.

Este importante resultado tendrá una consecuencia práctica clave en el desarrollo de nuestro trabajo empírico: el programa de análisis cluster del paquete informático utilizado (S.P.S.S) no dispone de la opción de análisis con la distancia de Mahalanobis, pero basándonos en esta propiedad procederemos a la clusterización equivalente utilizando las componentes principales.

Veamos ahora cómo se cumple esta propiedad:

La distancia de Mahalanobis es, como sabemos, invariante respecto de los cambios de escala. En particular, será invariante respecto de la tipificación. De forma que podemos partir de la distancia de Mahalanobis sobre el espacio de las variables tipificadas. En consecuencia representaremos cada individuo por el vector:

                    La distancia de Mahalanobis entre los individuos i y j vendrá dada por :

                                                    D (i,j) = (Wi - Wj )' R-1 (Wi - Wj )

Por otro lado, R = A'A (donde A es la matriz factorial); y de la relación entre componentes principales y variables originales, tenemos que:Z = A F.

De manera que si el i-simo individuo puede describirse en función de las componentes principales como:

tendremos que Wi* = A'Wi

De forma que la distancia de Mahalanobis quedaría:

D (i,j) = (Wi - Wj )'R-1 (Wi - Wj )=

= (Wi - Wj )'(A A') -1 (Wi - Wj ) = (Wi - Wj )' A A' (Wi - Wj ) = (Wi* - Wj* )' (Wi* - Wj*)

es decir, la distancia euclídea entre los individuos considerados en función de las componentes principales.

Para los casos en los que existan relaciones lineales entre las variables, y, por tanto, la matriz V sea singular, la distancia de Mahalanobis puede generalizarse como:

D (i,j) = (W - W )' G (W - W ) donde G es una g-inversa que verifica que V G V = V .

 

OTRAS DISTANCIAS

Además de las tres distancias citadas, que son las más utilizadas, cabe mencionar, entre otras:

LA DISTANCIA MANHATTAN O CIUDAD:

D (i,j) = S| xki - xkj |

LA DISTANCIA DE CHEBYSHEV:

D (i,j) = Max| xki - xkj |

LAS DISTANCIAS DE MINKOWSKI

D(i,j) = (S(xki - xkj)r )1/r

donde al ir variando el valor de r se van generando distintas distancias.

 

Criterios basados en similaridades. Medidas de similaridad

    Para determinar la homogeneidad entre los individuos se puede trabajar con indicadores de su divergencia o disimilaridad, como las distancias que hemos relatado anteriormente; o bien, podemos utilizar indicadores de la similitud.

Si una distancia alta entre individuos nos indica que son muy diferentes y una baja que son muy similares; los indicadores de similitud actuar n de manera contraria: conforme aumente su valor, aumentará  la similaridad entre los individuos.Muchos de los indicadores de similitud se basan en coeficientes de correlación o de asociación.
El coeficiente de correlación de Pearson se utiliza, en ocasiones, preferentemente con datos cuantitativos y utilizando el algoritmo de distancia mínima. Los coeficientes de correlación por rangos de Kendall y Spearman se utilizan, también, en casos de variables ordinales.

Para variables binarias se utilizan distintos coeficientes de asociación o matching type:

    índice binario:

donde m es el número de coincidencias y M el un número total de variables comunes.

    índice de Tanimoto

donde h es el número de variables con 1 en los dos individuos y H es el número de variables con algún 1.

y una veintena de indicadores más que no tiene sentido mencionar aquí .