Criterios basados en distancias como indicadores de disimilaridad

                    DISTANCIA EUCLIDEA
                    DISTANCIA EUCLIDEA NORMALIZADA
                    DISTANCIA DE MAHALANOBIS
                    OTRAS DISTANCIAS

Se da, en general, el nombre de distancia o disimilaridad entre dos individuos i y j a una medida, indicada por d(i,j) , que mide el grado de semejanza, o a mejor decir de desemejanza, entre ambos objetos o individuos, en relación a un cierto número de características cuantitativa y / o cualitativas. El valor de d(i,j) es siempre un valor no negativo, y cuanto mayor sea este valor mayor será la diferencia entre los individuos i y j.

Toda distancia debe verificar, al menos, las siguientes propiedades:

(P.1)    d(i,j) > 0 (no negatividad)

(P.2)    d(i,i) = 0                         

(P.3)    d(i,j) = d(j,i) (simetría)     

Diremos que una distancia es euclidiana cuando pueda encontrarse un espacio vectorial de dimensión igual o inferior a la dimensión del espacio de las variables en el que podamos representar a los individuos por puntos cuya distancia euclídea ordinaria coincida con la distancia utilizada.

Es decir si existe un espacio vectorial Rm , con m < n (siendo n el número de variables consideradas para representar a los individuos ) y dos puntos de ese espacio, Pi y Pj de coordenadas : Pi = (Pi1 , Pi2 ,... Pi m ) y Pj = (Pj1 , Pj2 ,..., Pj m ) verificándose que la distancia que estamos considerando entre los individuos i y j es igual a la distancia euclídea entre los puntos Pi y Pj en Rm ; esto es: Si d (i,j) =º ( Pi - Pj )º , diremos que la distancia d (i,j) es euclidiana .

Cuando la distancia es euclidiana se verifica además que:

(P.4)         d(i,j)< d(i,t) + d(j,t) (desigualdad triangular)

(P.5)        d(i,j) > 0 " i ¹ j                                             

 

Cualquier distancia que verifica la propiedad P.4 es llamada distancia métrica. Cumpliéndose , en consecuencia, que las distancias euclidianas son un subconjunto de las distancias métricas.

Si además de verificar la propiedad P.4 una distancia verifica la propiedad:

(P.6) d(i,j) < max [ (d(i,t), d(j,t) ] (desigualdad triangular ultramétrica) se dice que la distancia es ultramétrica.

Existe una gran cantidad de distancias e indicadores de disimilaridad y no se puede disponer de una regla general que nos permita definir una disimilaridad conveniente para todo tipo de análisis. De las propiedades de que goce, de la naturaleza de las variables utilizadas y de los individuos estudiados y de la finalidad del análisis dependerá la adecuada elección de una u otra.

Comentaremos aquí, no todas y cada una de ellas, pero sí, al menos, las más importantes. Antes de pasar a ello hagamos algunas precisiones en cuestión de notación:

Recordemos que los datos de partida del análisis son las observaciones de n variables y N individuos.

Teniendo en cuenta esto, podemos representar a los individuos en el espacio de las variables de manera que representaremos al individuo i-simo por el vector :

                                             ; y al individuo j-simo:

 Ir a medidas de similitud y distancia

 Ir a Análisis Cluster

 

 

 

 

 

 

 

 

 

 

 

cluster