DISTANCIA DE MAHALANOBIS

La distancia de Mahalanobis entre los individuos i y j la definimos por la expresión:

d (i,j) = (Wi - Wj )' V-1 (Wi - Wj )

Donde la matriz asociada a la forma cuadrática V-1 es la inversa de la matriz de varianzas V.

Esta distancia presenta las ventajosas propiedades de solventar los dos inconvenientes de la aplicación de la distancia euclídea: Por una lado es invariante ante los cambios de escala y no depende, por tanto de las unidades de medida.

En efecto: Si consideramos las variables originales x representadas por el vector de variables:

y consideramos su transformación lineal a otras nuevas variables, y, representadas por el vector de variables: que vendrá dada por la relación Y = C X ;

 

                                                la matriz de varianzas de Y será : V= C' V C

En el espacio de las nuevas variables los individuos vendrán representados por un nuevo vector: W* = C' W

La distancia de Mahalanobis sobre las nuevas variables será entonces:

 

D (i,j) = (Wi* - Wj* )' V-1(Wi* - Wj*) =

(Wi - Wj )' C [(C' V-1 C) ]C' (Wi - Wj )==(Wi-Wj)'V-1(Wi-Wj)

que es la distancia de Mahalanobis calculada sobre las variables originales.

Por otro lado al utilizar la matriz V , se consideran las correlaciones entre las variables y se corrige el efecto de la redundancia.

Es interesante hacer ahora dos observaciones finales más:

1)Si las variables están incorrelacionadas, la distancia de Mahalanobis coincide con la distancia euclídea normalizada.

En efecto: Si las variables están incorrelacionadas la matriz V coincide con la matriz S , y, por tanto, la inversa de V coincidirá con la inversa de S.

2)La distancia de Mahalanobis coincide con la distancia euclídea calculada sobre el espacio de las componentes principales.

Este importante resultado tendrá una consecuencia práctica clave en el desarrollo de nuestro trabajo empírico: el programa de análisis cluster del paquete informático utilizado (S.P.S.S) no dispone de la opción de análisis con la distancia de Mahalanobis, pero basándonos en esta propiedad procederemos a la clusterización equivalente utilizando las componentes principales.

Veamos ahora cómo se cumple esta propiedad:

La distancia de Mahalanobis es, como sabemos, invariante respecto de los cambios de escala. En particular, será invariante respecto de la tipificación. De forma que podemos partir de la distancia de Mahalanobis sobre el espacio de las variables tipificadas. En consecuencia representaremos cada individuo por el vector:

                    La distancia de Mahalanobis entre los individuos i y j vendrá dada por :

                                                    D (i,j) = (Wi - Wj )' R-1 (Wi - Wj )

Por otro lado, R = A'A (donde A es la matriz factorial); y de la relación entre componentes principales y variables originales, tenemos que:Z = A F.

De manera que si el i-simo individuo puede describirse en función de las componentes principales como:

tendremos que Wi* = A'Wi

De forma que la distancia de Mahalanobis quedaría:

D (i,j) = (Wi - Wj )'R-1 (Wi - Wj )=

= (Wi - Wj )'(A A') -1 (Wi - Wj ) = (Wi - Wj )' A A' (Wi - Wj ) = (Wi* - Wj* )' (Wi* - Wj*)

es decir, la distancia euclídea entre los individuos considerados en función de las componentes principales.

Para los casos en los que existan relaciones lineales entre las variables, y, por tanto, la matriz V sea singular, la distancia de Mahalanobis puede generalizarse como:

D (i,j) = (W - W )' G (W - W ) donde G es una g-inversa que verifica que V G V = V .

 Ir a medidas de similitud y distanciaa

Ir a análisis  Cluster