INTRODUCCIÓN AL ANÁLISIS CLUSTER    Creative Commons License



ANÁLISIS CLUSTER

Planteamiento general

El análisis cluster es un conjunto de técnicas multivariantes utilizadas para clasificar a un conjunto de individuos en grupos homogéneos.

Pertenece, al igual que otras tipologías y que el análisis discriminante al conjunto de técnicas que tiene por objetivo la clasificación de los individuos. La diferencia fundamental entre el análisis cluster y el discriminante reside en que en el análisis cluster los grupos son desconocidos a priori y son precisamente lo que queremos determinar; mientras que en el análisis discriminante, los grupos son conocidos y lo que pretendemos es saber en qué medida las variables disponibles nos discriminan esos grupos y nos pueden ayudar a clasificar o asignar los individuos en/a los grupos dados .

Así pues, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el análisis un marcado carácter exploratorio.

Se trata, fundamentalmente, de resolver el siguiente problema: Dado un conjunto de individuos (de N elementos) caracterizados por la información de n variables Xj , (j = 1,2,..., n), nos planteamos el reto de ser capaces de clasificarlos de manera que los individuos pertenecientes a un grupo (cluster) (y siempre con respecto a la información disponible) sean tan similares entre sí como sea posible, siendo los distintos grupos entre ellos tan disimilares como sea posible.

Como puede comprenderse fácilmente el análisis cluster tiene una extraordinaria importancia en la investigación científica, en cualquier rama del saber. Téngase presente que la clasificación es uno de los objetivos fundamentales de la ciencia .Y en la medida en que el análisis cluster nos proporciona los medios técnicos para realizarla, se nos hará imprescindible en cualquier investigación.

    Ya desde Linneo, las clasificaciones y taxonomías fueron piezas clave en las investigaciones biológicas, y, en consecuencia, no puede resultarnos extraño que haya sido en los entornos de este tipo de ciencias donde hayan surgido las técnicas del análisis cluster. Los trabajos de Sokal y Sneath , marcan el inicio de las técnicas de clusterización, que, poco a poco, han ido extendiendo sus aplicaciones a todos los ámbitos científicos.

Con el análisis cluster se pretende encontrar un conjunto de grupos a los que ir asignando los distintos individuos por algún criterio de homogeneidad. Por lo tanto, se hace imprescindible definir una medida de similitud o bien de divergencia para ir clasificando a los individuos en unos u otros grupos.

Además algunas consideraciones podrán tenerse en cuenta antes de comenzar el análisis:

Así, debemos plantearnos si vamos a comenzar la agrupación partiendo de algunos grupos ya establecidos o si, por el contrario, comenzaremos por considerar cada elemento individual como un cluster inicial que posteriormente iremos agrupando hasta obtener los clusters finales: Deberemos plantearnos la posibilidad de reasignaciones a lo largo del proceso. Igualmente deberemos establecer criterios para detener la agrupación y para llevarla a cabo.

Básicamente, el análisis constará de un algoritmo de clasificación que nos permitirá la obtención de una o varias particiones, de acuerdo con los criterios establecidos

        El proceso completo puede estructurarse de acuerdo con el siguiente esquema:

 

 

Así pues, la clave de una buena clasificación pasará por :

a) Una buena selección de las variables que nos van a describir a los individuos. En este sentido un análisis de datos previo puede ser necesario o interesante. La posibilidad de combinar secuencialmente el análisis factorial y el análisis cluster, como se hará aquí, puede ser provechosa.

b) Poner buen cuidado en el criterio de similiaridad a utilizar.

c) Seleccionar adecuadamente el algoritmo de clasificación.

Así pues, en las siguientes páginas dedicaremos algún espacio a reseñar los criterios más importantes de similaridad y los principales métodos de análisis , centrándonos en los algoritmos de clasificación jerárquica ascendente más utilizados.

 

Criterios de similitud. Similitud, divergencia y distancia

 

        Una vez hemos hecho una adecuada selección de las variables a considerar, cada uno de los individuos sujetos al análisis nos vendrá representado por los valores que tomen estas variables en cada uno de ellos. Este es el punto de partida de la clasificación. Para clasificar adecuadamente los individuos deberemos determinar lo similares o disimilares (divergentes) que son entre sí, en función de lo diferentes que resulten ser sus representaciones en el espacio de las variables.

        Para medir lo similares ( o disimilares) que son los individuos existe una enorme cantidad de índices de similaridad y de disimilaridad o divergencia. Todos ellos tienen propiedades y utilidades distintas y habrá que ser consciente de ellas para su correcta aplicación al caso que nos ocupe.

        La mayor parte de estos índices serán o bien, indicadores basados en la distancia (considerando a los individuos como vectores en el espacio de las variables) (en este sentido un elevado valor de la distancia entre dos individuos nos indicará un alto grado de disimilaridad entre ellos); o bien, indicadores basados en coeficientes de correlación ; o bien basados en tablas de datos de posesión o no de una serie de atributos.

 

Criterios basados en distancias como indicadores de disimilaridad

Se da, en general, el nombre de distancia o disimilaridad entre dos individuos i y j a una medida, indicada por d(i,j) , que mide el grado de semejanza, o a mejor decir de desemejanza, entre ambos objetos o individuos, en relación a un cierto número de características cuantitativa y / o cualitativas. El valor de d(i,j) es siempre un valor no negativo, y cuanto mayor sea este valor mayor será la diferencia entre los individuos i y j.

Toda distancia debe verificar, al menos, las siguientes propiedades:

(P.1)    d(i,j) > 0 (no negatividad)

(P.2)    d(i,i) = 0                         

(P.3)    d(i,j) = d(j,i) (simetría)     

Diremos que una distancia es euclidiana cuando pueda encontrarse un espacio vectorial de dimensión igual o inferior a la dimensión del espacio de las variables en el que podamos representar a los individuos por puntos cuya distancia euclídea ordinaria coincida con la distancia utilizada.

Es decir si existe un espacio vectorial Rm , con m < n (siendo n el número de variables consideradas para representar a los individuos ) y dos puntos de ese espacio, Pi y Pj de coordenadas : Pi = (Pi1 , Pi2 ,... Pi m ) y Pj = (Pj1 , Pj2 ,..., Pj m ) verificándose que la distancia que estamos considerando entre los individuos i y j es igual a la distancia euclídea entre los puntos Pi y Pj en Rm ; esto es: Si d (i,j) =º ( Pi - Pj )º , diremos que la distancia d (i,j) es euclidiana .

Cuando la distancia es euclidiana se verifica además que:

(P.4)         d(i,j)< d(i,t) + d(j,t) (desigualdad triangular)

(P.5)        d(i,j) > 0 " i ¹ j                                             

 

Cualquier distancia que verifica la propiedad P.4 es llamada distancia métrica. Cumpliéndose , en consecuencia, que las distancias euclidianas son un subconjunto de las distancias métricas.

Si además de verificar la propiedad P.4 una distancia verifica la propiedad:

(P.6) d(i,j) < max [ (d(i,t), d(j,t) ] (desigualdad triangular ultramétrica) se dice que la distancia es ultramétrica.

Existe una gran cantidad de distancias e indicadores de disimilaridad y no se puede disponer de una regla general que nos permita definir una disimilaridad conveniente para todo tipo de análisis. De las propiedades de que goce, de la naturaleza de las variables utilizadas y de los individuos estudiados y de la finalidad del análisis dependerá la adecuada elección de una u otra.

Comentaremos aquí, no todas y cada una de ellas, pero sí, al menos, las más importantes. Antes de pasar a ello hagamos algunas precisiones en cuestión de notación:

Recordemos que los datos de partida del análisis son las observaciones de n variables y N individuos.

Teniendo en cuenta esto, podemos representar a los individuos en el espacio de las variables de manera que representaremos al individuo i-simo por el vector :

                                             ; y al individuo j-simo:

DISTANCIA EUCLIDEA

    La distancia euclídea es la disimilaridad más conocida y más sencilla de comprender, pues su definición coincide con el concepto más común de distancia.

Su expresión es la siguiente:             d (i,j) = (Wi - Wj )' (Wi - Wj)

La distancia euclídea, a pesar de su sencillez de cálculo y de que verifica algunas propiedades interesantes tiene dos graves inconvenientes:

La solución a este problema pasa por analizar las componentes principales (que están incorrelacionadas) en vez de las variables originales. Otra posible solución es ponderar la contribución de cada par de variables con pesos inversamente proporcionales a las correlaciones, lo que nos lleva, como veremos a la utilización de la distancia de Mahalanobis.

La distancia euclídea será, en consecuencia, recomendable cuando las variables sean homogéneas y estén medidas en unidades similares y/o cuando se desconozca la matriz de varianzas.

 

DISTANCIA EUCLIDEA NORMALIZADA

La distancia euclídea normalizada entre los individuos i y j la definiremos como : d (i,j)= (Wi - Wj)' S-1 (Wi - Wj)

Donde S es una matriz diagonal con las varianzas en su diagonal principal y ceros en el resto de sus elementos.
Obviamente S-1 será su inversa: la matriz diagonal que tendrá los valores recíprocos de las varianzas en su diagonal.

Utilizar como matriz de la forma cuadrática distancia la matriz S-1 , en vez de la matriz identidad, I, es, claramente, equivalente a utilizar como valores de partida los valores de las variables cambiados de escala a la desviación típica de las variables.

Empleando este tipo de distancia solventamos el inconveniente de los efectos de unidades de medida distintas de las variables y obtenemos una distancia que no dependerá de las unidades de medida.

Sin embargo, la alta correlación entre algunas variables puede seguir siendo un grave inconveniente.

 

DISTANCIA DE MAHALANOBIS

La distancia de Mahalanobis entre los individuos i y j la definimos por la expresión: d (i,j) = (Wi - Wj )' V-1 (Wi - Wj )

Donde la matriz asociada a la forma cuadrática V-1 es la inversa de la matriz de varianzas V.

Esta distancia presenta las ventajosas propiedades de solventar los dos inconvenientes de la aplicación de la distancia euclídea: Por una lado es invariante ante los cambios de escala y no depende, por tanto de las unidades de medida.

En efecto: Si consideramos las variables originales x representadas por el vector de variables:

y consideramos su transformación lineal a otras nuevas variables, y, representadas por el vector de variables: que vendrá dada por la relación Y = C X ;

 

                                                la matriz de varianzas de Y será : V= C' V C

En el espacio de las nuevas variables los individuos vendrán representados por un nuevo vector: W* = C' W

La distancia de Mahalanobis sobre las nuevas variables será entonces:

 

D (i,j) = (Wi* - Wj* )' V-1(Wi* - Wj*) =

(Wi - Wj )' C [(C' V-1 C) ]C' (Wi - Wj )==(Wi-Wj)'V-1(Wi-Wj)

que es la distancia de Mahalanobis calculada sobre las variables originales.

Por otro lado al utilizar la matriz V , se consideran las correlaciones entre las variables y se corrige el efecto de la redundancia.

Es interesante hacer ahora dos observaciones finales más:

1)Si las variables están incorrelacionadas, la distancia de Mahalanobis coincide con la distancia euclídea normalizada.

En efecto: Si las variables están incorrelacionadas la matriz V coincide con la matriz S , y, por tanto, la inversa de V coincidirá con la inversa de S.

2)La distancia de Mahalanobis coincide con la distancia euclídea calculada sobre el espacio de las componentes principales.

Este importante resultado tendrá una consecuencia práctica clave en el desarrollo de nuestro trabajo empírico: el programa de análisis cluster del paquete informático utilizado (S.P.S.S) no dispone de la opción de análisis con la distancia de Mahalanobis, pero basándonos en esta propiedad procederemos a la clusterización equivalente utilizando las componentes principales.

Veamos ahora cómo se cumple esta propiedad:

La distancia de Mahalanobis es, como sabemos, invariante respecto de los cambios de escala. En particular, será invariante respecto de la tipificación. De forma que podemos partir de la distancia de Mahalanobis sobre el espacio de las variables tipificadas. En consecuencia representaremos cada individuo por el vector:

                    La distancia de Mahalanobis entre los individuos i y j vendrá dada por :

                                                    D (i,j) = (Wi - Wj )' R-1 (Wi - Wj )

Por otro lado, R = A'A (donde A es la matriz factorial); y de la relación entre componentes principales y variables originales, tenemos que:Z = A F.

De manera que si el i-simo individuo puede describirse en función de las componentes principales como:

tendremos que Wi* = A'Wi

De forma que la distancia de Mahalanobis quedaría:

D (i,j) = (Wi - Wj )'R-1 (Wi - Wj )=

= (Wi - Wj )'(A A') -1 (Wi - Wj ) = (Wi - Wj )' A A' (Wi - Wj ) = (Wi* - Wj* )' (Wi* - Wj*)

es decir, la distancia euclídea entre los individuos considerados en función de las componentes principales.

Para los casos en los que existan relaciones lineales entre las variables, y, por tanto, la matriz V sea singular, la distancia de Mahalanobis puede generalizarse como:

D (i,j) = (W - W )' G (W - W ) donde G es una g-inversa que verifica que V G V = V .

 

OTRAS DISTANCIAS

Además de las tres distancias citadas, que son las más utilizadas, cabe mencionar, entre otras:

LA DISTANCIA MANHATTAN O CIUDAD:

D (i,j) = S| xki - xkj |

LA DISTANCIA DE CHEBYSHEV:

D (i,j) = Max| xki - xkj |

LAS DISTANCIAS DE MINKOWSKI

D(i,j) = (S(xki - xkj)r )1/r

donde al ir variando el valor de r se van generando distintas distancias.

 

Criterios basados en similaridades. Medidas de similaridad

    Para determinar la homogeneidad entre los individuos se puede trabajar con indicadores de su divergencia o disimilaridad, como las distancias que hemos relatado anteriormente; o bien, podemos utilizar indicadores de la similitud.

Si una distancia alta entre individuos nos indica que son muy diferentes y una baja que son muy similares; los indicadores de similitud actuar n de manera contraria: conforme aumente su valor, aumentará  la similaridad entre los individuos.Muchos de los indicadores de similitud se basan en coeficientes de correlación o de asociación.
El coeficiente de correlación de Pearson se utiliza, en ocasiones, preferentemente con datos cuantitativos y utilizando el algoritmo de distancia mínima. Los coeficientes de correlación por rangos de Kendall y Spearman se utilizan, también, en casos de variables ordinales.

Para variables binarias se utilizan distintos coeficientes de asociación o matching type:

    índice binario:

donde m es el número de coincidencias y M el un número total de variables comunes.

    índice de Tanimoto

donde h es el número de variables con 1 en los dos individuos y H es el número de variables con algún 1.

y una veintena de indicadores más que no tiene sentido mencionar aquí .

 

Medidas de similitud y distancia entre grupos

La aplicación del análisis cluster requiere, por lo general, no sólo el cálculo de las distancias o similitudes entre los individuos iniciales, sino, también la determinación de las distancias o similaridades entre los grupos y/o entre un grupo y un individuo.

Esta necesidad de determinar las distancias o similaridades entre grupos es especialmente importante en los métodos jerárquico s, como se ver  más  tarde.

Hay varias alternativas diferentes para definir la distancia entre grupos:

DISTANCIA MINIMA (NEAREST NEIGHBOUR DISTANCE)

Podemos definir la distancia entre un grupo y un individuo como la menor de las distancias entre los individuos del grupo y el individuo exterior considerado.

Si llamamos I al grupo formado por los individuos (i1 , i2 ,... ii ) y j al individuo exterior, definiremos, entonces, la distancia entre I y j como:    D (I,j) = min D (i , j)

Análogamente, siguiendo este criterio, puede definirse la distancia entre dos grupos I = { i1 , i2 ,... ii } y J = { j1 , j2 ,... jj }, como la mínima de las distancias entre un individuo de I y otro de J: D (I,J) = min D (i ,j )

Como veremos, la distancia mínima será  la utilizada en el algoritmo jerárquico de clasificación conocido como método de la distancia mínima o single linkage.

 

DISTANCIA MAXIMA (FURTHEST NEIGHBOUR DISTANCE)

También podemos definir la distancia entre un grupo I y un individuo j como el valor máximo de las distancias entre j y los individuos de I; esto es:D (I,j) = max D (i , j)

Y, la distancia entre dos grupos, I y J, análogamente, sería :  D (I,J) = max D (i , j )

Esta distancia ser  la utilizada en el método o algoritmo de la distancia máxima o complete linkage.

 

DISTANCIA ENTRE CENTROIDES

También se puede definir la distancia entre el grupo I y el individuo j como la distancia entre el centroide o centro de gravedad de I y j. Si i es el centro de gravedad de I, tendremos que: D(I,j) = D (i, j)

Y de la misma manera la distancia entre dos grupos I y J nos vendrá  dada por la distancia entre sus centroides:
D (I,J) = D (i, j )

Estas y otras definiciones de distancias entre grupos serán utilizadas como criterios a emplear en los distintos algoritmos de clasificación

Por lo que hace a los indicadores de similaridad, algunos criterios se han dado para la definición de la similaridad entre grupos. Así, por ejemplo, Lance y Williams proponen como similaridad entre los grupos I y J :

 

 

Métodos de análisis cluster

De acuerdo con Cuadras una clasificación puede ser :

A) Aglomerativa o divisiva.

Será  aglomerativa o ascendente si se parte inicialmente de los individuos que se van , progresivamente fusionando, formando grupos que constituyen las sucesivas particiones. Por el contrario, ser  divisiva o descendente si se parte de todo el conjunto de individuos como un conglomerado y se va sucesivamente subdividiendo en grupos más pequeños.

B)Jerárquica o no jerárquica.

En una clasificación no jerárquica se forman grupos homogéneos sin establecer relaciones entre ellos. En una clasificación jerárquica, en cambio, los grupos se van fusionando (o subdividiendo) sucesivamente, siguiendo una prelación o jerarquía, decreciendo la homogeneidad conforme se van haciendo más amplios.

C)Monotética o politética.

Una clasificación monotética está  basada en una única característica muy relevante. Se procede de forma divisiva, separando entre individuos que la tienen e individuos que no la tienen.

Una clasificación politética está  basada en un gran número de características y no se exige que todos los miembros de un conglomerado posean todas las características, (aunque sí que tengan cierta homogeneidad en ellas). Usualmente se procede en estos casos de forma aglomerativa.

Sin perder de vista estas distinciones, los distintos métodos de análisis cluster pueden ser considerados como pertenecientes a una de las siguientes cinco categorías :

1) Métodos jerárquicos

2)Métodos de optimización

3)Métodos de densidad (o mode-seeking)

4)Métodos "Clumping" (o de partición)

5)Y otros métodos que no pueden ser integrados en las cuatros anteriores.

Los métodos jerárquicos son, quizá , los que han sido más desarrollados y serán los que dedicaremos mayor atención en el siguiente sub-epígrafe. Aquí, daremos, en cambio, un vistazo general a las otras técnicas.

Los métodos de optimización se caracterizan fundamentalmente porque se admite en ellos la "reasignación" de un individuo. Esto es, una vez considerado un individuo como miembro de un cluster, en un siguiente paso del análisis, puede, muy bien, salirse de él e integrarse en otro si de esta forma se mejora (optimiza) la partición. Esta posibilidad permite la sucesiva mejora de la partición inicial. Por lo general, estos métodos asumen a priori un número de clusters a formar. Son llamados así porque pretenden obtener la partición que optimice una cierta medida numérica definida. Los distintos métodos de optimización se diferencian entre sí en la manera de obtener la partición inicial y en la medida a optimizar en el proceso.

                                Los criterios de optimización suelen ser:

Los métodos de densidad se basan en la idea de construir "clusters naturales" partiendo de la mayor o menor densidad de puntos de las distintas zonas del espacio (de las variables) en el que están los individuos.

Y, por último, los métodos clumping utilizados usualmente en estudios lingüísticos, permiten el solapamiento de los grupos, de ahí que quizá el nombre de "métodos de partición" con el que suele traducírseles no sea muy adecuado.

 

Métodos jerárquicos

    En los métodos jerárquicos los individuos no se particionan en clusters de una sola vez, sino que se van haciendo particiones sucesivas a " distintos niveles de agregación o agrupamiento ".

Fundamentalmente, los métodos jerárquicos suelen subdividirse en métodos aglomerativos (ascendentes), que van sucesivamente fusionando grupos en cada paso; y métodos divisivos (descendentes), que van desglosando en grupos cada vez más pequeños el conjunto total de datos.

Nosotros utilizaremos en el desarrollo de nuestro estudio métodos aglomerativos; razón por la cual, dedicaremos más atención a estos métodos.

Cabe concluir, por tanto, que la clusterización jerárquica produce taxones o clusters de diferentes niveles y estructurados de forma ordenada, para ser exactos, estableciendo una "jerarquía"; de ahí su nombre.

Establecer una clasificación jerárquica supone poder realizar una serie de particiones del conjunto de individuos total
W = { i1 , i2 , ...,iN } ; de forma que existan particiones a distintos niveles que vayan agregando (o desagregando, si se trata de un método divisivo) a las particiones de los niveles inferiores .

La representación de la jerarquía de clusters obtenida suele llevarse a cabo por medio de un diagrama en forma de árbol invertido llamado "dendograma", en el que las sucesivas fusiones de las ramas a los distintos niveles nos informan de las sucesivas fusiones de los grupos en grupos de superior nivel (mayor tamaño, menor homogeneidad) sucesivamente:

El nivel de agrupamiento para cada fusión viene dado por un indicador llamado "valor cofenético" que debe ser proporcional a la distancia o disimilaridad considerada en la fusión (distancia de agrupamiento).Esta distancia o disimilaridad considerada en cada fusión estar  definida, a veces, entre individuos y, otras, entre clusters; razón por la cual, ser  necesario ampliar el concepto de distancia o disimilaridad de acuerdo con algún criterio que nos permita realizar el algoritmo de clasificación.

Una vez completamente definida la distancia para individuos, clusters y cluster-individuo, la clasificación jerárquica se puede llevar a cabo mediante un sencillo algoritmo general :

PASO 1 Formamos la partición inicial:

P = { i1},{ i2 },...{ iN }

considerando cada individuo como un cluster.

PASO 2 Determinamos los dos clusters más próximo (de menor distancia) ii ,ij , y los agrupamos en uno solo.

PASO 3 Formamos la partición:

P = { i1},{ i2 },...{ ii u ij },...,{ iN }

PASO 4 Repetimos los pasos 2 y 3 hasta obtener la partición final Pr= {W}

Este algoritmo ser  esencialmente el mismo para todos los métodos de clasificación jerárquica (ascendente); las diferencias residirán , como ya hemos apuntado y veremos con más detalle, en el criterio de definición de la distancia entre clusters.

 

Método de la distancia mínima (nearest neighbour o single linkage)

    En este método se procede de acuerdo con el algoritmo general considerando la distancia ENTRE CLUSTERS como la distancia mínima entre los individuos más próximos

Este método es espacio-contractivo, esto es, tiende a aproximar los individuos más de lo que indicarían sus disimilaridades o distancias iniciales.
El método del mínimo ha sido reivindicado "matemáticamente preferible" por sus propiedades por Jardine y Sibson . Sin embargo, ha sido muy criticado por ser muy sensible en aquellos casos en los que existen individuos perturbadores entre clusters bien diferenciados individuos intermedios) (casos con "ruido").

 

Método de la distancia máxima (furthest neighbour o complete linkage)

    Este método, debido a Johnson ,utiliza el algoritmo general para la obtención de la clasificación jerárquica ascendente, pero considerando la distancia entre clusters con la distancia entre los individuos más alejados.

Por modificar la métrica en sentido inverso que el método anterior, este método es espacio-dilatante, en el sentido en que tiende a separar a los individuos en mayor medida que la indicada por sus disimilaridades iniciales.

El método de la distancia máxima se encuentra, como el anterior, en franca decadencia, ya que presenta los inconvenientes de alargar mucho el proceso y dar como resultado agrupaciones encadenadas.

Mientras el método de la distancia mínima asegura que la distancia entre los individuos m s próximos de un cluster ser  siempre menor que la distancia entre elementos de distintos clusters, el de la distancia máxima va a asegurar que la distancia máxima dentro de un cluster será menor que la distancia entre cualquiera de sus elementos y los elementos más alejados de los demás clusters.

 

Método de la media (u.p.g.m.a.)

Los dos métodos anteriores, a pesar de poseer buenas propiedades teóricas tienen el inconveniente de distorsionar las medidas iniciales de disimilaridad, constringiendo o dilantando, respectivamente, la métrica. Una solución al problema fue el método ideado por Sokal y Michener, conocido como Group Average.
Sokal y Michener propusieron utilizar como distancia entre un grupo I y un individuo j la media de las distancias entre los individuos del grupo I y el individuo j:

D (I,j) = 1/NI S D (i , j)

Posteriormente, Lance y Williams extendieron la definición a la distancia entre dos grupos como la media de todas las distancias entre todos los pares de individuos de los dos grupos.

Este método es espacio-conservativo, ésto es, no hace variar considerablemente la métrica inicial, y resulta ser uno de los más utilizados, resolviendo de forma más aceptable la presencia de ruido.

Método del centroide

   Fue propuesto originalmente, también, por Sokal y Michener, y utiliza como distancia entre grupos la distancia entre los centroides de cada grupo.Este método es, también, espacio-conservativo, pero presenta el inconveniente de dejarse influir excesivamente por los grupos de mayor tamaño. Esto hace que sea menos utilizado que el anterior.

 

Método de la mediana

   La mayor desventaja del método del centroide es que si se fusionan dos grupos de diferente tamaño, el centroide del nuevo grupo queda más cerca del grupo de mayor tamaño y más alejado del de menor tamaño en proporción a sus diferencias de tamaño. Esto trae como consecuencia que durante el proceso aglomerativo de fusión se van perdiendo paulatinamente las propiedades de los grupos pequeños.
Para evitar esto, puede suponerse, con independencia del tamaño que tengan los grupos en realidad, que los grupos son de igual tamaño.
Llevando a cabo esta estrategia, la distancia entre un individuo o grupo K de centroide k y el grupo formado por la fusión de los grupos I y J de centroides i y j viene dada por la mediana del triángulo i,j, k. Razón por la cual Gower propuso el nombre de método (distancia) de la mediana.

Este método es, como el del centroide, espacio-conservativo, aunque también como él no resulta ser invariante ante transformaciones monótonas de la distancia empleada, cosa que sí ocurría con los tres primeros métodos.

 

Método de Ward

   Ward propuso que la pérdida de información que se produce al integrar los distintos individuos en clusters puede medirse a través de la suma total de los cuadrados de las desviaciones entre cada punto (individuo) y la media del cluster en el que se integra.Para que el proceso de clusterización resulte óptimo, en el sentido de que los grupos formados no distorsionen los datos originales, proponía la siguiente estrategia:
En cada paso del análisis, considerar la posibilidad de la unión de cada par de grupos y optar por la fusión de aquellos dos grupos que menos incrementen la suma de los cuadrados de las desviaciones al unirse.

El método de Ward es uno de los más utilizados en la práctica; posee casi todas las ventajas del método de la media y suele ser más discriminativo en la determinación de los niveles de agrupación .Una investigación llevada a cabo por Kuiper y Fisher probó que este método era capaz de acertar mejor con la clasificación óptima que otros métodos (mínimo, máximo, media y centroide).

 

Método flexible de Lance y Williams

   Las distintas distancias entre grupos definidas en los métodos anteriores se pueden expresar a través de una única formula recurrente de cuatro par metros; de forma que, para los distintos valores de éstos se generan las distintas distancias.En efecto, si consideramos el grupo formado por la fusión de los grupos I, J, (I,J) y el grupo exterior K, la distancia entre (I,J) y K puede expresarse como:

                                D((I,J),K) = aI D(I,K)+ aJ D(J,K)+ b D(I,J)+ g |D(I,K)-D(J,K)|

En el caso del método del mínimo:

                    aI = aJ = 1/2 ;; b = 0 ;; g = - 1/2

En el caso del método del máximo:

                        aI = aJ = 1/2 ;; b = 0 ;; g = 1/2

En el caso del método de la media:

 

En el caso del método del centroide:

 

CLUST13.gif (1503 bytes)

 

En el caso del método de la mediana:

                                                aI = aJ = 1/2 ;; b = - 1/4 ;; g = 0

Y en el caso del método de Ward:

 

 

 

Notas

 

La palabra inglesa cluster cabe traducirla por conglomerado, grupo, racimo, enjambre o colección. En lo sucesivo, utilizaremos esta palabra inglesa para referirnos a los grupos o conglomerados en los que cabe clasificar a los individuos o en los que pretendemos hacerlo.

2 Cfr.:Sánchez Carrión,J.J.:"Introducción a las técnicas de análisis multivariable aplicadas a las ciencias sociales " op. cit. pag. 133

3Cfr. Mosterín, J.: "Conceptos y Teorías en la Ciencia" Alianza. 1984. Cap. 2 :"Taxonomía formal"pags. 41- 64.

4Sokal,R.R. y Sneath, P.H.A.: "Principles of Numerical Taxonomy" W.H.Freeman & Co. 1963

 

5 Cfr.: Martínez Ramos,E.:"Aspectos teóricos del Análisis Cluster y aplicacióna a la caracterización del electorado potencial de un partido" en Sánchez Carrión, J.J.(Ed.):"Introducción a las

técnicas...." op.cit. pag165.

6 Antecedentes de la conjunción secuencial de las dos técnicas pueden verse en :

* Green,P.E.;Frank,R.E. y Robinson,P.J.: "Cluster Analysis in Tests Market Selection" Management Science , 13, 1967.

* Everitt, B.;Gourlay,A.J. y Kendel,R.E.: "An Attemp at Validation of Traditional Psychiatric Symdromes By Cluster Analysis" British Journal of Psychiatry, 119, 1971.pags. 299-412.

* Lebart,L.;Morineau,A. y Fenelon,J.P.:"Traitement des Donées Statistiques "Dunod. 1979

7Cfr.: Everitt, B.: "Cluster Analysis" J.Willey & Sons, 1981, págs. 12-17.

8 Cuadras, C.: "Métodos de Análisis Multivariante" op.cit. pág. 371.

9 Cfr.: Jambu, M. y Lebeaux, M.O.: "Cluster Analysis & Data Analysis" North-Holland Publish, Co. 1983, págs. 82-83.

10Cfr.: Cuadras, C.: "Métodos de Análisis Multivariante" op.cit. pág. 372.

11Obsérvese la diferencia entre P.2 y P.5.

12 Cfr. Jambu, M. y Lebeaux, M.O.: "Cluster Analysis ..." op.cit. pág. 83.

13 Ibidem.

14 En ocasiones a la distancia así obtenida se la denomina distancia euclídea al cuadrado y se reserva el nombre de distancia euclídea, propiamente dicha, a la raiz cuadrada de la expresión anterior.La razón de considerar la raiz cuadrada es tener un indicador acorde con las unidades de medida de las variables y no con los cuadrados de estas unidades.

15 Ambos procedimientos son equivalentes.

16A esta distancia se la conoce también como distancia de Gower (Gower, J.C.: "Some Distances properties of latent root and Vector methods in Multivaiate Analysis", Biometrikal, 53, 1966, págs.

315-328.

 

17Cfr.: Everitt, B.: "Cluster Analysis" op.cit. pgs.17-ss.

 

18Puede verse referencia de ellos en Everitt,B.: "Cluster Analysis".J.Willey & Sons 1980, pgs. 12-17.

 

Lance,G.N. y Williams,W.T.: "A General Theory of Classification Sorting Strategies: 1.Hierarchical Systems " Comp. Jour. 9, 1967, pags. 373-380.

 

Cuadras, C.: "Métodos de Análisis Multivariante" op.cit. págs.433-434.

 

Esta clasificación recogida por Everitt en "Cluster Analysis" (op. cit. pag.23-24) se basa, a su vez, en un artículo de Cormack: Cormack, R.M.: "A Review of Classification" Journal of the Royal Statistics Society, S.A. 134,3, 1971; pags. 321-367

 

"Clump" es otra palabra inglesa traducible por grupo o conglomerado, pero con otro matiz. En este contexto se hace referencia a la construcción de clases no disjuntas , que pueden solaparse.

 

Puede consultarse, p.ej. , Everitt,B.: "Cluster Analysis" op. cit. pags. 42-46.

Sobre los aspectos formales y la definición axiomática del concepto de jerarquía y jerarquía indexada puede verse: Jambu,M. y Lebeaux,M.O.: "Cluster Analysis & Data Analysis" op. cit. pags. 113 y ss.; o bien; Cuadras, C.: "Métodos de análisis multivariante" op. cit. pags. 437-442.

 

Una clasificación jerárquica doble implica una distancia ultramétrica (ver Cuadras, op. cit. pag. 441 y ss.).Las distintas formas de definir esta distancia para cluster-individuo y cluster-cluster nos determinarán los diferentes criterios de clasificación

Jardine,N. y Sibson,R.: "Mathematical Taxonomy" J.Willey,1971.

 

Johnson,S.C.: "Hierarchical Clustering Schemes" Psychometrika, 32, 1967, pags. 241-254.

 

Sokal,R.R. y Michener,C.D.: "A statistical Method for

Evaluating Systematic Relationship" Univ.Kansas Scienc. Bull.

38, 1958, pags. 1409-1438.

 

Lance,G.N. y Williams, W.T.: "Computer Programs for

Hierarchical Polythetic Classification" Comp.Jour. 9,1966.

Pags.60-64.

 

Gower,J.C.: "A Comparision of some Methods of Cluster Analyisis" Biometrics , 23, 1967, pags. 623-628.

Ward, J.H.: "Hierarchical Groupings to optimise an objective function" Journal of the American Statistical Association, vol 58, 1963, pags. 236-244.

 

Kuiper,F.K. y Fisher,L.: "A Monte Carlo Comparision of six Clustering Procedures" Biometrics, 31,1975,pags.777-783.