MÉTODOS DE ANÁLISIS CLUSTER

Métodos
            Métodos jerárquicos
            Método de la distancia mínima (nearest neighbour o single linkage)
            Método de la distancia máxima (furthest neighbour o complete linkage)
            Método de la media (u.p.g.m.a.)
            Método del centroide
            Método de la mediana
            Método de Ward
            Método flexible de Lance y Williams

 

 Ir a Análisis Cluster

 

 

 

 

 

 

 

 


 

De acuerdo con Cuadras una clasificación puede ser :

A) Aglomerativa o divisiva.

Será  aglomerativa o ascendente si se parte inicialmente de los individuos que se van , progresivamente fusionando, formando grupos que constituyen las sucesivas particiones. Por el contrario, ser  divisiva o descendente si se parte de todo el conjunto de individuos como un conglomerado y se va sucesivamente subdividiendo en grupos más pequeños.

B)Jerárquica o no jerárquica.

En una clasificación no jerárquica se forman grupos homogéneos sin establecer relaciones entre ellos. En una clasificación jerárquica, en cambio, los grupos se van fusionando (o subdividiendo) sucesivamente, siguiendo una prelación o jerarquía, decreciendo la homogeneidad conforme se van haciendo más amplios.

C)Monotética o politética.

Una clasificación monotética está  basada en una única característica muy relevante. Se procede de forma divisiva, separando entre individuos que la tienen e individuos que no la tienen.

Una clasificación politética está  basada en un gran número de características y no se exige que todos los miembros de un conglomerado posean todas las características, (aunque sí que tengan cierta homogeneidad en ellas). Usualmente se procede en estos casos de forma aglomerativa.

Sin perder de vista estas distinciones, los distintos métodos de análisis cluster pueden ser considerados como pertenecientes a una de las siguientes cinco categorías :

1) Métodos jerárquicos

2)Métodos de optimización

3)Métodos de densidad (o mode-seeking)

4)Métodos "Clumping" (o de partición)

5)Y otros métodos que no pueden ser integrados en las cuatros anteriores.

Los métodos jerárquicos son, quizá , los que han sido más desarrollados y serán los que dedicaremos mayor atención en el siguiente sub-epígrafe. Aquí, daremos, en cambio, un vistazo general a las otras técnicas.

Los métodos de optimización se caracterizan fundamentalmente porque se admite en ellos la "reasignación" de un individuo. Esto es, una vez considerado un individuo como miembro de un cluster, en un siguiente paso del análisis, puede, muy bien, salirse de él e integrarse en otro si de esta forma se mejora (optimiza) la partición. Esta posibilidad permite la sucesiva mejora de la partición inicial. Por lo general, estos métodos asumen a priori un número de clusters a formar. Son llamados así porque pretenden obtener la partición que optimice una cierta medida numérica definida. Los distintos métodos de optimización se diferencian entre sí en la manera de obtener la partición inicial y en la medida a optimizar en el proceso.

                                Los criterios de optimización suelen ser:

Los métodos de densidad se basan en la idea de construir "clusters naturales" partiendo de la mayor o menor densidad de puntos de las distintas zonas del espacio (de las variables) en el que están los individuos.

Y, por último, los métodos clumping utilizados usualmente en estudios lingüísticos, permiten el solapamiento de los grupos, de ahí que quizá el nombre de "métodos de partición" con el que suele traducírseles no sea muy adecuado.

 

Métodos jerárquicos

    En los métodos jerárquicos los individuos no se particionan en clusters de una sola vez, sino que se van haciendo particiones sucesivas a " distintos niveles de agregación o agrupamiento ".

Fundamentalmente, los métodos jerárquicos suelen subdividirse en métodos aglomerativos (ascendentes), que van sucesivamente fusionando grupos en cada paso; y métodos divisivos (descendentes), que van desglosando en grupos cada vez más pequeños el conjunto total de datos.

Nosotros utilizaremos en el desarrollo de nuestro estudio métodos aglomerativos; razón por la cual, dedicaremos más atención a estos métodos.

Cabe concluir, por tanto, que la clusterización jerárquica produce taxones o clusters de diferentes niveles y estructurados de forma ordenada, para ser exactos, estableciendo una "jerarquía"; de ahí su nombre.

Establecer una clasificación jerárquica supone poder realizar una serie de particiones del conjunto de individuos total
W = { i1 , i2 , ...,iN } ; de forma que existan particiones a distintos niveles que vayan agregando (o desagregando, si se trata de un método divisivo) a las particiones de los niveles inferiores .

La representación de la jerarquía de clusters obtenida suele llevarse a cabo por medio de un diagrama en forma de árbol invertido llamado "dendograma", en el que las sucesivas fusiones de las ramas a los distintos niveles nos informan de las sucesivas fusiones de los grupos en grupos de superior nivel (mayor tamaño, menor homogeneidad) sucesivamente:

El nivel de agrupamiento para cada fusión viene dado por un indicador llamado "valor cofenético" que debe ser proporcional a la distancia o disimilaridad considerada en la fusión (distancia de agrupamiento).Esta distancia o disimilaridad considerada en cada fusión estar  definida, a veces, entre individuos y, otras, entre clusters; razón por la cual, ser  necesario ampliar el concepto de distancia o disimilaridad de acuerdo con algún criterio que nos permita realizar el algoritmo de clasificación.

Una vez completamente definida la distancia para individuos, clusters y cluster-individuo, la clasificación jerárquica se puede llevar a cabo mediante un sencillo algoritmo general :

PASO 1 Formamos la partición inicial:

P = { i1},{ i2 },...{ iN }

considerando cada individuo como un cluster.

PASO 2 Determinamos los dos clusters más próximo (de menor distancia) ii ,ij , y los agrupamos en uno solo.

PASO 3 Formamos la partición:

P = { i1},{ i2 },...{ ii u ij },...,{ iN }

PASO 4 Repetimos los pasos 2 y 3 hasta obtener la partición final Pr= {W}

Este algoritmo ser  esencialmente el mismo para todos los métodos de clasificación jerárquica (ascendente); las diferencias residirán , como ya hemos apuntado y veremos con más detalle, en el criterio de definición de la distancia entre clusters.

 

Método de la distancia mínima (nearest neighbour o single linkage)

    En este método se procede de acuerdo con el algoritmo general considerando la distancia ENTRE CLUSTERS como la distancia mínima entre los individuos más próximos

Este método es espacio-contractivo, esto es, tiende a aproximar los individuos más de lo que indicarían sus disimilaridades o distancias iniciales.
El método del mínimo ha sido reivindicado "matemáticamente preferible" por sus propiedades por Jardine y Sibson . Sin embargo, ha sido muy criticado por ser muy sensible en aquellos casos en los que existen individuos perturbadores entre clusters bien diferenciados individuos intermedios) (casos con "ruido").

 

Método de la distancia máxima (furthest neighbour o complete linkage)

    Este método, debido a Johnson ,utiliza el algoritmo general para la obtención de la clasificación jerárquica ascendente, pero considerando la distancia entre clusters con la distancia entre los individuos más alejados.

Por modificar la métrica en sentido inverso que el método anterior, este método es espacio-dilatante, en el sentido en que tiende a separar a los individuos en mayor medida que la indicada por sus disimilaridades iniciales.

El método de la distancia máxima se encuentra, como el anterior, en franca decadencia, ya que presenta los inconvenientes de alargar mucho el proceso y dar como resultado agrupaciones encadenadas.

Mientras el método de la distancia mínima asegura que la distancia entre los individuos m s próximos de un cluster ser  siempre menor que la distancia entre elementos de distintos clusters, el de la distancia máxima va a asegurar que la distancia máxima dentro de un cluster será menor que la distancia entre cualquiera de sus elementos y los elementos más alejados de los demás clusters.

 

Método de la media (u.p.g.m.a.)

Los dos métodos anteriores, a pesar de poseer buenas propiedades teóricas tienen el inconveniente de distorsionar las medidas iniciales de disimilaridad, constringiendo o dilantando, respectivamente, la métrica. Una solución al problema fue el método ideado por Sokal y Michener, conocido como Group Average.
Sokal y Michener propusieron utilizar como distancia entre un grupo I y un individuo j la media de las distancias entre los individuos del grupo I y el individuo j:

D (I,j) = 1/NI S D (i , j)

Posteriormente, Lance y Williams extendieron la definición a la distancia entre dos grupos como la media de todas las distancias entre todos los pares de individuos de los dos grupos.

Este método es espacio-conservativo, ésto es, no hace variar considerablemente la métrica inicial, y resulta ser uno de los más utilizados, resolviendo de forma más aceptable la presencia de ruido.

Método del centroide

   Fue propuesto originalmente, también, por Sokal y Michener, y utiliza como distancia entre grupos la distancia entre los centroides de cada grupo.Este método es, también, espacio-conservativo, pero presenta el inconveniente de dejarse influir excesivamente por los grupos de mayor tamaño. Esto hace que sea menos utilizado que el anterior.

 

Método de la mediana

   La mayor desventaja del método del centroide es que si se fusionan dos grupos de diferente tamaño, el centroide del nuevo grupo queda más cerca del grupo de mayor tamaño y más alejado del de menor tamaño en proporción a sus diferencias de tamaño. Esto trae como consecuencia que durante el proceso aglomerativo de fusión se van perdiendo paulatinamente las propiedades de los grupos pequeños.
Para evitar esto, puede suponerse, con independencia del tamaño que tengan los grupos en realidad, que los grupos son de igual tamaño.
Llevando a cabo esta estrategia, la distancia entre un individuo o grupo K de centroide k y el grupo formado por la fusión de los grupos I y J de centroides i y j viene dada por la mediana del triángulo i,j, k. Razón por la cual Gower propuso el nombre de método (distancia) de la mediana.

Este método es, como el del centroide, espacio-conservativo, aunque también como él no resulta ser invariante ante transformaciones monótonas de la distancia empleada, cosa que sí ocurría con los tres primeros métodos.

 

Método de Ward

   Ward propuso que la pérdida de información que se produce al integrar los distintos individuos en clusters puede medirse a través de la suma total de los cuadrados de las desviaciones entre cada punto (individuo) y la media del cluster en el que se integra.Para que el proceso de clusterización resulte óptimo, en el sentido de que los grupos formados no distorsionen los datos originales, proponía la siguiente estrategia:
En cada paso del análisis, considerar la posibilidad de la unión de cada par de grupos y optar por la fusión de aquellos dos grupos que menos incrementen la suma de los cuadrados de las desviaciones al unirse.

El método de Ward es uno de los más utilizados en la práctica; posee casi todas las ventajas del método de la media y suele ser más discriminativo en la determinación de los niveles de agrupación .Una investigación llevada a cabo por Kuiper y Fisher probó que este método era capaz de acertar mejor con la clasificación óptima que otros métodos (mínimo, máximo, media y centroide).

 

Método flexible de Lance y Williams

   Las distintas distancias entre grupos definidas en los métodos anteriores se pueden expresar a través de una única formula recurrente de cuatro par metros; de forma que, para los distintos valores de éstos se generan las distintas distancias.En efecto, si consideramos el grupo formado por la fusión de los grupos I, J, (I,J) y el grupo exterior K, la distancia entre (I,J) y K puede expresarse como:

                                D((I,J),K) = aI D(I,K)+ aJ D(J,K)+ b D(I,J)+ g |D(I,K)-D(J,K)|

En el caso del método del mínimo:

                    aI = aJ = 1/2 ;; b = 0 ;; g = - 1/2

En el caso del método del máximo:

                        aI = aJ = 1/2 ;; b = 0 ;; g = 1/2

En el caso del método de la media:

 

En el caso del método del centroide:

 

CLUST13.gif (1503 bytes)

 

En el caso del método de la mediana:

                                                aI = aJ = 1/2 ;; b = - 1/4 ;; g = 0

Y en el caso del método de Ward:

 

 

 

 

 

 

 

 

 

 

 

 

cluster