2024-04-23
[1] 1042
[1] 2124
\[ d(x,y) = \sqrt{\sum_{k=1}^d (x_k -y_k)^2} \]
Y tenemos una correlación observada de
Y la correlación muestral es
Dendograma para un cluster jerárquico aplicado a los datos ruspini con métrica euclídea y el promedio para la disimilaridad entre grupos.
Clasificación obtenida para los datos ruspini utilizando un cluster jerárquico con distancia euclídea, promedio entre grupos y cuatro grupos.
La clasificación viene dada por
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 3 3 3 3
27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
3 3 3 3 3 3 3 3 1 1 2 1 1 1 1 1 1 2 2 2 2 2 2
Definimos \[s(i) = 1 - \frac{a(i)}{b(i)} \text{ si} a(i) < b(i),\] \[s(i) = 0 \text{ si } a(i) = b(i),\] \[s(i) = \frac{b(i)}{a(i)} - 1 \text{ si } a(i) > b(i).\]
O equivalentemente \[s(i) = \frac{b(i) - a(i)}{\max\{a(i),b(i)\}}\]
¿Cómo interpretar \(\bar{s} = \sum_{i=1}^n s_i /n\)?
\(0.71-1.00\) | Fuerte estructura |
\(0.51-0.70\) | Estructura razonable |
\(0.26-0.50\) | Estructura débil. Probar otros métodos |
\(\leq 0.25\) | No se encuentra estructura |
Silhouette of 75 units in 4 clusters from pam(x = ruspini, k = 4) :
Cluster sizes and average silhouette widths:
20 23 17 15
0.7262347 0.7548344 0.6691154 0.8042285
Individual silhouette widths:
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.4196 0.7145 0.7642 0.7377 0.7984 0.8549
Vamos a clasificar las muestras y compararemos con la clasificación original de las mismas.
Utilizamos distancia Manhattan y promedio con el método PAM.
Primero calculamos la matriz de distancias.