DETERMINACIÓN DE LAS RAZONES DE LA AGRUPACIÓN-DISCRIMINACIÓN DE LAS AGRUPACIONES PARA LA ESTRUCTURA  SOCIO-ECONÓMICA

DETERMINACIÓN DE LAS VARIABLES MÁS DISCRIMINANTES

         Una vez obtenidas las agrupaciones  y elegidas la s agrupaciones de cuatro grupos  por  los métodos de Ward y de la media , se intenta establecer las variables más discriminantes que han establecido dichas clasificaciones . Para ello se realiza un análisis discriminante.

        El método de obtención de las variables más discriminantes que se ha utilizado en éste y otros análisis discriminantes es el algoritmo paso a paso de Wilks , que basándose en sucesivos y simultáneos análisis multivariantes de la varianza nos va generando en cada paso los sucesivos conjuntos de variables que mejor discriminen. En cada paso se planteando la posibilidad de introducir una nueva variable más , o bien de excluir una de las ya consideradas.La primera variable a considerar en el análisis será , obviamente aquella que mejor discrimine la agrupación , lo que se mide a partir del estadístico lambda  de Wilks , o su equivalente F de Snedecor ; y en cada paso la variable sobre la que se considera la posibilidad de su eventual inclusión es también la de mayor poder discriminante de las que resten por introducir . La posibilidad última de entrada de una variable no considerada hasta el momento , y la posibilidad de salida de una de las variables ya consideradas se supedita al valor que tome el estadístico F de cambio (F de entrada y F de salida).Los estadísticos F de entrada y de F de salida nos miden la mejora del poder discriminante al introducir una nueva variable o al excluir una ya considerada. para que una variable pueda ser considerada se le exige que su F de entrada sea elevada y para que se mantenga se le exige , en cada paso , que su F de salida sea también elevada 
        El criterio que se ha utilizado en los cuatro análisis ha sido el exigir a las F de cambio que superar el valor 1 . Además de considerar la posibilidad de introducir o de eliminar , en cada paso una de las variables , el algoritmo controla que en todo momento las variables seleccionadas no produzcan una discriminación redundante ( exigiendo que la correlación multiple no sea excesiva ) . Siguiendo con estas directrices , el proceso se lleva a cabo  paso a paso , replanteándose en cada momento la situación hasta que la mejora de la discriminación no sea posible , ni introduciendo una variable ni eliminando alguna ya introducida.

 

DETERMINACION DE LAS VARIABLES DISCRIMINANTES EN LA AGRUPACIÓN DE CUATRO GRUPOS POR EL MÉTODO  U.P.G.M.A.

        Para conseguir las variables más discriminantes de las 34 con las que se está realizando el análisis de la estructura socio-demográfica del A.M.de .V se parte , como ya se ha dicho de las puntuaciones de la lambda de Wilks y F de Snedecor . Se observa que todas las variables tienen un valor alto (superior a 1 ) excepto una ( porcentaje de estudios medios).

        Tras la aplicación del algoritmo paso a paso de Wilks  ya descrito  ,  y en base a las MANOVAS realizados se llega a la conclusión de la existencia de 25 variables discriminantes de la agrupación en cuatro clusters realizada por el método de la media (U.P.G.M.A.) . Su número en relación al primario , es decir a las 34 variables iniciales  , es muy alto. Intentar interpretar las diferencias entre grupos no supondría algo muy distinto de lo que se interpretó con los valores para cada grupo y para todas las variables , de ahí  , que nos remitamos a esa interpretación ,sin proceder a la específica para las 25 variables más discriminantes , máxime si algunas de las eliminadas están muy relacionadas con las no descartadas.

 

DETERMINACIÓN DE LAS FUNCIONES MÁS DISCRIMINANTES EN LA AGRUPACIÓN DE CUATRO GRUPOS POR EL MÉTODO U.P.G.M.A.

        Una vez seleccionadas las 25 variables más discriminantes de las utilizadas para el análisis socio-demográfico , el análisis discriminante se completa con la determinación de unas nuevas variables "inobservables" , que sean capaces de discriminar óptimamente los grupos . Estas nuevas variables son , por construcción , funciones de las variables más discriminantes obtenidas  , son combinaciones lineales de ellas , su número , generalmente inferior , es el número de grupos menos una unidad  ( en nuestro caso 3) , y tienen la propiedad de ser los ejes de discriminación óptima en el sentido de ser las combinaciones lineales de las "variables discriminantes" que maximizan la varianza entre clusters , al tiempo que hacen mínima la varianza interna de cada cluster o grupo.

        Estas variables , llamadas , funciones canónicas , factores o ejes discriminantes , se obtienen por factorización de las variables más discriminantes . Esta factorización nos ofrece la relación funcional lineal entre las variables y los factores , que vendrá dada por la llamada matriz de coeficientes o "patrón discriminante" . partiendo de esta matriz de coeficientes puede evaluarse para cada municipio el valor que toma cada factor discriminantes ( sus puntuaciones discriminantes ) , de forma análoga a como ocurría en el análisis factorial . También de forma análoga al análisis factorial , podrá utilizarse esta matriz de coeficientes , juntamente con las correlaciones entre factores y variables  (matriz de estructura) para interpretar los factores discriminantes y poder concluir algunas razones teóricas para las diferencias entre grupos de la agrupación establecida.

        De esta manera para la agrupación en cuatro que nos ocupa se calcula su matriz de coeficientes mediante el programa SPSS . En dicha matriz se observan las puntuaciones de las 25 variables más discriminantes obtenidas en relación a las tres funciones discriminantes . Es decir " el peso " positivo o negativo que tienen dichas variables en una determinada función de las tres .

        Se realiza  y concreta despuéss  la matriz de la estructura discriminante en ella se aprecian las correlaciones de las 34 variables originales respecto a los tres factores propuestos. Se encuentran ordenadas en cuanto a "significación" por y para cada una de las  tres funciones.

        Por último se establecen los valores medios de cada uno de los cuatro clusters respecto a los tres factores discriminantes . En dicha tabla  se observa el "peso" que cada factor-función  tiene en cada uno de los grupos.

        En base a estas tres matrices-tablas es posible intentar interpretar teóricamente las diferencias entre los grupos de la agrupación en cuatro , en base a los tres factores-funciones  obtenidas.

        Antes de pasar a dicha interpretación puede comprobarse la similitud entre  la clasificación (clusterización) obtenida con las funciones discriminantes y la anteriormente obtenida con el análisis cluster que hemos realizado en base a las variables originales y concretamente en este caso por el método de la media. En dicha reclasificación se observa que el nivel de coincidencia se establece en el 98,3 % lo que evidentemente no es nada despreciable . Las diferencias entre los  cuatro grupos creados de una u otra manera radica en la ubicación del municipios de Foios que en la agrupación original estaba en el primero de los grupos y ahora y con la aplicación de las funciones discriminantes pasa a localizarse en el grupo tercero.

INTERPRETACIÓN DE LAS FUNCIONES DISCRIMINANTES DE LA AGRUPACIÓN EN CUATRO GRUPOS POR EL MÉTODO U.P.G.M.A PARA EL ANÁLISIS SOCIO-DEMOGRÁFICO.

 En base a la matriz de estructura ,  y la matriz de valores medios  es posible aventurar alguna interpretación de la estructura discriminante de los factores .

En base a la matriz de estructura , se puede establecer que :

El primer factor supone la presencia de segunda vivienda , de población mayor , de variación de la población positiva , de menor paro.

El segundo factor supone la presencia de nivel de estudios bajos , tasa de natalidad alta , vivienda desocupada  , menor densidad de población .

El tercer factor supone  nivel de estudios alto , población más masculina , población más joven.

Observado la matriz de valores medios y relacionando éstos con la características aventuradas para cada factor  podemos interpretar las características de cada grupo.

El primero de los grupos del cluster en cuatro tiene valores claramente negativos del primero y segundo factor y algo positivo el tercero . Podría plantearse que los municipios de grupos primero son aquellos con escasa segunda vivienda ( el factor uno planteaba segunda vivienda y dado su peso negativo cabrá suponer que en el grupo primero no la hay), paro elevado , escaso nivel de estudios bajos , tasa de natalidad baja, la población no es joven .

El segundo de los grupos con una influencia mayor positiva del segundo factor , algo negativa del primero y algo positiva del segundo . Se postula como un grupo en el que el nivel de estudios es bajo , la natalidad alta , la población es joven , existiendo poca vivienda desocupada .

El tercero de los grupos con influencia claramente negativa de la tercera función y escasamente positiva y negativa en la primera y segunda . Se plantea como un grupo de municipios donde lo característico es la falta de estudios superiores o medios y  falta , también , de población joven y masculina .

El cuarto de los grupos tiene valores positivos para el primer y tercer factor y algo negativo para el segundo . La influencia positiva del primero es muy superior a la del tercero . Por ello estaríamos ante municipios con segunda vivienda con poco paro con población mayor y altamente concentrada.

Pueden comprobarse las coincidencias entre la interpretación que se acaba de realizar y la  establecida partiendo de los valores de las variables socio-demográficas  para los grupos de municipios. Las diferencias son mínimas.

 

DETERMINACION DE LAS VARIABLES DISCRIMINANTES EN LA AGRUPACIÓN DE CUATRO GRUPOS POR EL MÉTODO  WARD.

        Dada la similitud (hasta en ciertos resultados) entre las determinación de las variables discriminantes en la agrupación de cuatro grupos por el método de la media U.P.G.M.A . y esta que se comienza  , es posible que al lector le de la sensación de leer lo mismo; textualmente es posible ; hipertextualmente , no.

        Para conseguir las variables más discriminantes de las 34 con las que se está realizando el análisis de la estructura socio-demográfica del Área Metropolitana de Valencia se parte , como ya se ha dicho ,  de las puntuaciones de la lambda de Wilks y F de Snedecor . Se observa que todas las variables tienen un valor alto (superior a 1 ) excepto cinco ( las tres de tipo de vivienda ,teléfonos por habitante e índice de concentración de la población)

        Tras la aplicación del algoritmo paso a paso de Wilks  ya descrito  ,  y en base a las MANOVAS realizados se llega a la conclusión como en el caso de la agrupación u.p.g.m.a.de la existencia de 25 variables discriminantes de la agrupación en cuatro clusters realizada por el método de  Ward. Su número en relación al primario , es decir a las 34 variables iniciales  , es muy alto. Intentar interpretar las diferencias entre grupos no supondría algo muy distinto de lo que se interpretó con los valores para cada grupo y para todas las variables , de ahí  , que nos remitamos a esa interpretación ,sin proceder a la específica para las 25 variables más discriminantes .

 

DETERMINACIÓN DE LAS FUNCIONES MÁS DISCRIMINANTES EN LA AGRUPACIÓN DE CUATRO GRUPOS POR EL MÉTODO WARD.

        Una vez encontradas  las 25 variables más discriminantes de las utilizadas para el análisis socio-demográfico , el análisis discriminante se completa con la determinación de unas nuevas variables "inobservables" , que sean capaces de discriminar óptimamente los grupos . Estas nuevas variables son , por construcción , funciones de las variables más discriminantes obtenidas  , son combinaciones lineales de ellas , su número , generalmente inferior , es el número de grupos menos una unidad  ( en nuestro caso 3) , y tienen la propiedad de ser los ejes de discriminación óptima en el sentido de ser las combinaciones lineales de las "variables discriminantes" que maximizan la varianza entre clusters , al tiempo que hacen mínima la varianza interna de cada cluster o grupo.

    Estas variables , llamadas , funciones canónicas , factores o ejes discriminantes , se obtienen por factorización de las variables más discriminantes . Esta factorización nos ofrece la relación funcional lineal entre las variables y los factores , que vendrá dada por la llamada matriz de coeficientes o "patrón discriminante" . partiendo de esta matriz de coeficientes puede evaluarse para cada municipio el valor que toma cada factor discriminantes ( sus puntuaciones discriminantes ) , de forma análoga a como ocurría en el análisis factorial . También de forma análoga al análisis factorial , podrá utilizarse esta matriz de coeficientes , juntamente con las correlaciones entre factores y variables  (matriz de estructura) para interpretar los factores discriminantes y poder concluir algunas razones teóricas para las diferencias entre grupos de la agrupación establecida.

    De esta manera para la agrupación en cuatro que nos ocupa se calcula su matriz de coeficientes mediante el programa SPSS . En dicha matriz se observan las puntuaciones de las 25 variables más discriminantes obtenidas en relación a las tres funciones discriminantes . Es decir " el peso " positivo o negativo que tienen dichas variables en una determinada función de las tres .

        Se realiza  y concreta después  la matriz de la estructura discriminante en ella se aprecian las correlaciones de las 34 variables originales respecto a los tres factores propuestos. Se encuentran ordenadas en cuanto a "significación" por y para cada una de las  tres funciones.

    Por último se establecen los valores medios de cada uno de los cuatro clusters respecto a los tres factores discriminantes . En dicha tabla  se observa el "peso" que cada factor-función  tiene en cada uno de los grupos.

        En base a estas tres matrices-tablas es posible intentar interpretar teóricamente las diferencias entre los grupos de la agrupación en cuatro , en base a los tres factores-funciones  obtenidas.

    Antes de pasar a dicha interpretación puede comprobarse la similitud entre  la clasificación (clusterización) obtenida con las funciones discriminantes y la anteriormente obtenida con el análisis cluster que hemos realizado en base a las variables originales y concretamente en este caso por el método de la media. En dicha reclasificación se observa que el nivel de coincidencia se establece en el 98,3 % lo que evidentemente no es nada despreciable . Las diferencias entre los  cuatro grupos creados de una u otra manera radica en la ubicación del municipios de Foios que en la agrupación original estaba en el primero de los grupos y ahora y con la aplicación de las funciones discriminantes pasa a localizarse en el grupo tercero.

 

INTERPRETACIÓN DE LAS FUNCIONES DISCRIMINANTES DE LA AGRUPACIÓN EN CUATRO GRUPOS POR EL MÉTODO WARD  PARA EL ANÁLISIS SOCIO-DEMOGRÁFICO.

     En base a la matriz de estructura ,  y  a la matriz de valores medios  es posible aventurar alguna interpretación de la estructura discriminante de los factores . Si bien algunas funciones  tienen pocas variables con las que su  correlación sea significativa , lo que dificulta interpretar las sus características y por tanto las características del grupo.

En base a la matriz de estructura , se puede establecer que :

El primer factor-función tiene escasas correlaciones con las variables que lo sean significativas ,entre ellas :  correlación positiva con el nivel de estudios superiores y con la variación positiva de la población

La segunda función  parece contemplar una tasa de fecundidad baja una alta congestión relativa respecto al máximo del área , y una migración también negativa.

El tercer factor , con más correlaciones con variables significativas contempla : edad media de las mujeres baja , población envejecida , bajo índice  o porcentaje de paro ,población con estudios medios , población femenina  y crecimiento vegetativo negativo

Observado la matriz de valores medios y relacionando éstos con la características aventuradas para cada factor  podemos interpretar las características de cada grupo.

El primero de los grupos del cluster en cuatro tiene valores negativos para la primera función y la tercera y bastante positiva para la segunda . Partiendo de lo expuesto se podría aventurar que en los municipios que forman este grupo , la tasa de fecundidad y natalidad es baja y existe alta congestión relativa de vivienda , en cuanto a aspectos menos claros podríamos hablar de menor porcentaje de estudios superiores y bajo nivel de variación positiva de la población.

El segundo de los grupos con una influencia negativa de las funciones-factores segundo y tercero ,  casi en el mismo grado  , y un valor positivo pero casi insignificante en la primera . Podría plantearse que este grupo está compuesto por municipios con bajo índice de vejez , alto paro , edad mayor de las mujeres , índice de masculinidad positivo , tasa de migración positiva  y crecimiento vegetativo positivo.

El tercero de los grupos tiene relación  claramente negativa en la primera y segunda función y claramente positiva en la tercera por tanto se puede interpretar que los municipios que lo componen son aquellos con :  edad media de las mujeres baja , índice de masculinidad bajo , altos índices relacionados con la vejez , alto porcentaje de paro , alto porcentaje de estudios medios  y bajos, y crecimiento vegetativo negativo

El cuarto de los grupos tiene valores positivos para  las tres funciones , pero de manera decisiva para la primera función-factor ,son , por tanto municipios con alto porcentaje de población con estudios superiores , y con variación de la población positiva.

Pueden comprobarse    las coincidencias entre la interpretación que se acaba de realizar y la  establecida partiendo de los valores de las variables socio-demográficas  para los grupos de municipios. Las diferencias son mínimas , como ocurre  en la interpretación para las funciones discriminantes en el caso de la utilización del método de la media U.P.G.M.A.,

 

?