Para explicar todo el temario de la asignatura de AED sigo el manual: Introducción al Análisis Exploratorio de Datos. Aplicaciones con R y datos reales.
Actualizado el 7 de noviembre de 2023
Para explicar todo el temario de la asignatura de AED sigo el manual: Introducción al Análisis Exploratorio de Datos. Aplicaciones con R y datos reales.
Dos variables: X y Y
Tenemos una variable estadística bidimensional (X,Y)
Supongamos que para una muestra de n individuos (o una población de N) se considera la variable estadística bidimensional (X, Y).
X: puede tomar I valores diferentes (\(x_i\) i = 1,2,…,I)
Y: puede tomar J valores diferentes (\(y_j\) j = 1,2,…,J)
\(n_{ij}\) es el número de veces que se repite el par (\(x_i , y_j\)). Es la frecuencia absoluta ordinaria conjunta.
¿Como podemos representar/tabular la distribució de frecuencias conjunta que viene representada por (\(x_i, y_j, n_{ij}\))?
Tabla de doble entrada: si algún par (\(x_i,y_j\)) se repite.
Como las distribuciones marginales son distribuciones de frecuencias unidimensionales, podemos calcular todas las medidas estudiadas en el tema 1.
Obtener la distribución de Y condicionada a que X toma el valor \(x_i\).
Como las distribuciones condicionadas son distribuciones de frecuencias unidimensionales, podemos calcular todas las medidas estudiadas en el tema 1.
Diagrama de dispersión: se representan los puntos (\(x_i,y_j\)) en un sistema de ejes cartesianos.
## TableGrob (1 x 2) "arrange": 2 grobs ## z cells name grob ## 1 1 (1-1,1-1) arrange gtable[layout] ## 2 2 (1-1,2-2) arrange gtable[layout]
Preguntas que hemos de tratar de responder:
La Covarianza (\(S_{XY}\)): es la media de las desviaciones de los valores de cada variable respecto a su media.
\[{S_{XY}} = {S_{YX}} = \frac{{\sum\limits_{i = 1}^I {\sum\limits_{j = 1}^J {\left( {{x_i} - \bar x} \right) \cdot \left( {{y_j} - \bar y} \right) \cdot {n_{ij}}} } }}{n}\]
y con frecuencias unitarias…
\[{S_{XY}} = {S_{YX}} = \frac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \bar x} \right) \cdot \left( {{y_i} - \bar y} \right)} }}{n}\]
\[{S_{XY}} = \frac{{\sum\limits_{i = 1}^I {\sum\limits_{j = 1}^J {\left( {{x_i} - \bar x} \right) \cdot \left( {{y_j} - \bar y} \right) \cdot {n_{ij}}} } }}{n} \quad \to \quad {S_{XY}} = \frac{{\sum\limits_{i = 1}^I {\sum\limits_{j = 1}^J {{x_i} \cdot {y_j} \cdot {n_{ij}}} } }}{n} - \bar x \cdot \bar y\]
\[{S_{XY}} = \frac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \bar x} \right) \cdot \left( {{y_i} - \bar y} \right)} }}{n} \quad \to \quad {S_{XY}} = \frac{{\sum\limits_{i = 1}^n {{x_i} \cdot {y_i}} }}{n} - \bar x \cdot \bar y\]
Situación 1. \(S_{XY}>0\). Cuanto mayores/menores son los valores de X respecto a su media, mayores/menores son los valores de Y respecto a su media.
Situación 2. \(S_{XY}<0\). Cuanto mayores/menores son los valores de X respecto a su media, menores/mayores son los valores de Y respecto de su media.
Covarianza: mide el sentido (dirección) de la relación lineal entre dos variables.
Coeficiente de correlación lineal (de Pearson)(\(r_{XY}\)): se obtiene al dividir la covarianza por el producto de las desviaciones típicas.
\[{r_{XY}} = {r_{YX}} = \frac{{{S_{XY}}}}{{{S_X} \cdot {S_Y}}}\]
Resumen:
Vector de medias: vector columna cuyas componentes son las medias de la variables estadística bidimensional (X,Y).
\[m = \left( {\begin{array}{*{20}{c}}
{\bar x} \\
{\bar y}
\end{array}} \right)\] Matriz de varianzas-covarianzas (V): matriz cuadrada simétrica y semidefinida positiva cuya diagonal principal son las varianzas de las variables y los restantes componentes son las covarianzas.
\[V = \left( {\begin{array}{*{20}{c}}
{S_X^2}&{{S_{XY}}} \\
{{S_{YX}}}&{S_Y^2}
\end{array}} \right)\] Matriz de correlación (R): matriz cuadrada simétrica y semidefinida positiva cuya diagonal principal son unos y los restantes componentes son los coeficientes de correlación bivariados.
\[R = \left( {\begin{array}{*{20}{c}}
1&{{r_{XY}}} \\
{{r_{YX}}}&1
\end{array}} \right)\]
Variables originales X y Y. Conocemos las medias, varianzas y la covarianza. Definimos dos nuevas variables a partir de X e Y: \[U = a + bX \qquad V = c + dY\] Aplicando lo estudiado en el tema 1… \[\begin{array}{*{20}{c}} {\bar{u} = a + b\bar x}&{}&{S_U^2 = {b^2}S_X^2} \\ {\bar{v} = c + d\bar y}&{}&{S_V^2 = {d^2}S_Y^2} \\ {}&{{S_{UV}} = b \cdot d \cdot {S_{XY}}}&{} \end{array}\]
Combinación lineal de las variables X e Y:
\[Z=a \cdot X+ b \cdot Y+c\] En este caso:
\[\begin{gathered}
\bar z = a \cdot \bar x + b \cdot \bar y + c \hfill \\
S_Z^2 = a^2 \cdot S_X^2 + b^2 \cdot S_Y^2 + 2 \cdot a \cdot b \cdot {S_{XY}} \hfill \\
\end{gathered} \]
Al analizar conjuntamente 2 variables nos podemos plantear cuestiones como:
Dependencia funcional i dependencia estadística:
No existe relación alguna entre las variables: independentes.
Relación entre las variables es perfecta: relació funcional. Los valores de una variable determinan exactamente los valores de la otra.
Teorema de caracterización: Dos variables X e Y son estadísticamente independientes si y solo si:
\[\frac{{{n_{ij}}}}{n} = \frac{{{n_{i \bullet }}}}{n} \cdot \frac{{{n_{ \bullet j}}}}{n} \qquad \forall i,j\]
Atención!! Error frecuente: hay que comprobarlo para todo (\(\forall (i,j)\))
Hasta ahora hemos visto:
En lo que resta de tema vamos a ver:
Suponiendo la existencia de relación (dependencia estadística) entre las variables objeto de estudio, estimar la forma o estructura de dicha relación.
Teoría de la Regresión: Trata de explicar el comportamiento de una variable (v. dependiente) en función de otra (v. independiente)
Utilidad del análisis de regresión: Predicción (Pronóstico)
Diagrama de dispersión: nos ayuda a determinar la naturaleza de la relación entre 2 variables:
Como directivo de ventas de una gran empresa está interesado en analizar la relación entre el número de personas que integran un equipo de ventas (fuerza de ventas) y el volumen de ventas (en millones €).
Forma funcional que relaciona las variables: RECTA
Regresión Y/X
La recta que mejor se ajuste a nuestra nube de puntos será aquella en la que los errores (residuos) sean mínimos.
(OPCIONAL) \[Min\sum\limits_{i = 1}^n {e_i^2} = Min\sum\limits_{i = 1}^n {{{\left( {{y_i} - \left( {a + b{x_i}} \right)} \right)}^2}} \] Derivando… \[\begin{gathered} \frac{{\partial \varphi }}{{\partial a}} = \sum\limits_{i = 1}^n {2 \cdot \left[ {{y_i} - \left( {a + b{x_i}} \right)} \right]} \cdot \left( { - 1} \right) = 0 \hfill \\ \frac{{\partial \varphi }}{{\partial b}} = \sum\limits_{i = 1}^n {2 \cdot \left[ {{y_i} - \left( {a + b{x_i}} \right)} \right]} \cdot \left( { - {x_i}} \right) = 0 \hfill \\ \end{gathered} \]
\(a = \bar y - b \cdot \bar x \quad\) Ordenada en el origen (intercepto)
\(b = \frac{{{S_{XY}}}}{{S_X^2}} \quad\) Coeficiente de regresiónSi sustituimos \(a\) i \(b\) en la recta: \(Y^*=a + b X\)
\[{Y^*} = \left( {\bar y - b\bar x} \right) + bX\]
Resolviendo…
\[{Y^*} = \bar y + \frac{{{S_{XY}}}}{{S_X^2}}\left( {X - \bar x} \right)\]
Interpretación…
Coeficiente de regresión:
\(b = \frac{{{S_{XY}}}}{{S_X^2}}\)
\(b = tg\alpha = \frac{{\Delta y}}{{\Delta x}}\)
Ordenada en el origen:
\(a = \bar y - b \cdot \bar x\)
A mano… (Atención: en Y/X se divide \(S_{XY}\) entre la \(S_x^2\))
y con la recta de regresión…
Equipo_ventas <- c(15,24,27,16,19,26,19,23,26,22,28,17) Ventas <- c(34,55,67,31,32,44,39,46,53,43,45,41) datos <- data.frame(Equipo_ventas,Ventas) regresion <- lm(Ventas ~ Equipo_ventas, data=datos) summary(regresion)
## ## Call: ## lm(formula = Ventas ~ Equipo_ventas, data = datos) ## ## Residuals: ## Min 1Q Median 3Q Max ## -9.9697 -4.0114 -0.2068 2.6784 13.7821 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 5.9180 10.3842 0.570 0.58132 ## Equipo_ventas 1.7518 0.4665 3.755 0.00375 ** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 7.008 on 10 degrees of freedom ## Multiple R-squared: 0.5851, Adjusted R-squared: 0.5436 ## F-statistic: 14.1 on 1 and 10 DF, p-value: 0.003751
Rectas de regresión en función del coeficiente de correlación:
\[{Y^*} = \bar y + \frac{{{S_{XY}}}}{{S_X^2}}\left( {X - \bar x} \right)\] \[{X^*} = \bar x + \frac{{{S_{XY}}}}{{S_Y^2}}\left( {Y - \bar y} \right)\]
\[b \cdot b' = \frac{{{S_{XY}}}}{{S_X^2}} \cdot \frac{{{S_{XY}}}}{{S_Y^2}} = \frac{{S_{XY}^2}}{{S_X^2 \cdot S_Y^2}} = {\left( {\frac{{{S_{XY}}}}{{{S_X} \cdot {S_Y}}}} \right)^2} = r_{XY}^2\]
\[{r_{XY}} = \pm \sqrt {b \cdot b'} \]
Regresión: Tratamos de explicar el comportamiento de una variable en función de la información disponible de otra.
Utilidad: Generar predicciones/pronóstico.
Hay que considerar el intervalo relevante de la variable independiente.
Equipo_ventas | Ventas |
---|---|
15 | 34 |
24 | 55 |
27 | 67 |
16 | 31 |
19 | 32 |
26 | 44 |
19 | 39 |
23 | 46 |
26 | 53 |
22 | 43 |
28 | 45 |
17 | 41 |
\[{Y^*} = 5.918 + 1.752 \cdot X\] Se puede predecir el volúmen de ventas de un equipo integrado por 20 personas?
Intervalo relevante de X: de 15 a 28 pers.
Para \(X=20 \to Y^*\)?
\(Y^*=5.918 + 1.752*20\)
\(Y^*=27.67\) mil.€
Regresión: Intento de emplear la información proporcionada por una variable independiente (X) para explicar el comportamiento de una variable dependiente (Y).
Bondad del ajuste, Fiabilidad del ajuste, Calidad del ajuste,…
El grado de bondad del ajuste podemos deducirlo de la observación de las diferencias o residuos entre los valores observados y los valores estimados mediante la regresión.
\(Y^*=a + bX\)
Resultados importantes a considerar:
\({{\bar y}^*} = a + b\bar x = \left( {\bar y - b\bar x} \right) + b\bar x \quad \to\) \(\quad {{\bar y}^*} = \bar y\)
\(S_{{y^*}}^2 = {b^2}S_X^2 = \frac{{S_{XY}^2}}{{S_X^2}} = \frac{{r_{XY}^2S_X^2S_Y^2}}{{S_X^2}} \quad \to\) \(\quad S_{{y^*}}^2 = r_{XY}^2 \cdot S_Y^2\)
\(SCT=SCE + SCR\)
\(S_Y^2 = S_E^2 + S_{{Y^*}}^2\)
\(S_Y^2 = S_E^2 + S_{{Y^*}}^2\)
\(1 = \frac{{S_E^2}}{{S_Y^2}}+\) \(\frac{{S_{{Y^*}}^2}}{{S_Y^2}}\)
Coeficiente de determinación (\(R^2\)): mide la proporción de la varianza de Y que explica la variable independiente X en el modelo de Regresión.
Otras expresiones:
\[{R^2} = \frac{{S_{{Y^*}}^2}}{{S_Y^2}} = \frac{{S_Y^2 - S_E^2}}{{S_Y^2}} \qquad {R^2} = \frac{{S_{{Y^*}}^2}}{{S_Y^2}} = \frac{{r_{XY}^2 \cdot S_Y^2}}{{S_X^2}} = r_{XY}^2\]
\[{R^2} = \frac{{S_{XY}^2}}{{S_X^2 \cdot S_Y^2}}\]
El coeficiente de determinación (\(R^2\)):
Podemos comprobar que…. \[{{\bar y}^*} = \bar y = 44.17\] \[\bar e = 0\] \[S_Y^2 = 98.939 = S_E^2 + S_{{Y^*}}^2\] Coeficiente de determinación: \[{R^2} = \frac{{S_{{Y^*}}^2}}{{S_Y^2}} = \frac{{57.724}}{{98.939}} = 0.5834\] \[{R^2} = \frac{{S_{XY}^2}}{{S_X^2 \cdot S_Y^2}} = \frac{{{{32.944}^2}}}{{18.806 \cdot 98.939}} = 0.5834\] \[{R^2} = \frac{{S_Y^2 - S_E^2}}{{S_Y^2}} = \frac{{98.939 - 40.925}}{{98.939}} = 0.5834\]
Regresión parabólica: \(Y^*=a + bX + cX^2 \to\) MCO
Regresión potencial: \(Y^*=aX^b \to\) MCO linealizando
Regresión exponencial: \(Y^*=a b^X \to\) MCO linealizando