Tema 3. Análisis de regresión

28 de enero de 2019

Introducción (1)

Tema 2:

Cómo detectar la existencia de dependencia estadística entre dos variables o si eran independientes.
Cómo medir el sentido e intensidad de la relación (lineal).

En este tema:

Suponiendo la existencia de relación (dependencia estadística) entre las variables objeto de estudio, estimar la forma o estructura de dicha relación.

Teoría de la Regresión: Trata de explicar el comportamiento de una variable (v. dependiente) en función de otra (v. independiente)

Utilidad del análisis de regresión: Predicción (Pronóstico)

Introducción (2)

Diagrama de dispersión (Tema 2): nos ayuda a determinar la naturaleza de la relación entre 2 variables:

¿Cuál es la forma funcional adecuada para la relación subyacente que desconocemos?

Introducción (3)

Como directivo de ventas de una gran empresa está interesado en analizar la relación entre el número de personas que integran un equipo de ventas (fuerza de ventas) y el volumen de ventas (en millones €).

¿Qué conclusiones pueden extraerse al observar el diagrama de dispersión?

Introducción (4)

Forma funcional que relaciona las variables: RECTA

Análisis de Regresión: permite pasar de una dependencia estadística a una dependencia funcional.

Regresión lineal: método de mínimos cuadrados (1)

Regresión Y/X

La recta que mejor se ajuste a nuestra nube de puntos será aquella en la que los errores (residuos) sean mínimos.

Regresión lineal: método de mínimos cuadrados (2)

Regresión lineal: método de mínimos cuadrados (3)

(OPCIONAL) \[Min\sum\limits_{i = 1}^N {e_i^2} = Min\sum\limits_{i = 1}^N {{{\left( {{y_i} - \left( {a + b{x_i}} \right)} \right)}^2}} \] Derivando… \[\begin{gathered} \frac{{\partial \varphi }}{{\partial a}} = \sum\limits_{i = 1}^N {2 \cdot \left[ {{y_i} - \left( {a + b{x_i}} \right)} \right]} \cdot \left( { - 1} \right) = 0 \hfill \\ \frac{{\partial \varphi }}{{\partial b}} = \sum\limits_{i = 1}^N {2 \cdot \left[ {{y_i} - \left( {a + b{x_i}} \right)} \right]} \cdot \left( { - {x_i}} \right) = 0 \hfill \\ \end{gathered} \]

Regresión lineal: método de mínimos cuadrados (4)

Sistema de ecuaciones normales minimocuadráticas:
\[\left. \begin{gathered} \sum\limits_{i = 1}^N {{y_i} = N \cdot a + b \cdot \sum\limits_{i = 1}^N {{x_i}} } \hfill \\ \sum\limits_{i = 1}^N {{x_i} \cdot {y_i} = a \cdot \sum\limits_{i = 1}^N {{x_i}} } + b \cdot \sum\limits_{i = 1}^N {x_i^2} \hfill \\ \end{gathered} \right\}\]
Resolviendo…

\(a = \bar y - b \cdot \bar x \quad\) Ordenada en el origen (intercepto)

\(b = \frac{{{S_{XY}}}}{{S_X^2}} \quad\) Coeficiente de regresión

Regresión lineal: método de mínimos cuadrados (5)

Si sustituimos \(a\) i \(b\) en la recta: \(Y^*=a + b X\)

\[{Y^*} = \left( {\bar y - b\bar x} \right) + bX\]

Resolviendo…

\[{Y^*} = \bar y + \frac{{{S_{XY}}}}{{S_X^2}}\left( {X - \bar x} \right)\]

Recta de regresión (minimocuadrática) de Y/X

Regresión lineal: método de mínimos cuadrados (5)

Interpretación…

Coeficiente de regresión:

\(b = \frac{{{S_{XY}}}}{{S_X^2}}\)

\(b = tg\alpha = \frac{{\Delta y}}{{\Delta x}}\)

Ordenada en el origen:
\(a = \bar y - b \cdot \bar x\)

Vamos a un ejemplo…

Resolución del ejemplo (1)

A mano… (Atención: en Y/X se divide \(S_{XY}\) entre la \(S_x^2\))

Resolución del ejemplo (2)

Resolución del ejemplo (3)

y con la recta de regresión…

Resolución del ejemplo (4)

Los datos del ejercicio y algún resultado…

Equipo_ventas <- c(15,24,27,16,19,26,19,23,26,22,28,17)
Ventas <- c(34,55,67,31,32,44,39,46,53,43,45,41)
N <- length(Ventas)
datos <- data.frame(Equipo_ventas,Ventas)
summary(datos)

##  Equipo_ventas       Ventas     
##  Min.   :15.00   Min.   :31.00  
##  1st Qu.:18.50   1st Qu.:37.75  
##  Median :22.50   Median :43.50  
##  Mean   :21.83   Mean   :44.17  
##  3rd Qu.:26.00   3rd Qu.:47.75  
##  Max.   :28.00   Max.   :67.00

((N-1)/N)*var(datos)

##               Equipo_ventas   Ventas
## Equipo_ventas      18.80556 32.94444
## Ventas             32.94444 98.63889

Resolución del ejemplo (5)

Equipo_ventas <- c(15,24,27,16,19,26,19,23,26,22,28,17)
Ventas <- c(34,55,67,31,32,44,39,46,53,43,45,41)
datos <- data.frame(Equipo_ventas,Ventas)
regresion <- lm(Ventas ~ Equipo_ventas, data=datos)
summary(regresion)

## 
## Call:
## lm(formula = Ventas ~ Equipo_ventas, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.9697 -4.0114 -0.2068  2.6784 13.7821 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept)     5.9180    10.3842   0.570  0.58132   
## Equipo_ventas   1.7518     0.4665   3.755  0.00375 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.008 on 10 degrees of freedom
## Multiple R-squared:  0.5851, Adjusted R-squared:  0.5436 
## F-statistic:  14.1 on 1 and 10 DF,  p-value: 0.003751

Resolución del ejemplo (6)

Ahora.. vamos a resolver la regresión de X/Y

Resolución del ejemplo (7)

Fijaros en lo que ha hecho R!!!

Volvemos a la teoría…

Regresión lineal: método de mínimos cuadrados (6)

Rectas de regresión en función del coeficiente de correlación:

\[{Y^*} = \bar y + \frac{{{S_{XY}}}}{{S_X^2}}\left( {X - \bar x} \right)\] \[{X^*} = \bar x + \frac{{{S_{XY}}}}{{S_Y^2}}\left( {Y - \bar y} \right)\]

Relación entre correlación y regresión (1)

Relación entre correlación y regresión (2)

Relación entre correlación y regresión (3)

¿Es posible obtener estas rectas de regresión?

\[b \cdot b' = \frac{{{S_{XY}}}}{{S_X^2}} \cdot \frac{{{S_{XY}}}}{{S_Y^2}} = \frac{{S_{XY}^2}}{{S_X^2 \cdot S_Y^2}} = {\left( {\frac{{{S_{XY}}}}{{{S_X} \cdot {S_Y}}}} \right)^2} = r_{XY}^2\]

\[{r_{XY}} = \pm \sqrt {b \cdot b'} \]

¿Qué signo tomamos para el \(r_{XY}\)?

Predicción en el análisis de regresión

Interpolación-Extrapolación

Regresión: Tratamos de explicar el comportamiento de una variable en función de la información disponible de otra.
Utilidad: Generar predicciones/pronóstico.
Hay que considerar el intervalo relevante de la variable independiente.
- Predecir un valor \(Y^*\) a partir de un valor \(X=x_0\)
- Es posible interpolar dentro del rango de valores de X.
- No se debe extrapolar hacia fuera del intervalo relevante.

Por qué?

Volvemos al ejemplo anterior…

Resolución del ejemplo (8)

Equipo_ventas	Ventas
15	34
24	55
27	67
16	31
19	32
26	44
19	39
23	46
26	53
22	43
28	45
17	41

\[{Y^*} = 5.918 + 1.752 \cdot X\] Se puede predecir el volúmen de ventas de un equipo integrado por 20 personas?

Intervalo relevante de X: de 15 a 28 pers.

Para \(X=20 \to Y^*\)?

\(Y^*=5.918 + 1.752*20\)
\(Y^*=27.67\) mil.€

Es fiable nuestro pronóstico?

Análisis de la bondad del ajuste (1)

Regresión: Intento de emplear la información proporcionada por una variable independiente (X) para explicar el comportamiento de una variable dependiente (Y).

¿Cuál es la capacidad explicativa del modelo estimado?

Bondad del ajuste, Fiabilidad del ajuste, Calidad del ajuste,…

Varianza residual (o de los errores)
Coeficiente de determinación

Análisis de la bondad del ajuste (2)

El grado de bondad del ajuste podemos deducirlo de la observación de las diferencias o residuos entre los valores observados y los valores estimados mediante la regresión.

¿Dónde son mayores, en valor absoluto, los residuos?

Análisis de la bondad del ajuste (3)

¿Qué inconveniente presena \(S_E^2\)?

Análisis de la bondad del ajuste (4)

\(Y^*=a + bX\)

Resultados importantes a considerar:
\({{\bar y}^*} = a + b\bar x = \left( {\bar y - b\bar x} \right) + b\bar x \quad \to\) \(\quad {{\bar y}^*} = \bar y\)

\(S_{{y^*}}^2 = {b^2}S_X^2 = \frac{{S_{XY}^2}}{{S_X^2}} = \frac{{r_{XY}^2S_X^2S_Y^2}}{{S_X^2}} \quad \to\) \(\quad S_{{y^*}}^2 = r_{XY}^2 \cdot S_Y^2\)

\(SCT=SCE + SCR\)

\(S_Y^2 = S_E^2 + S_{{Y^*}}^2\)

\(S_E^2 = S_Y^2 \cdot \left( {1 - r_{XY}^2} \right)\)
\(S_{{Y^*}}^2 = r_{XY}^2 \cdot S_Y^2\)

Análisis de la bondad del ajuste (5)

\(S_Y^2 = S_E^2 + S_{{Y^*}}^2\)

\(1 = \frac{{S_E^2}}{{S_Y^2}}+\) \(\frac{{S_{{Y^*}}^2}}{{S_Y^2}}\)

Coeficiente de determinación (\(R^2\)): mide la proporción de la varianza de Y que explica la variable independiente X en el modelo de Regresión.

Otras expresiones:

\[{R^2} = \frac{{S_{{Y^*}}^2}}{{S_Y^2}} = \frac{{S_Y^2 - S_E^2}}{{S_Y^2}} \qquad {R^2} = \frac{{S_{{Y^*}}^2}}{{S_Y^2}} = \frac{{r_{XY}^2 \cdot S_Y^2}}{{S_X^2}} = r_{XY}^2\]
\[{R^2} = \frac{{S_{XY}^2}}{{S_X^2 \cdot S_Y^2}}\]

Análisis de la bondad del ajuste (6)

El coeficiente de determinación (\(R^2\)):

Es adimensional.
Está acotado: \(0 \leqslant {R^2} \leqslant 1\)
Si \(R^2\) = 1, el ajuste es óptimo: \(\quad S_{{Y^*}}^2 = S_Y^2 \quad S_E^2 = 0*\)
Si \(R^2\) = 0, el ajuste es pésimo: \(\quad S_E^2 = S_Y^2\)

Volvamos al ejemplo…

Resolución del ejemplo (9)

\[Y^*=5.918 + 1.752X\]

Resolució de l'exemple (9)

Podemos comprobar que…. \[{{\bar y}^*} = \bar y = 44.17\] \[\bar e = 0\] \[S_Y^2 = 98.939 = S_E^2 + S_{{Y^*}}^2\] Coeficiente de determinación: \[{R^2} = \frac{{S_{{Y^*}}^2}}{{S_Y^2}} = \frac{{57.724}}{{98.939}} = 0.5834\] \[{R^2} = \frac{{S_{XY}^2}}{{S_X^2 \cdot S_Y^2}} = \frac{{{{32.944}^2}}}{{18.806 \cdot 98.939}} = 0.5834\] \[{R^2} = \frac{{S_Y^2 - S_E^2}}{{S_Y^2}} = \frac{{98.939 - 40.925}}{{98.939}} = 0.5834\]

Regressió no lineal

Regresión paraólica: \(Y^*=a + bX + cX^2 \to\) MCO
Regresión potencial: \(Y^*=aX^b \to\) MCO linealizando
Regresión exponencial: \(Y^*=a b^X \to\) MCO linealizando