2023-11-20

Introducción

Dos variables: X y Y

  • X: salario mensual
  • Y: antigüedad

Tenemos una variable estadística bidimensional (X,Y)

Supongamos que para una muestra de \(n\) individuos se considera la variable estadística bidimensional (X, Y).

  • X: puede tomar I valores diferentes (\(x_i\) i = 1,2,…,I)

  • Y: puede tomar J valores diferentes (\(y_j\) j = 1,2,…,J)

  • \(n_{ij}\) es el número de veces que se repite el par (\(x_i , y_j\)). Es la frecuencia absoluta ordinaria conjunta.

¿Como podemos representar/tabular la distribució de frecuencias conjunta que viene representada por (\(x_i, y_j, n_{ij}\))?

Tabla de doble entrada (1)

Si cada par (\(x_i, y_j\)) se repite (o se considera que se repite una sola vez:



Ejemplo: una empresa de reciente creación tiene 5 empleados. El salario neto (X, en €) y la antigüedad en la empresa (Y, en meses) son:
Ahora, supongamos que un empleado que trabajaba en otra empresa del mismo propietario es traslado a la empresa anterior, respetándole la antigüedad (13 meses) y cobrando un salario neto de 1,400€.

Tabla de doble entrada (2)

Tabla de doble entrada: si algún par (\(x_i,y_j\)) se repite.

Tabla de doble entrada (3)

Distribuciones marginales

Como las distribuciones marginales son distribuciones de frecuencias unidimensionales, podemos calcular todas las medidas estudiadas en el tema 1.

Distribuciones condicionadas (1)

Obtener la distribución de Y condicionada a que X toma el valor \(x_i\).

Distribuciones condicionadas (2)

Como las distribuciones condicionadas son distribuciones de frecuencias unidimensionales, podemos calcular todas las medidas estudiadas en el tema 1.

Representación gráfica (1)

Diagrama de dispersión: se representan los puntos (\(x_i,y_j\)) en un sistema de ejes cartesianos.

## TableGrob (1 x 2) "arrange": 2 grobs
##   z     cells    name           grob
## 1 1 (1-1,1-1) arrange gtable[layout]
## 2 2 (1-1,2-2) arrange gtable[layout]

Representación gráfica (2)

Preguntas que hemos de tratar de responder:

  • ¿Observamos algún tipo de forma funcional que relacione las variables?
  • Supongamos que hay una relación lineal, ¿la nube de puntos es ascendente o es descendente?
  • La nube de puntos, ¿se ajusta mucho o poco a una recta?

Covarianza (1)

La Covarianza (\(S_{XY}\)): es la media de las desviaciones de los valores de cada variable respecto a su media.

A partir de datos brutos, pares ($x_i,y_i):
\[{S_{XY}} = {S_{YX}} = \frac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \bar x} \right) \cdot \left( {{y_i} - \bar y} \right)} }}{n}\]

  • Mide la relación (asociación) lineal entre dos variables X e Y.
  • Interesa más el signo (o si es cero) que el valor.
  • Unidades de medida.

Covarianza (2)

\[{S_{XY}} = \frac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \bar x} \right) \cdot \left( {{y_i} - \bar y} \right)} }}{n} \quad \to \quad {S_{XY}} = \frac{{\sum\limits_{i = 1}^n {{x_i} \cdot {y_i}} }}{n} - \bar x \cdot \bar y\]

Covarianza (3)


Situación 1. \(S_{XY}>0\). Cuanto mayores/menores son los valores de X respecto a su media, mayores/menores son los valores de Y respecto a su media.
Situación 2. \(S_{XY}<0\). Cuanto mayores/menores son los valores de X respecto a su media, menores/mayores son los valores de Y respecto de su media.

Coeficiente de correlación (1)

Covarianza: mide el sentido (dirección) de la relación lineal entre dos variables.

No es una buena medida para evaluar la intensidad o la fortaleza de la relación.


Coeficiente de correlación lineal (de Pearson)(\(r_{XY}\)): se obtiene al dividir la covarianza por el producto de las desviaciones típicas.
\[{r_{XY}} = {r_{YX}} = \frac{{{S_{XY}}}}{{{S_X} \cdot {S_Y}}}\]

  • Es adimensional.
  • Es invariable a transformaciones lineales de las variables.
  • Está acotado: \(-1 \leqslant r_{XY}\leqslant1\)

Coeficiente de correlación (2)

Coeficiente de correlación (3)

Resumen:

  • \(r_{XY} = 1\) existe una relación lineal perfecta positiva entre las variables
  • \(r_{XY} = -1\) existe una relación lineal perfecta negativa entre las variables
  • \(|r_{XY}|\) cuanto mayor sea \(r_{XY}\), mayor será la relación lineal entre las variables

Resumen de las medidas

Vector de medias: vector columna cuyas componentes son las medias de la variables estadística bidimensional (X,Y).
\[m = \left( {\begin{array}{*{20}{c}} {\bar x} \\ {\bar y} \end{array}} \right)\] Matriz de varianzas-covarianzas (V): matriz cuadrada simétrica y semidefinida positiva cuya diagonal principal son las varianzas de las variables y los restantes componentes son las covarianzas.
\[V = \left( {\begin{array}{*{20}{c}} {S_X^2}&{{S_{XY}}} \\ {{S_{YX}}}&{S_Y^2} \end{array}} \right)\] Matriz de correlación (R): matriz cuadrada simétrica y semidefinida positiva cuya diagonal principal son unos y los restantes componentes son los coeficientes de correlación bivariados.
\[R = \left( {\begin{array}{*{20}{c}} 1&{{r_{XY}}} \\ {{r_{YX}}}&1 \end{array}} \right)\]

Independencia estadística (1)

Al analizar conjuntamente 2 variables nos podemos plantear cuestiones como:

  • ¿Existe algún tipo de relación entre las variables?
  • ¿Podemos tratar de explicar el comportamiento de una de las variables utilizando información de la otra?
  • ¿Los valores que toma una variable influyen en la distribución de los valores de la otra?

Independencia estadística (2)

Dependencia funcional i dependencia estadística:

No existe relación alguna entre las variables: independentes.


Teoría de la correlación y Teoría de la regresión


Relación entre las variables es perfecta: relació funcional. Los valores de una variable determinan exactamente los valores de la otra.

Independencia estadística (3)

Teorema de caracterización: Dos variables X e Y son estadísticamente independientes si y solo si:
\[\frac{{{n_{ij}}}}{n} = \frac{{{n_{i \bullet }}}}{n} \cdot \frac{{{n_{ \bullet j}}}}{n} \qquad \forall i,j\]

Atención!! Error frecuente: hay que comprobarlo para todo (\(\forall (i,j)\))

Introducción a la regresión lineal (1)

Hasta ahora hemos visto:

  • Cómo detectar la existencia de dependencia estadística entre dos variables o si eran independientes.
  • Cómo medir el sentido e intensidad de la relación (lineal).

En lo que resta de tema vamos a ver:

  • Suponiendo la existencia de relación (dependencia estadística) entre las variables objeto de estudio, estimar la forma o estructura de dicha relación.

  • Teoría de la Regresión: Trata de explicar el comportamiento de una variable (v. dependiente) en función de otra (v. independiente)

  • Utilidad del análisis de regresión: Predicción (Pronóstico)

Introducción a la regresión lineal (2)

Diagrama de dispersión: nos ayuda a determinar la naturaleza de la relación entre 2 variables:



¿Cuál es la forma funcional adecuada para la relación subyacente que desconocemos?

Introducción a la regresión lineal (3)

Como directivo de ventas de una gran empresa está interesado en analizar la relación entre el número de personas que integran un equipo de ventas (fuerza de ventas) y el volumen de ventas (en millones €).


¿Qué conclusiones pueden extraerse al observar el diagrama de dispersión?

Introducción a la regresión lineal (4)

Forma funcional que relaciona las variables: RECTA

Análisis de Regresión: permite pasar de una dependencia estadística a una dependencia funcional.


Regresión lineal: método de mínimos cuadrados (1)

Regresión Y/X


La recta que mejor se ajuste a nuestra nube de puntos será aquella en la que los errores (residuos) sean mínimos.

Regresión lineal: método de mínimos cuadrados (2)

Regresión lineal: método de mínimos cuadrados (3)

(OPCIONAL) \[Min\sum\limits_{i = 1}^n {e_i^2} = Min\sum\limits_{i = 1}^n {{{\left( {{y_i} - \left( {a + b{x_i}} \right)} \right)}^2}} \] Derivando… \[\begin{gathered} \frac{{\partial \varphi }}{{\partial a}} = \sum\limits_{i = 1}^n {2 \cdot \left[ {{y_i} - \left( {a + b{x_i}} \right)} \right]} \cdot \left( { - 1} \right) = 0 \hfill \\ \frac{{\partial \varphi }}{{\partial b}} = \sum\limits_{i = 1}^n {2 \cdot \left[ {{y_i} - \left( {a + b{x_i}} \right)} \right]} \cdot \left( { - {x_i}} \right) = 0 \hfill \\ \end{gathered} \]

Regresión lineal: método de mínimos cuadrados (4)

Sistema de ecuaciones normales minimocuadráticas:
\[\left. \begin{gathered} \sum\limits_{i = 1}^n {{y_i} = n \cdot a + b \cdot \sum\limits_{i = 1}^n {{x_i}} } \hfill \\ \sum\limits_{i = 1}^n {{x_i} \cdot {y_i} = a \cdot \sum\limits_{i = 1}^n {{x_i}} } + b \cdot \sum\limits_{i = 1}^n {x_i^2} \hfill \\ \end{gathered} \right\}\]
Resolviendo…

\(a = \bar y - b \cdot \bar x \quad\) Ordenada en el origen (intercepto)

\(b = \frac{{{S_{XY}}}}{{S_X^2}} \quad\) Coeficiente de regresión

Regresión lineal: método de mínimos cuadrados (5)

Si sustituimos \(a\) i \(b\) en la recta: \(Y^*=a + b X\)

\[{Y^*} = \left( {\bar y - b\bar x} \right) + bX\]

Resolviendo…

\[{Y^*} = \bar y + \frac{{{S_{XY}}}}{{S_X^2}}\left( {X - \bar x} \right)\]

Recta de regresión (minimocuadrática) de Y/X

Regresión lineal: método de mínimos cuadrados (5)

Interpretación…


Coeficiente de regresión:

\(b = \frac{{{S_{XY}}}}{{S_X^2}}\)

\(b = tg\alpha = \frac{{\Delta y}}{{\Delta x}}\)

Ordenada en el origen:
\(a = \bar y - b \cdot \bar x\)

Resolución del ejemplo (1)

A mano… (Atención: en Y/X se divide \(S_{XY}\) entre la \(S_x^2\))

Resolución del ejemplo (2)

Resolución del ejemplo (3)

y con la recta de regresión…

Resolución del ejemplo (4)

vAMOS A HACERLO EN EXCEL!!

Regresión lineal: método de mínimos cuadrados (6)

Rectas de regresión en función del coeficiente de correlación:

\[{Y^*} = \bar y + \frac{{{S_{XY}}}}{{S_X^2}}\left( {X - \bar x} \right)\] \[{X^*} = \bar x + \frac{{{S_{XY}}}}{{S_Y^2}}\left( {Y - \bar y} \right)\]

Relación entre correlación y regresión (1)

Relación entre correlación y regresión (2)

Relación entre correlación y regresión (3)

¿Es posible obtener estas rectas de regresión?

\[b \cdot b' = \frac{{{S_{XY}}}}{{S_X^2}} \cdot \frac{{{S_{XY}}}}{{S_Y^2}} = \frac{{S_{XY}^2}}{{S_X^2 \cdot S_Y^2}} = {\left( {\frac{{{S_{XY}}}}{{{S_X} \cdot {S_Y}}}} \right)^2} = r_{XY}^2\]

\[{r_{XY}} = \pm \sqrt {b \cdot b'} \]

¿Qué signo tomamos para el \(r_{XY}\)?

Predicción en el análisis de regresión

Interpolación-Extrapolación


  • Regresión: Tratamos de explicar el comportamiento de una variable en función de la información disponible de otra.

  • Utilidad: Generar predicciones/pronóstico.

  • Hay que considerar el intervalo relevante de la variable independiente.

    • Predecir un valor \(Y^*\) a partir de un valor \(X=x_0\)
      • Es posible interpolar dentro del rango de valores de X.
      • No se debe extrapolar hacia fuera del intervalo relevante.
Por qué?

Resolución del ejemplo (6)

Equipo_ventas Ventas
15 34
24 55
27 67
16 31
19 32
26 44
19 39
23 46
26 53
22 43
28 45
17 41

\[{Y^*} = 5.918 + 1.752 \cdot X\] Se puede predecir el volúmen de ventas de un equipo integrado por 20 personas?

Intervalo relevante de X: de 15 a 28 pers.

Para \(X=20 \to Y^*\)?

\(Y^*=5.918 + 1.752*20\)
\(Y^*=27.67\) mil.€

Es fiable nuestro pronóstico?

Análisis de la bondad del ajuste (1)

Regresión: Intento de emplear la información proporcionada por una variable independiente (X) para explicar el comportamiento de una variable dependiente (Y).

¿Cuál es la capacidad explicativa del modelo estimado?



Bondad del ajuste, Fiabilidad del ajuste, Calidad del ajuste,…

  • Varianza residual (o de los errores)
  • Coeficiente de determinación

Análisis de la bondad del ajuste (2)

El grado de bondad del ajuste podemos deducirlo de la observación de las diferencias o residuos entre los valores observados y los valores estimados mediante la regresión.


¿Dónde son mayores, en valor absoluto, los residuos?

Análisis de la bondad del ajuste (3)


¿Qué inconveniente presena \(S_E^2\)?

Análisis de la bondad del ajuste (4)

\(Y^*=a + bX\)

Resultados importantes a considerar:
\({{\bar y}^*} = a + b\bar x = \left( {\bar y - b\bar x} \right) + b\bar x \quad \to\) \(\quad {{\bar y}^*} = \bar y\)

\(S_{{y^*}}^2 = {b^2}S_X^2 = \frac{{S_{XY}^2}}{{S_X^2}} = \frac{{r_{XY}^2S_X^2S_Y^2}}{{S_X^2}} \quad \to\) \(\quad S_{{y^*}}^2 = r_{XY}^2 \cdot S_Y^2\)

\(SCT=SCE + SCR\)

\(S_Y^2 = S_E^2 + S_{{Y^*}}^2\)

  • \(S_E^2 = S_Y^2 \cdot \left( {1 - r_{XY}^2} \right)\)
  • \(S_{{Y^*}}^2 = r_{XY}^2 \cdot S_Y^2\)

Análisis de la bondad del ajuste (5)

\(S_Y^2 = S_E^2 + S_{{Y^*}}^2\)

\(1 = \frac{{S_E^2}}{{S_Y^2}}+\) \(\frac{{S_{{Y^*}}^2}}{{S_Y^2}}\)

Coeficiente de determinación (\(R^2\)): mide la proporción de la varianza de Y que explica la variable independiente X en el modelo de Regresión.

Otras expresiones:

\[{R^2} = \frac{{S_{{Y^*}}^2}}{{S_Y^2}} = \frac{{S_Y^2 - S_E^2}}{{S_Y^2}} \qquad {R^2} = \frac{{S_{{Y^*}}^2}}{{S_Y^2}} = \frac{{r_{XY}^2 \cdot S_Y^2}}{{S_X^2}} = r_{XY}^2\]
\[{R^2} = \frac{{S_{XY}^2}}{{S_X^2 \cdot S_Y^2}}\]

Análisis de la bondad del ajuste (6)

El coeficiente de determinación (\(R^2\)):

  • Es adimensional.
  • Está acotado: \(0 \leqslant {R^2} \leqslant 1\)
    • Si \(R^2\) = 1, el ajuste es óptimo: \(\quad S_{{Y^*}}^2 = S_Y^2 \quad S_E^2 = 0\)
    • Si \(R^2\) = 0, el ajuste es pésimo: \(\quad S_E^2 = S_Y^2\)

Resolución del ejemplo (7)

\[Y^*=5.918 + 1.752X\]

Resolución del ejemplo (8)

Podemos comprobar que…. \[{{\bar y}^*} = \bar y = 44.17\] \[\bar e = 0\] \[S_Y^2 = 98.939 = S_E^2 + S_{{Y^*}}^2\] Coeficiente de determinación: \[{R^2} = \frac{{S_{{Y^*}}^2}}{{S_Y^2}} = \frac{{57.724}}{{98.939}} = 0.5834\] \[{R^2} = \frac{{S_{XY}^2}}{{S_X^2 \cdot S_Y^2}} = \frac{{{{32.944}^2}}}{{18.806 \cdot 98.939}} = 0.5834\] \[{R^2} = \frac{{S_Y^2 - S_E^2}}{{S_Y^2}} = \frac{{98.939 - 40.925}}{{98.939}} = 0.5834\]

Regresión no lineal


Regresión parabólica: \(Y^*=a + bX + cX^2 \to\) MCO
Regresión potencial: \(Y^*=aX^b \to\) MCO linealizando
Regresión exponencial: \(Y^*=a b^X \to\) MCO linealizando