INFERENCIAS SOBRE EL MODELO LINEAL

Inferencia sobre un parámetro.

Contraste de hipótesis sobre un regresor.

Contrastes lineales sobre un conjunto de regresores.

Contraste de significación de los regresores.

Contraste de validez del modelo/ significación general/ Anova

 


Inferencias sobre un parámetro

Teniendo en cuenta los resultados anteriores resulta sencillo diseñar los métodos para la realización de inferencias sobre uno de los "regresores", bj .

           Intervalo de confianza (1-a) para bj:

               teniendo en cuenta que:

si llamamos Sbj al error standard del estimador ,esto es, a todo lo que divide a (bj-bj) en la expresión anterior; el intervalo de confianza para bj resulta (para un N.C. de 1-a):

bjÎ [bj - ta/2 Sbj ; bj + ta/2 Sbj] con (1-a) de confianza

Para el caso particular del M.L.S. los intervalos de confianza para los coeficientes a y b serán respectivamente:

Ejemplo: En el ejemplo visto con anterioridad: El regresor para la primera variable explicativa (precio por kilo)e ra b2=-1.44765.La raiz cuadrada del elemento 2,2 de (X'X)-1, a22=(0.000746)1/2=0.027313,la "cuasi-desviación típica residual":Sr (n/n-k-1)1/2= 8.451406,de forma que que el error standard del estimador es: Sb2= 0.230912

Si queremos construir un intervalo de confianza para un nivel del 99%: t0.005 (12-2-1 g.l.)=3.25 de forma que el intervalo quedará:

b2Î [-1.44765- 3.25. 0.230912 ; 1.44765+ 3.25. 0.230912 ]

b2Î [-2.198114; 0.697186]

 

Contrastes de hipótesis sobre un regresor.

Basándonos en la distribución de (bj-bj)/ Sbj podremos igualmente contrastar hipótesis sobre el regresor bj

Si la hipótesis nula es: Ho: bj= bj* ya sea la alternativa uni o bilateral, el estadístico (bj-bj* )/ Sbj ,supuesta cierta la hipótesis nula tendrá una distribución t de Student(con n-k-1 g.l.) y podremos diseñar el contraste de la manera habitual que ya conocemos.

ejemplo

Contrastes lineales sobre un conjunto de regresores.

En muchos casos prácticos podemos estar interesado en contrastar una hipótesis no ya sobre el valor que toma un regresor,sino sobre cómo se comportan un conjunto de varios regresores.Si la hipótesis a contrastar consiste en que un conjunto de regresores verifican una cierta relación lineal esto puede llevarse a cabo a partir del procedimiento general que exponemos a continuación:

Una o varias relaciones lineales entre un conjunto de regresores puede expresarse de forma general de la siguiente manera:
Db = h

Donde el vector (k+1) dimensional b es el vector de parámetros (regresores) del modelo;h es un vector r-dimensional ,donde r es el número de relaciones lineales que estamos considerando; y, por último la matriz D de dimensión (r´k+1) es una matriz de coeficientes.

Así por ejemplo si queremos expresar sobre un modelo con 4 regresores (b0,b1,b2,b3)las siguientes 2 relaciones lineales:

b1+b2= 1 y b1-2b3= 0 podrá hacerse como:

Teniendo en cuenta esto es facil ver que la hiótesis nula de que un conjunto de regresores verifican una o más relaciones lineales puede expresarse como:

H0: Db = h

Es igualmente sencillo probar que si pre-multiplicamos el vector de estimadores b por la matriz D el resultado será un vector aleatorio

r-dimensional cuya distribución será normal ya que es una transformación lineal (forma lineal) del vector b que seguía una distrución normal:

(b --> Nk+1[ b ; s2 (X'X)-1])

El vector de medias del vector Db será E(Db)=DE(b)=Db=h (siempre que la hipótesis sea cierta).

y la matriz de varianzas será

Var (Db)= D.Var (b) D'= s2 D(X'X)-1D'

Así pues, si la hipótesis nula es cierta: Db --> Nr [ h , s2 D(X'X)-1D']

Puede apreciarse que la distribución de este estadístico vectorial depende del parámetro desconocido s .Para evitar este problema puede actuarse de la siguiente manera:

Aplicando el teorema de Cochran es inmediato que la forma cuadrática:

1/s2. (Db-h)' [D(X'X)-1D']-1 (Db-h) sigue una c2   con r grados de libertad

Si consideramos que 1/s2 . e'e sigue una c2 con n-k-1 g.l.

y asumiendo la independencia entre ambas variables aleatorias:

                        el estadístico:

Bajo el supuesto de que la hipótesis nula es cierta.

Así pues evaluando este estadístico y comparandolo con el valor crítico correspondiente para el nivel de significación requerido:

si F > Fa rechazaremos la hipótesis que supone la presencia de esa relación lineal, y en caso contrario, la aceptaremos

ejemplo

Contrastes de significación de los regresores

Un tipo particularmente importante de contrastes de hipótesis sobre los regresores (ya sea sobre 1 o sobre varios de ellos) es el contraste de la hipótesis nula de que el (o los) regresor(es) considerado(s) son cero frente a la alternativa bilateral de que son distintos de cero.En estos casos, si llegamos a rechazar la hipótesis nula quedará establecido que el regresor es significativo queriendo decirse que existirá una relación lineal significativa entre la variable a explicar y la(s) variable(s) explicativa asociada al regresor (o regresores) sujeto(s) a debate.

Suele llamarse contraste de significación a este tipo de contraste.Cuando se trata de un contraste individual se llevará a cabo mediante un contraste t de Student bilateral.

Una medida de la significación o significatividad de un parámetro (regresor) suele darse a través del valor del nivel de significación necesario para rechazar la hipótesis de nulidad;de forma que cuanto más pequeño sea este valor más significativo es el regresor.

Un caso particular importante de los contrastes de significación es aquel en el que se consideran (a la vez)todos los regresores (excepción hecha del termino independiente).Este contraste constituye una prueba de la validez global del modelo y recibe el nombre de "contraste de significación general", de validez general (y, también de análisis de la varianza de la regresión)

 

Contraste de validez general (significación general)(ANOVA)

Como acabamos de comentar se trata de análizar la significación de todos los regresores a la vez, lo que equivale a analizar la validez general del modelo,la fuerza de la relación lineal existente entre la variable y y las variables x,la significación de la correlación lineal múltiple; todo ello es equivalente.

Como también hemos comentado se trata, en el fondo de contrastar la hipótesis:

H0: b1=b2=b3=. . . = bk= 0

Podemos plantearlo, exactamente igual que el contraste general de hipótesis lineales sobre un conjunto de regresores.

H0: Db = h

Aquí la matriz D sería la matriz identidad de orden k (con 1 elemento menos que el número total de parámetros k+1) y el vector h sería el vector 0 de orden k.

Pudiéndose expresar la hipótesis como:

H0:Ikb = 0k

y si llamamos b al vector de orden k formado por los regresores excluyendo el término independiente podemos expresar la hipótesis como: (igualmente a su estimador lo llamamos b y llamamos X a la matriz de los datos de x excluida la primera columna de unos)

H0: b= 0

Al ser la matriz D la identidad y el vector h el vector cero, el estadístico del contraste quedaría:

 

Si tenemos en cuenta que la regresión muestral era: Xb=y* y que pasaba por el centro de gravedad, entonces: b' X' X b será n veces la varianza debida a la regresión:

b' X' X b = n S2y*=n S2yR2 . (Donde R2 es el coeficiente de determinación muestral)

Por otro lado:e'e es n veces la varianza residual:

e'e= n Sr2 = n Sy2(1- R2).

A partir de estos dos hechos es muy facil ver que el estadístico del contraste queda como:

Que bajo el supuesto de la hipótesis nula seguirá una distribución Fk,n-k-1

Es interesante observar que en el caso del M.L.S. , con k=1, y ante la coincidencia del coeficiente de determinación y el cuadrado del coeficiente de correlación, nos encontramos con el estadístico del contraste de incorrelación, cuya distribución no probamos y aquí haya una demostración.

El planteamiento de este contraste admite un esquema ANOVA, en el siguiente sentido: La variación total (muestral) de la y (nSy2) puede descomponerse en variación debida a la regresión

( b'X'Xb = n S2y*=n Sy2R2 ) más la variación residual o no explicada

(e'e= n Sr2 = n Sy2(1- R2)).