bondad de ajuste chi2

También se le conoce como contraste de adherencia a un ajuste, o como contraste de la c ².

La hipótesis a contrastar es el hecho (nótese que no hay valor de un parámetro) de que la muestra proviene de una distribución determinada y planteada de probabilidad , frente a la alternativa de que esto no es así .
Se parte de una sola muestra (lógico) normalmente en datos en forma de escala nominal , de ahí que este test se encuentre ubicado donde los está en la tabla resumen que antes presentamos
A través de este contraste, y partiendo de los datos muestrales , se obtiene un criterio de decisión sobre la hipótesis de que la población de la que se ha extraído la muestra se distribuya ( se ajuste bien , se adhiera ), o no , según algún modelo teórico determinado y planteado a priori. Así :

H₀: la muestra proviene(ajusta ,adhiere) a una población cuya función es (F(x))
H₁: la muestra NO proviene(ajusta ,adhiere) a una población cuya función es (F(x))

y trabajando con un determinado nivel de significación plantearíamos que si:
Las observaciones muestrales podremos considerarlas y disponerlas como una distribución de frecuencias ;frecuencias , claro está ,observadas.

x_i	n_observadas,i
x₁	n_o,1
x₂	n_o,2
·	·
x_m	n_o,m

Si la población sigue un determinado modelo teórico de distribución de probabilidad cada posible valor de la variable x_i tendrá asociada una determinada probabilidad , según ese modelo teórico.

Para cada uno de los valores muestrales podremos construir su distribución de probabilidad:

x_i	P(x_i)
x₁	P₁
x₂	P₂
·	·
x_m	P_m

Si multiplicamos, para cada x_i , su probabilidad , P_i, por el número total de observaciones, n , obtendremos las frecuencias que teóricamente debían corresponder a cada valor de la variable, según el modelo, (P_i·n = n _teórica,i ).

x_i	n_teóricas,i
x₁	n_t,1
x₂	n_t,2
·	·
x_m	n_t,m

A partir de la distribución de frecuencias observadas y de la de frecuencias teóricas puede construirse el siguiente estadístico:

donde m es el número de valores de la variable que se han muestreado (valores distintos)

Puede demostrarse que si la distribución de la población es efectivamente la utilizada para construir las frecuencias teóricas, el estadístico anterior se distribuye como una

es decir una chi-dos con m-k-1 grados de libertad, donde k es el número de paramétros estimados a partir de los datos muestrales y necesarios para la construcción de la tabla de frecuencias de la distribución teórica.

La pérdida de k+1 grados de libertad se debe precisamente a que con los m datos se calculan k parámetros (habrá ,por tanto, k ecuaciones que liguen los m datos) y , además, la suma de los m datos debe dar el número total de observaciones n (lo que supone una nueva ligadura):

m grados de libertad iniciales - (k + 1) ligaduras = m-k-1 grados de libertad finales

Debe observarse que este estadístico se distribuye siempre como una c ²_m-k-1 sea cual fuere el modelo teórico ( binomial, Poisson ,normal ,exponencial ,cualquiera de los estudiados, u otro diseñado "ad hoc"), siempre y cuando la población se distribuya, efectivamente, según ese modelo.

Teniendo en cuenta esto ,si queremos contrastar la hipótesis de que una cierta población sigue un modelo determinado, con un nivel de significación a , habrá que diseñar una región crítica según la cual si los datos muestrales nos conducen (bajo el supuesto de la hipótesis) a un estadístico c ² que pertenezca a ella rechazaremos la hipótesis.

Como siempre, de todas las posibles regiones que cumplen esa condición, escogeremos aquella que tenga mayor amplitud (lo que supone mayor amplitud de la zona de rechazo y, en consecuencia menor amplitud de la zona de aceptación) para poder realizar un contraste severo.

Teniendo en cuenta que el estadístico sigue una distribución c ² , la región crítica de mayor amplitud será la cola de la derecha.

no rechazaremos la hipótesis de que la población sigue el modelo de probabilidad planteado . ; mientras que si :

El estadístico c ² se calcula a partir de conteos discretos de las frecuencias para cada posible valor de la variable y ,como es bien sabido, la distribución c ² es una distribución de variable continua. Si las frecuencias esperadas para todos los valores de la variable n_teóricas,i " i son grandes , este hecho no plantea problemas.

Pero si alguna de las frecuencias teóricas es inferior a 5 será necesario subsanar este inconveniente agrupando las observaciones adyacentes. A modo de ejemplo :

x	n_observadas,i	n_teóricas,i
··	··	··
x_i+x_i+1	6+1=7	4+2=6

··

Por otro lado, cuando resulta que los grados de libertad implicados son sólo 1 (es decir, m-k-1 = 1) el estadístico c ² toma un sobrevalor que "infla" la rechazabilidad de la hipótesis , dado que la distribución chi-dos con un solo grado de libertad se eleva de forma evidente en la parte próxima a cero haciendo que el valor crítico, que divide las zonas , sea muy próximo a éste , primando, por ello, la rechazabilidad de la hipótesis . Para paliar esto, el americano Yates probó que es conveniente cuando m-k-1 = 1 utilizar como estadístico el siguiente :

Estas dos puntualizaciones deberán tenerse presentes a la hora de realizar los contrastes de adherencia a un ajuste (hipótesis: Población sigue cierto modelo), así como al realizar los contrastes de independencia (tablas de contingencia que estudiaremos después, cuando sean oportunas - son lo que se conoce como correcciones de continuidad de la prueba o test de la c ².