INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA Creative Commons License
(INTRODUCCIÓN.-MUESTREO.-DISTRIBUCIONES MUESTRALES )


1.Introducción

1.1 Inferencia Estadística

Inferir es , en general , establecer un nuevo conocimiento partiendo de uno ya "dado". La inferencia estadística va a ser una forma especial de realizar este proceso. Consiste, básicamente, en determinar algunas características desconocidas de una población partiendo de datos muestrales conocidos. Estas características poblacionales serán "inferidas" utilizando los recursos de la TEORÍA MATEMATICA DE LA PROBABILIDAD.

Fundamentalmente la Inferencia Estadística consiste en la resolución de dos grandes categorías de problemas:

*** LA ESTIMACIÓN :Determinar el valor de una característica poblacional desconocida . Podrá  ser:

 

*** EL CONTRASTE DE HIPOTESIS: Determinar si es aceptable, partiendo de los datos muestrales , que la característica poblacional estudiada tome un valor determinado o bien que pertenezca a un intervalo de valores determinado. (Es obvio que estos dos problemas de conocimiento pueden, muy bien , considerarse como dos tipos particulares de problemas de decisión estadística y así, de hecho ,lo considera una de las escuelas metodológicas de la Estadística)

1.2 Conceptos básicos.

POBLACION : Colectivo sujeto del estudio .Cabe distinguir entre Población (colectivo en el que estamos considerando la magnitud sujeta a estudio) y Universo (colectivo de todos los elementos sujetos del estudio ,en el que no consideramos la magnitud). El universo es , por tanto, el conjunto de individuos que poseen la característica o características sujetas a estudio , y éstas en su conjunto forman la población

Así ; Analizando las estaturas de los españoles , la población sería el conjunto de todas las estaturas de todos los españoles , siendo el universo el conjunto de todos los españoles.

MUESTRA :Un subconjunto cualquiera de la población . Para que la muestra nos sirva para extraer conclusiones sobre la población deber  ser representativa , lo que se consigue seleccionando sus elementos al azar , lo que da lugar a una muestra aleatoria

MUESTREO : Procedimiento para la obtención de una muestra

MUESTREO OPINATICO : es aquel procedimiento de selección de los elementos muestrales que se realiza según el criterio del investigador . Es , por tanto ,subjetivo y la muestra obtenida puede no ser   representativa de la población.

MUESTREO ALEATORIO :es aquel procedimiento de selección de la muestra en el que todos y cada uno de los elementos de la población tiene una cierta probabilidad de resultar elegidos . De esta forma, si tenemos una población de N elementos y estamos interesados en obtener una muestra de n elementos (muestra de tamaño n), cada subconjunto de n elementos de la población tendrá   también una cierta probabilidad de resultar la muestra elegida.

Si designamos por Mi a cada uno de estos subconjuntos ,con i= 1,2,3,...N;

cada Mi tendrá una cierta probabilidad P(Mi) de resultar elegido.

MUESTREO ALEATORIO SIMPLE: (M.A S.) :es    aquel muestreo aleatorio en el que la probabilidad de que un elemento resulte seleccionado se mantiene constante a lo largo de todo el proceso de obtención de la misma . La técnica del muestreo puede asimilarse a un modelo de extracción de bolas de una urna con devolución (reemplazamiento) de la bola extraída . Un mismo dato puede, en consecuencia, resultar muestreado más de una vez .Cada elección no depender  de las anteriores y , por tanto, los datos muestrales serán estocásticamente independientes.

MUESTREO IRRESTRICTO (SIN REEMPLAZAMIENTO): en este tipo de muestreo la probabilidad de obtener un dato en cada selección viene influida por los resultados anteriores , en la medida en que en este muestreo no permitimos que un mismo dato sea seleccionado más de una vez (lo que hace variar las probabilidades en

cada extracción muestral) . Se corresponde con un modelo de extracción sin reemplazamiento .Teniendo en cuenta la convergencia de la distribución hipergeométrica a la binomial es fácil intuir que cuando la población sea muy grande
(N® ¥ ) el muestreo irrestricto puede considerarse como muestreo aleatorio simple.

Por tanto , en el estudio de muestras para poblaciones grandes consideraremos sólo el muestreo simple .En el estudio de muestras de poblaciones finitas es, sin embargo , fundamental analizar las distribuciones muestrales que generará su adecuado muestreo irrestricto)

MUESTRA GENERICA DE TAMAÑO n : Es una variable aleatoria

n-dimensional ; X=[x1 ,x2 ,x 3,...,xn ] donde cada xj (con j=1,2,...n)

(cada dato muestral genérico) recorre todos los posibles valores que puede tomar el j-simo elemento de una muestra de n elementos.

Por tanto , una muestra concreta (ya obtenida) será  un valor particular (una realización concreta ) de la muestra genérica.

En la medida en que en el muestreo aleatorio cada elemento de la población tiene una probabilidad de ser elegido ,cada dato muestral genérico será  una variable aleatoria que tendrá  asociada una función de probabilidad f(x ) (de cuantía o de densidad) según una determinada distribución que llamaremos distribución básica , madre , o, simplemente, distribución de la población y recorrerá  todos los posibles valores de la población.

Si trabajamos con un muestreo aleatorio simple (M.A.S.),cada dato muestral genérico será  estocásticamente independiente de los demás y por tanto la función de probabilidad (cuantía o densidad) conjunta de la muestra genérica será :

f(x) = f ( x1 ,x2 ,x3 ,x4 ……. ,x n ) =f(x1 )· f(x2 )· f(x3 )…..f(x n )

por ser las xj variables aleatorias independientes.

ESTADÍSTICO : Es cualquier función de los valores muestrales que dependa exclusivamente de estos . En la medida en que los valores muestrales son variables aleatorias también lo serán las funciones de éstos : los estadísticos.

A modo de ejemplo podemos decir que son estadísticos la media muestral ,la varianza muestral , la cuasivarianza muestral , dado que son funciones de valores muestrales exclusivamente y no sería estadístico la función     que si bien contiene la varianza muestral , también depende de la poblacional       y por tanto no es función exclusiva de la muestra.

Como hemos visto, los estadísticos son variables aleatorias por lo que tendrán determinas distribuciones de probabilidad y determinados parámetros ( media , varianza , etc) .Para el desarrollo de la inferencia es imprescindible conocer dichas distribuciones y parámetros , consiguiendo establecer entonces las relaciones entre éstas y las de la población , pudiendo entonces inferir las características desconocidas de ésta.

Tras un breve recorrido por las técnicas de muestreo pasaremos a desarrollar las distribuciones de probabilidad de los principales estadísticos.

 

1.3.Técnicas de muestreo

Es evidente que un conocimiento previo por parte del investigador de las características de la realidad de la población mejora o debe mejorar los resultados inferenciales que se pueden obtener de la obtención de una muestra ; parace claro que si bien el método de selección aleatoria conlleva los mejores resultados , quizá el adecuar la manera de extraer la muestra a las posibles distintas naturalezas de las poblaciones puede mejorar el rendimiento , aunque sólo fuere a nivel de coste. No es por tanto lo mismo intentar conocer la altura media de los habitantes de un país , que el número de errores en una gran contabilidad , dado que la naturaleza de su universo y por tanto el comportamiento poblacional son distintos. Es por ello ,que para distintas "naturalezas" del problema han de plantearse distintas soluciones , si bien todas ,o casi todas, pasan por la aleatoriedad ; de ahí que se establezcan diversas "técnicas" o "métodos" de muestreo , de los que brevemente enumeramos algunos .

 

1.3.1.Muestreo aleatorio sistemático. Esta técnica consiste en extraer elementos de la población mediante una regla sistematizadora que previamente hemos creado (sencillamente cada K elementos) . Así ; numerada la población , se elige(aleatoriamente) un primer elemento base , partiendo de éste se aplica la regla para conseguir los demás hasta conseguir el tamaño muestral adecuado . Este procedimiento conlleva el riesgo de dar resultados sesgados si en la población se dan periodicidades o rachas .

1.3.2.Muestreo aleatorio estratificado . Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen una gran homogeneidad interna (poca varianza interna) y no obstante son heterogéneos entre sí (mucha varianza entre estratos) . La muestra se distribuye ( se extrae de ) entre los estratos predeterminados según la naturaleza de la población (ejemplo : sexo , lugar geográfico,etc.). Dicha distribución-reparto de la muestra se denomina afijación ; que puede ser de varias formas :

*afijación simple : a cada estrato le corresponde igual número de elementos (extracciones) muestrales.

*afijación proporcional : la distribución se hace de acuerdo con el peso(tamaño) relativo de cada estrato.

*afijación óptima : Se tiene en cuenta la previsible dispersión de los resultados , de modo que se considera la proporción y la desviación típica .

1.3.3Muestreo por conglomerados . La unidad muestral es un grupo de elementos de la población que forman previsiblemente una unidad de comportamiento representativo. Dicha unidad es el conglomerado cuyo comportamiento interno puede ser muy disperso (varianza grande) pero que presumiblemente poseerá un comportamiento próximo a otros conglomerados (varianza entre conglomerados , pequeña). Los conglomerados se estudian en profundidad hasta conseguir el tamaño muestral adecuado.

1.3.4.Muestreo por unidades monetarias .Este tipo de muestreo es especifico en auditoría , viene a solucionar el problema que plantea la selección aleatoria de partidas contables que no tienen (evidentemente) el mismo monto económico y por ello en un muestreo estrictamente aleatorio se "primaría" la inspección de las numerosas partidas pequeñas irrelevantes dejando sin inspección las importantes y cuantiosas. Para solucionarlo el M.U.M plantea la selección aleatoria no de asientos o partidas sino de unidades monetarias (ordenadas y numeradas) de tal manera que el defecto anterior se subsana al tener una partida cuantiosa más probabilidades de ser elegida pues contiene más unidades monetarias.

1.3.5.Otros tipos de muestreo. Es evidente que los planteados no son las únicas técnicas de muestreo. Existen otras como las no aleatorias : Cuotas ,Intencional , Incidental, bola de nieve , etc. Y otras aleatorias y complicadas como el muestreo por superpoblaciones, y que en este curso no podemos desarrollar.

 

2. Distribuciones en el Muestreo de los principales Estadísticos.

Esquemáticamente pueden plantearse algunos de los posibles escenarios que darán origen a las diversas distribuciones muestrales que después desarrollaremos.

2.jpg (45721 bytes)

3.jpg (48967 bytes)

 

1.jpg (35056 bytes)

Una vez esquematizadas las distribuciones de algunos de los principales estadísticos muestrales pasamos a desarrollar algunas de ellas

 

2.1 Distribuciones muestrales para una población cualquiera

Si desconocemos la distribución de la población no podemos, evidentemente, conocer la distribución de la muestra genérica de tamaño n y ,en consecuencia, no podremos llegar a conocer la distribución de los estadísticos. Pero sí se podrá  ,en cualquier caso, determinar los principales parámetros (esperanza y varianza) de las principales distribuciones muestrales(de estadísticos) en función de los parámetros de la distribución de la población ( media poblacional, varianza poblacional .)

 

2.1.1.Distribución de la media muestral

La esperanza de la media muestral coincide con la media de la población, en definitiva ; la media de la media muestral es la media de la población :

en efecto :

                      así :

                  dado que para cualquier valor de i               ya que                pertenece a la población

             tendríamos que       

En cuanto a la varianza de la media muestral , tendremos que si el muestreo utilizado es aleatorio simple se cumple que                 en efecto :

dado que en el muestreo aleatorio simple las observaciones o elementos son independientes tendremos covarianzas iguales a cero y dado que :

para todo i

tendremos

evidentemente la desviación típica será       

 en el caso de que el muestreo que hayamos realizado no sea aleatorio simple y que sea irrestricto y por tanto se plantee que no hay reemplazamiento siendo la población finita la media de la media muestral no sufrirá variaciones , pero no así la varianza de la media muestral que se verá afectada por el "coeficiente corrector de poblaciones finitas" (C .C .P.F. ), o "coeficiente de exhaustividad" , ya conocido del estudio de la distribución hipergeométrica. Así la varianza de la media muestral quedaría :

      siendo N el tamaño de la población (finita) y el resto lo habitual

Dado que ya conocemos la media y la varianza de la media muestral , y dado que podríamos tomar la muestra genérica como una sucesión de variables aleatorias independientes de media y varianza conocida , aunque con distribución desconocida , y en aplicación del T.C.L. , tendremos que la ley de la media muestral sea cual sea la distribución poblacional viene dada por :

 

2.1.2.Distribución de la varianza muestral

Al igual que la media muestral la varianza muestral tendrá media y varianza dado que se trata también de una variable aleatoria .

La media de la varianza muestral con M.A.S. es :

la varianza muestral tiene de expresión

si cambiamos de origen a la media de la población la varianza muestral no varía así :

              aplicando el operador esperanza tendremos :

=

                        ==

                                  dado que         

                                y también       

En cuanto a la varianza de la varianza muestral diremos que su expresión es la siguiente ,que admitimos sin demostrar que :

 

2.2 Distribuciones muestrales para una población normal

De todas las posibles distribuciones básicas es ,sin duda ,la distribución normal la más importante por el gran número de poblaciones que se distribuyen así, real o asintóticamente ,(en virtud de los Teoremas Límite).

Así pues ,en los subapartados siguientes ,consideraremos que conocemos la distribución de la población y que ‚ ésta , es normal . Consideraremos igualmente muestreo aleatorio simple (m.a.s.)

2.2.1. Distribución de la media muestral

Si la población se distribuye     N[m ;s ]    entonces       

 

en efecto si          y dado que    siendo independientes pues realizamos m.a.s. y en aplicación del teorema fundamental de las distribuciones normales obtendremos       

2.2.2.Distribución de la varianza muestral

En lugar de obtener la distribución muestral del estadístico varianza muestral

L [S2] que nos llevaría a conclusiones próximas a las anteriormente descritas en el apartado en el que la población no era normal, es más conveniente la utilización de la variable aleatoria       que recordemos , no es un estadístico , y que contiene en su expresión a la varianza muestral y a la poblacional , de ahí su utilidad dado que ambas quedan relacionadas con una distribución conocida ; la jhi-dos.

No demostramos la relación pero la recordamos dada su importancia posterior.

2.2.3 Distribución de la media muestral con varianza desconocida.

En apartados anteriores estudiamos el comportamiento de la media muestral y vimos que ésta dependía tanto del valor de la media poblacional , como de la varianza poblacional , parece lógico pensar que si nuestro interés radica en inferir comportamientos de la población partiendo de la muestra parece ilógico pensar que conozcamos la varianza . De ahí la importancia de establecer una distribución para la media muestral que la relacione únicamente con la poblacional , lo que hará que conocida la muestral concreta podamos aventurar el comportamiento de la poblacional.

Así tendríamos :

                           lo que da lugar a :    

           hemos visto sin demostrar que      

                conocemos que          luego             simplificando tendríamos

                                                                       

                       expresión que relaciona ambas medias y la varianza muestral con una distribución conocida


2.3.Distribución de la proporción muestral de una característica.

Por su importancia incluimos esta distribución si bien podría considerarse un caso particular de la media muestral con distribución poblacional desconocida.

Así dada una población que por sus características consideramos binomial pues nuestra intención es inferir la proporción de éxitos p y por tanto la población sería B (N,p) podemos considerar cada realización muestral xi una D(p) cuya media sería p y su varianza pq

     la variable               dado que las xi son independientes y en aplicación del TCL tendríamos

                                 que       

2.4. Distribución de la diferencia de dos medias muestrales de dos poblaciones normales.

Por último y dado el gran número de intervalos y contrastes que emanan de la utilización de esta distribución creemos necesario incluirla . Así :

Dadas dos variable X e Y que se distribuyen normalmente y por tanto :

                         e      

realizado un MA.S de tamaños nx y ny respectivamente tendremos por conocido que      y también

    por lo que la variable      n aplicación del teorema fundamental de las distribuciones normales será :