2.1 Introducción

 

Se denomina muestreo al proceso por el que generamos las muestras. Una muestra es una parte (un subconjunto) de la población, y se desea que la muestra sea lo más representativa posible de la población de la que procede. Sin embargo, por muy cuidadosa que sea la selección de la muestra difícilmente será una representación exacta de la población. Esto significa que su tendencia central, variabilidad, etc., aproximarán las de la población, pero habrá cierta diferencia, que interesa sea lo menor posible. Un concepto clave de muestreo es el de representatividad: Los procedimientos de muestreo tienen por objeto generar muestras lo más representativas posible de las poblaciones dados los objetivos de la investigación y las circunstancias que afectan al muestreo.

Desde un punto de vista aplicado, se denomina muestreo el proceso de selección de la muestra o muestras a utilizar para la investigación. Esto supone generar una o pocas muestras. Actualmente es de interés la selección de muestras para la simulación informática de los procesos de muestreo, particularmente para la obtención de distribuciones muestrales. En estos casos el número de muestras generadas puede ser muy grande (10.000, 80.000, o más) y el procedimiento de muestreo se realiza informáticamente y con procedimientos específicos.

Desde un punto de vista teórico, el concepto de muestreo es fundamental para la Inferencia Estadística. El hecho de que las muestras no sean exactamente representativas de las poblaciones significa que las inferencias presentan cierto margen de incertidumbre. Para cuantificarlo y definir técnicas inferenciales es necesario conocer cómo se comportan los estadísticos obtenidos en las muestras, esto es, cómo son las distribuciones muestrales de los estadísticos habitualmente utilizados para la inferencia.

Las muestras singulares generadas para investigación con sujetos suelen utilizarse para obtener algunos estadísticos (Media, proporción, cuasivarianza, etc.) con los que se realiza el proceso de inferencia. En cambio, las muestras simuladas por ordenador suelen ser utilizadas para obtener distribuciones muestrales y realizar inferencia. Esto es de interés cuando se dan circunstancias especiales que no aconsejan utilizar los procedimientos habituales. Las distribuciones muestrales son las distribuciones de estadísticos de muestras que pertenecen a la misma población. Por ejemplo, la distribución muestral de la Media es la distribución de las Medias de muestras de un mismo tamaño extraídas de la misma población.

Ejemplo

Sea un curso con 40 estudiantes (el número de datos es pequeño para facilitar la comprensión del ejemplo). Queremos conocer la Media de las puntuaciones del curso, pero por diversas razones no tenemos acceso a todos los datos (que se denomina población). Pero supongamos que podemos seleccionar cinco puntuaciones aleatoriamente y obtener la Media de la muestra. Si repetimos el proceso y generamos más muestras tendremos más Medias muestrales y podremos ver cómo se distribuyen:

La Media de los datos seleccionados aleatoriamente (son las señaladas en negrita) es:

Si repetimos el procedimiento 25 veces generamos 25 muestras. Las Medias de cada muestra son:

El Histograma de la distribución de las Medias de las 25 muestras es

con 100 muestras,

y con 1000 muestras

La forma del Histograma se acerca a la del modelo Normal cuanto mayor es el número de muestras. Esta es una característica de la distribución muestral de Medias que permite conocer si la media obtenida en la muestra es muy diferente a la media de la población, dado que tenemos la siguiente información:

a) La distribución de Medias muestrales es Normal.

b) La Media y Desviación Típica de la distribución de Medias muestrales son 4.7 y 1.52 (Nota: La diferencia entre la Media de la distribución muestral y la Media de la población se debe a que la muestra es pequeña).

e) Por tanto, sabemos lo siguiente:

* El 95% (aproximadamente) de las Medias muestrales obtenidas en el muestreo del ejemplo tienen valores entre 1.7 y 7.7

* El valor obtenido (4.2) está entre ambos límites, que definen el conjunto de valores que obtenemos al hacer un muestreo aleatorio con muestras de 5 datos de la población del ejemplo.

* Como conclusión, vemos que 4.2 es un valor esperable cuando efectuamos un muestreo aleatorio con muestras de 5 datos. Diremos que la diferencia observada respeto de la Media del curso es explicada por el azar (ya que la selección de las muestras ha sido aleatoria y asumimos que no han influido otros factores).