2.3 Valores faltantes


Son aquellos que no constan debido a cualquier acontecimiento, como por ejemplo errores en la transcripción de los datos o la ausencia de disposición a responder a ciertas cuestiones de una encuesta. Los datos pueden faltar de manera aleatoria o no aleatoria.

Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que disminuyen el tamaño de las muestras y en consecuencia la potencia de las pruebas de contraste de hipótesis. Los datos faltantes no aleatorios ocasionan, además, disminución de la representatividad de la muestra.

Tratamiento

De casos completos o eliminación por lista

Este procedimiento consiste en incluir en el análisis los casos que presentan observaciones completas en todas las variables. Este método solo debe utilizarse cuando el proceso de recogida de datos es aleatorio, porque en otro caso introduce sesgo. Otro inconveniente es que el tamaño muestral puede llegar a sufrir una gran reducción y afectar a la representatividad de la muestra.

Selección por variables

Se mantienen en la base de datos los casos con tal que tengan datos en las variables que van a ser utilizadas para el análisis. Este procedimiento tiene el inconveniente de generar muestras heterogéneas.

Métodos de imputación

Los métodos de imputación consisten en estimar los valores ausentes en base a los valores válidos de otras variables y/o casos de la muestra. La estimación se puede hacer a partir de la información del conjunto completo de variables o bien de algunas variables especialmente seleccionadas. Usualmente los métodos de imputación se utilizan con variables métricas (de intervalo o de razón), y deben aplicarse con gran precaución porque pueden introducir relaciones inexistentes en los datos realas.

Principales procedimientos:

Sustitución por la Media. Consiste en sustituir el valor ausente por la Media de los valores válidos. Este procedimiento plantea inconvenientes como:

Dificulta la estimación de la Variáncia.

Distorsiona la verdadera distribución de la variable,

Distorsiona la correlación entre variables dado que añade valores constantes.

Sustitución por constante. Consiste en sustituir los valores ausentes por constantes cuyo valor viene determinado por razones teóricas o relacionadas con la investigación previa. Presenta los mismos inconvenientes que la sustitución por la Media, y solo debe ser utilizado si hay razones para suponer que es más adecuado que el método de la media.

Imputación por regresión. Este método consiste en estimar los valores ausentes en base a su relación con otros variables mediante Análisis de Regresión.

Inconvenientes:

- Incrementa artificialmente las relaciones entre variables.

- Hace que se subestime la Variáncia de las distribuciones.

- Asume que las variables con datos ausentes tienen relación de alta magnitud con las otras variables.

 

Ejemplos

El siguiente conjunto de datos consta de tres variables y diez casos. El conjunto es incompleto porque en la variable 1 faltan los datos de los casos cinco y ocho. En la variable 2 faltan los datos de los casos uno, cinco, siete y nueve. En la variable 3 faltan los datos de los casos tres, siete y nueve.

Estadísticos descriptivos (Medias) obtenidos excluyendo los casos incompletos (selección por lista):

La muestra original ha quedado reducida a cuatro casos.

Casos excluidos por variables (por parejas):

La tabla de la izquierda muestra el número de parejas con datos en ambas variables. Por ejemplo, el número de parejas completas en las variables 1 y 2 es cinco, etc.

En la tabla de la derecha aparecen las Medias de cada variable obtenidas incluyendo los casos con datos completas por parejas. Como ejemplo, la Media de la variable 1 obtenida con los datos de la variable 1 que tienen pareja en la variable 2 es 5.2

Sustitución por imputación de la Media:

Los valores ausentes de la siguiente tabla han sido sustituidos por las Medias de las respectivas variables:


Imputación por Regresión:

Los valores ausentes de la siguiente tabla han sido han sido sustituidos por valores estimados mediante Análisis de Regresión: