TABLA DE CORRELACIÓN-TABLA DE CONTINGENCIA

DISTRIBUCIONES MARGINALES

DISTRIBUCIONES CONDICIONADAS

En el caso bidimensional, consideraríamos una tabla de doble entrada para cada una de las variables,cada fila corresponde a un valor de la primera variable(x1i o bien xi) ,cada columna a un valor de la segunda variable(x2j o bien yj), y en cada celda aparecería la frecuencia de cada par de valores (nij ).

 

Y(aprobadas)

X(matricul.)

Y1

5

Y2

6

Y3

7

  ni.
X1

7

n11

0

n12

1

n13

0

  n1.

1

X2

8

n21

0

n22

0

n23

1

  n2.

1

X3

9

n31

2

n32

1

n33

0

  n3.

3

n.j n.1

2

n.2

2

n.3

1

  N

5

Una tabla de este tipo recibe el nombre de tabla de correlación ( ejemplo ) . Si, en lugar de estar representadas las observaciones de dos variables (cuantitativas), se tratara de dos atributos, con distintos niveles, hablaríamos de tabla de contingencia.

Cada una de las frecuencias nij que nos informa del número de individuos que toman el valor xi para la variable x, e yj para la variable y,recibe el nombre de frecuencia conjunta.

Si sumamos las frecuencias conjuntas a lo largo de una fila (i) se obtiene el número total de observaciones del valor de x, xi , con independencia del valor que tome la otra variable:

                                        ni.= Sj nij = nº de observaciones de xi

                                        Las ni. se conocen como frecuencias marginales de la variable x.

Análogamente,si sumamos las frecuencias conjuntas a lo largo de una columna (j) se obtiene el número total de observaciones del valor de y, yj , con independencia del valor que tome la otra variable: n.j= S i nij = nº de observaciones de yj

Las n.j se conocen como frecuencias marginales de la variable y.

Distribuciones marginales

Las distribuciones marginales son las distribuciones unidimensionales que nos informan del número de observaciones para cada valor de una de las variables,(prescindiendo de la información sobre los valores de las demás variables).

En el caso bidimensional hay dos (una para la x y otra para la y), en el caso multidimensional hay tantas como variables.

A partir de la tabla de correlación pueden construirse las distribuciones marginales, asignando a cada valor de la variable considerada su frecuencia marginal.

En el caso de dimensión mayor de dos, y supuestos los datos en forma de base datos matricial, habrá que considerar únicamente una de las variables (una columna) y a partir del listado de observaciones, se podrá construir la tabla de frecuencias de la distribución marginal.

Las distribuciones marginales son distribuciones de frecuencias unidimensionales como las ya estudiadas y pueden analizarse de la manera habitual (media, varianza, asimetría, curtosis, etc.).

Distribuciones condicionadas

En el caso bidimensional,se pueden considerar además otras distribuciones que nos especifiquen las observaciones que hay de cada valor de una de las variables cuando imponemos la condición de que la otra toma un valor determinado.Esto supone considerar únicamente una columna de la tabla de correlación (distribución de x condicionada a un valor de y) o una fila de la tabla (distribución de y condicionada a un valor de x).

En el caso multidimensional, con una representación de base de datos, establecer una condición supone realizar una selección parcial de los datos, el resultado de esta selección sería la distribución condicionada, que en este caso puede ser uni o multidimensional, dependiendo de la condición (selección).