PROBLEMAS RESUELTOS DE PSICOMETRIA II.

Prof. J.L. Meliá.

 

Problema Tipo 1. Fórmulas básicas.

Tenemos un test cuya desviación típica es 6 y cuyo coeficiente de fiabilidad es 0┤81.

Calculad el índice de fiabilidad, el error típico de medida, la varianza verdadera, la varianza de error.

Datos:

 

Solución:

Indice de fiabilidad:

Error típico de medida:

Varianza Empírica:

Varianza de Error:

Varianza Verdadera:

Coeficiente de Fiabilidad (Comprobación):

 

Problema Tipo 2. Constancia del Error Típico de Medida.

En la muestra 1 el Test X presenta una varianza de 25 y un coeficiente de fiabilidad de 0'9. Se sabe que en la muestra 2 el test presenta una varianza de 36. ┐Cuál será el coeficiente de fiabilidad que se espera en esa segunda muestra si se sostiene el supuesto de constancia del error típico de medida?

Datos:

 

Solución:

Desviación típica empírica en la muestra 1:

Error típico de medida en la muestra 1:

Desviación típica en la muestra 2:

Supuesto de constancia del error típico de medida:

Coeficiente de fiabilidad en la segunda muestra

(Comprobación: )

 

 

Problema Tipo 3. Fiabilidad Test-Retest.

Aplicamos el test X en el tiempo 1 a una muestra de 10 sujetos, y el retest en tiempo 2. Calculad el coeficiente de fiabilidad por el método test-retest.

Datos:

Caso: I II

1 17 17

2 18 19

3 12 12

4 11 10

5 7 7

6 4 3

7 19 18

8 10 11

9 3 4

10 27 28

Resultados:

Coeficiente de fiabilidad:

 

 

Problema Tipo 4. Fiabilidad Formas "Paralelas".

Aplicamos las formas A y B del test X a una muestra de 8 sujetos. Calculad el coeficiente de fiabilidad por el método de formas paralelas.

Datos:

Caso: I II

1 13 15

2 38 39

3 12 12

4 11 10

5 3 4

6 4 3

7 40 38

8 15 13

Resultados:

Coeficiente de fiabilidad:

Problema Tipo 5. Método de Dos Partes aplicando la Corrección de Spearman-Brown.

Aplicamos un test que tiene 10 items a una muestra de 10 sujetos. Obtened el coeficiente de fiabilidad por el método de dos mitades aplicando la fórmula de Spearman-Brown.

Datos:

Items:

Caso: I1 2 3 4 5 6 7 8 9 I10

S1 1 2 1 2 1 1 2 3 1 1

2 2 2 3 3 3 3 4 2 2 2

3 3 3 4 4 3 3 3 4 4 3

4 1 1 1 1 1 2 1 1 2 1

5 5 5 4 4 4 4 4 5 5 4

6 4 3 3 4 3 4 3 4 3 4

7 1 1 2 3 1 1 1 3 2 1

8 2 2 2 2 2 2 2 2 1 2

9 1 1 1 1 2 1 1 1 1 2

S10 5 5 5 4 5 5 5 4 5 5

Solución:

Necesitamos elaborar en la tabla una columna P1 que refleje el total de la primera parte (suma de puntos de los cinco primero items) y otra P2 que refleje el total de la segunda parte (suma de puntos de los items 6 a 10) y obtener la correlación entre ambas. (Para obtener la correlación puede ayudar utilizar una columna "P1.P2" de productos, si es necesario).

Caso:

I1

2

3

4

5

6

7

8

9

I10

P1

P2

P1.P2

S1

1

2

1

2

1

1

2

3

1

1

7

8

56

2

2

2

3

3

3

3

4

2

2

2

13

13

169

3

3

3

4

4

3

3

3

4

4

3

17

17

289

4

1

1

1

1

1

2

1

1

2

1

5

7

35

5

5

5

4

4

4

4

4

5

5

4

22

22

484

6

4

3

3

4

3

4

3

4

3

4

17

18

306

7

1

1

2

3

1

1

1

3

2

1

8

8

64

8

2

2

2

2

2

2

2

2

1

2

10

9

90

9

1

1

1

1

2

1

1

1

1

2

6

6

36

S10

5

5

5

4

5

5

5

4

5

5

24

24

576

Sum

25

25

26

28

25

26

26

29

26

25

129

132

2105

Med

2,5

2,5

2,6

2,8

2,5

2,6

2,6

2,9

2,6

2,5

12,9

13,2

210,5

DT

1,565

1,432

1,356

1,166

1,285

1,356

1,356

1,3

1,497

1,36

6,457

6,274

186,1

Correlación de Pearson r entre los totales P1 y P2 de ambas partes:

Estimación del coeficiente de fiabilidad del test aplicando la corrección de Spearman-Brown caso de longitud doble a la correlación anterior:

Observación:

Nótese que hay tres métodos de cálculo para obtener el coeficiente de fiabilidad por un método de partes (Spearman-Brown, Rulon y Guttman). Cualquiera de ellos puede aplicarse sobre cualquiera de los tres métodos de partición en dos partes de los items de un test (dos mitades, pares-impares, o "ad hoc"). Distintas particiones dan, en general, distintas estimaciones del coeficiente de fiabilidad del mismo test.

 

 

Problema Tipo 6. Método de Dos partes aplicando la fórmula de Rulon.

Aplicamos un test que tiene 10 items a una muestra de 10 sujetos. Obtener el coeficiente de fiabilidad por el método de las dos mitades aplicando la fórmula de Rulon.

Datos:

(Nota: Son los mismos datos del problema anterior).

Items:

Caso: 1 2 3 4 5 6 7 8 9 10

1 1 2 1 2 1 1 2 3 1 1

2 2 2 3 3 3 3 4 2 2 2

3 3 3 4 4 3 3 3 4 4 3

4 1 1 1 1 1 2 1 1 2 1

5 5 5 4 4 4 4 4 5 5 4

6 4 3 3 4 3 4 3 4 3 4

7 1 1 2 3 1 1 1 3 2 1

8 2 2 2 2 2 2 2 2 1 2

9 1 1 1 1 2 1 1 1 1 2

10 5 5 5 4 5 5 5 4 5 5

Solución:

Necesitamos una columna P1 que refleje el total de la primera parte (suma de puntos de los cinco primero items) y otra P2 que refleje el total de la segunda parte (suma de puntos de los items 6 a 10) y, además, una columna "d" que refleje la diferencia entre ellas (d= P1-P2), y otra X que refleje el total (X=P1+P2) para obtener sus varianzas y aplicar la fórmula de Rulon.

Caso:

I1

2

3

4

5

6

7

8

9

I10

P1

P2

X

d

S1

1

2

1

2

1

1

2

3

1

1

7

8

15

-1

2

2

2

3

3

3

3

4

2

2

2

13

13

26

0

3

3

3

4

4

3

3

3

4

4

3

17

17

34

0

4

1

1

1

1

1

2

1

1

2

1

5

7

12

-2

5

5

5

4

4

4

4

4

5

5

4

22

22

44

0

6

4

3

3

4

3

4

3

4

3

4

17

18

35

-1

7

1

1

2

3

1

1

1

3

2

1

8

8

16

0

8

2

2

2

2

2

2

2

2

1

2

10

9

19

1

9

1

1

1

1

2

1

1

1

1

2

6

6

12

0

S10

5

5

5

4

5

5

5

4

5

5

24

24

48

0

Sum

25

25

26

28

25

26

26

29

26

25

129

132

261

-3

Med

2,5

2,5

2,6

2,8

2,5

2,6

2,6

2,9

2,6

2,5

12,9

13,2

26,1

-0,3

DT

1,565

1,432

1,356

1,166

1,285

1,356

1,356

1,3

1,497

1,36

6,457

6,274

12,71

0,781

Var

2,45

2,05

1,84

1,36

1,65

1,84

1,84

1,69

2,24

1,85

41,69

39,36

161,5

0,61

Aplicando la fórmula de Rulon obtenemos el coeficiente de fiabilidad del test:

 

 

Problema Tipo 7. Método de Dos partes aplicando la fórmula L4 de Guttman.

Aplicamos un test que tiene 10 items a una muestra de 10 sujetos. Obtener el coeficiente de fiabilidad por el método de las dos mitades aplicando la fórmula de Guttman.

Datos:

Los mismos datos del problema anterior.

Solución:

Necesitamos la misma tabla del problema anterior, pero podemos prescindir de la columna de diferencias d.

Caso:

I1

2

3

4

5

6

7

8

9

I10

P1

P2

X

S1

1

2

1

2

1

1

2

3

1

1

7

8

15

2

2

2

3

3

3

3

4

2

2

2

13

13

26

3

3

3

4

4

3

3

3

4

4

3

17

17

34

4

1

1

1

1

1

2

1

1

2

1

5

7

12

5

5

5

4

4

4

4

4

5

5

4

22

22

44

6

4

3

3

4

3

4

3

4

3

4

17

18

35

7

1

1

2

3

1

1

1

3

2

1

8

8

16

8

2

2

2

2

2

2

2

2

1

2

10

9

19

9

1

1

1

1

2

1

1

1

1

2

6

6

12

S10

5

5

5

4

5

5

5

4

5

5

24

24

48

Sum

25

25

26

28

25

26

26

29

26

25

129

132

261

Med

2,5

2,5

2,6

2,8

2,5

2,6

2,6

2,9

2,6

2,5

12,9

13,2

26,1

DT

1,565

1,432

1,356

1,166

1,285

1,356

1,356

1,3

1,497

1,36

6,457

6,274

12,71

Var

2,45

2,05

1,84

1,36

1,65

1,84

1,84

1,69

2,24

1,85

41,69

39,36

161,5

 

Aplicando la fórmula de Guttman:

Observación:

Los métodos de Rulon y Guttman siempre dan el mismo resultado para una misma partición del test. El método de Spearman-Brown aplicado sobre la misma partición dará igual que estos otros si las varianzas son iguales. Si las varianzas de las partes no son iguales, el procedimiento de Spearman-Brown dará una estimación del coeficiente de fiabilidad superior a la de Rulon y Guttman; (en general, solo ligeramente superior).

 

 


 

PROBLEMAS RESUELTOS DE PSICOMETRIA II. Parte Segunda.

Prof. J.L. Meliá.

 

Problema Tipo 8.

Pronóstico de la fiabilidad de un test, aumentando su longitud, mediante la fórmula de Spearman-Brown.

Tenemos un test cuya longitud inicial es 20 y cuyo coeficiente de fiabilidad es 0┤81.

┐Cuál será su fiabilidad si doblamos su longitud.(añadiendo items paralelos)?

Datos:

Longitud inicial del test (n║ de items inicial):

Longitud final del test (n║ de items final):

Fiabilidad inicial:

Solución:

Relación entre longitud final y longitud inicial:

Fiabilidad final pronosticada:

 

 

Problema Tipo 9.

Pronóstico de la fiabilidad de un test, disminuyendo su longitud, mediante la fórmula de Spearman-Brown.

Tenemos un test cuya longitud inicial es de 100 items y cuyo coeficiente de fiabilidad es 0┤99.

┐Cuál será su fiabilidad si obtenemos una forma abreviada de 75 items ?

┐Cuál será su fiabilidad si obtenemos una forma abreviada de 50 items ?

┐Cuál será su fiabilidad si obtenemos una forma abreviada de 25 items ?

┐Cuál será su fiabilidad si obtenemos una forma abreviada de 5 items ?

Datos:

Longitud inicial del test (n║ de items inicial):

Fiabilidad inicial:

Primera longitud final del test (n║ de items final):

Segunda longitud final del test (n║ de items final):

Tercera longitud final del test (n║ de items final):

Cuarta longitud final del test (n║ de items final):

 

Solución:

Primera longitud final:

Relación entre longitud final y longitud inicial:

Fiabilidad final pronosticada para 75 items:

Segunda longitud final:

Relación entre longitud final y longitud inicial:

Fiabilidad final pronosticada para 50 items:

Tercera longitud final:

Relación entre longitud final y longitud inicial:

Fiabilidad final pronosticada para 25 items:

Cuarta longitud final:

Relación entre longitud final y longitud inicial:

Fiabilidad final pronosticada para 5 items:

Puede apreciarse que al tratarse de un test con una fiabilidad inicial muy elevada, aun drásticas reducciones en el número de items permiten mantener el pronóstico de coeficientes de fiabilidad elevados. Los primeros 75 items eliminados solo logran reducir la fiabilidad unas 3 centésimas (una variación despreciable en términos prácticos). Todavía para una longitud final de 1 ítem se pronosticaría un coeficiente de fiabilidad de 0'5 aproximadamente.

 

 

Tabla . Reducción de la fiabilidad al reducir la longitud del test (multiplicando esta por el factor n) para tests de fiabilidad inicial 0'99, 0'95, 0'90, 0'85 y 0'80.

Fiabilidad inicial: .

n .990 .950 .900 .850 .800

.010 .497 .160 .083 .054 .038

.020 .664 .275 .153 .102 .074

.030 .748 .363 .213 .145 .107

.040 .798 .432 .265 .185 .138

.050 .832 .487 .310 .221 .167

.060 .856 .533 .351 .254 .194

.070 .874 .571 .387 .284 .219

.080 .888 .603 .419 .312 .242

.090 .899 .631 .448 .338 .265

.100 .908 .655 .474 .362 .286

.110 .916 .676 .497 .384 .306

.120 .922 .695 .519 .405 .324

.130 .928 .712 .539 .424 .342

.140 .933 .727 .558 .442 .359

.150 .937 .740 .574 .459 .375

.160 .941 .752 .590 .476 .390

.170 .944 .764 .605 .491 .405

.180 .947 .774 .618 .505 .419

.190 .950 .783 .631 .518 .432

.200 .952 .792 .643 .531 .444

.210 .954 .800 .654 .543 .457

.220 .956 .807 .664 .555 .468

.230 .958 .814 .674 .566 .479

.240 .960 .820 .684 .576 .490

.250 .961 .826 .692 .586 .500

.260 .963 .832 .701 .596 .510

.270 .964 .837 .708 .605 .519

.280 .965 .842 .716 .613 .528

.290 .966 .846 .723 .622 .537

.300 .967 .851 .730 .630 .545

.310 .968 .855 .736 .637 .554

.320 .969 .859 .742 .645 .561

.330 .970 .862 .748 .652 .569

.340 .971 .866 .754 .658 .576

.350 .972 .869 .759 .665 .583

.360 .973 .872 .764 .671 .590

.370 .973 .875 .769 .677 .597

.380 .974 .878 .774 .683 .603

.390 .975 .881 .778 .688 .609

.400 .975 .884 .783 .694 .615

.410 .976 .886 .787 .699 .621

.420 .977 .889 .791 .704 .627

.430 .977 .891 .795 .709 .632

.440 .978 .893 .798 .714 .638

.450 .978 .895 .802 .718 .643

.460 .979 .897 .805 .723 .648

.470 .979 .899 .809 .727 .653

.480 .979 .901 .812 .731 .658

.490 .980 .903 .815 .735 .662

.500 .980 .905 .818 .739 .667

.510 .981 .906 .821 .743 .671

.520 .981 .908 .824 .747 .675

.530 .981 .910 .827 .750 .679

.540 .982 .911 .829 .754 .684

.550 .982 .913 .832 .757 .688

.560 .982 .914 .834 .760 .691

.570 .983 .915 .837 .764 .695

.580 .983 .917 .839 .767 .699

.590 .983 .918 .842 .770 .702

.600 .983 .919 .844 .773 .706

.610 .984 .921 .846 .776 .709

.620 .984 .922 .848 .778 .713

.630 .984 .923 .850 .781 .716

.640 .984 .924 .852 .784 .719

.650 .985 .925 .854 .786 .722

.660 .985 .926 .856 .789 .725

.670 .985 .927 .858 .792 .728

.680 .985 .928 .860 .794 .731

.690 .986 .929 .861 .796 .734

.700 .986 .930 .863 .799 .737

.710 .986 .931 .865 .801 .740

.720 .986 .932 .866 .803 .742

.730 .986 .933 .868 .805 .745

.740 .987 .934 .869 .807 .747

.750 .987 .934 .871 .810 .750

.760 .987 .935 .872 .812 .752

.770 .987 .936 .874 .814 .755

.780 .987 .937 .875 .815 .757

.790 .987 .938 .877 .817 .760

.800 .988 .938 .878 .819 .762

.810 .988 .939 .879 .821 .764

.820 .988 .940 .881 .823 .766

.830 .988 .940 .882 .825 .769

.840 .988 .941 .883 .826 .771

.850 .988 .942 .884 .828 .773

.860 .988 .942 .886 .830 .775

.870 .989 .943 .887 .831 .777

.880 .989 .944 .888 .833 .779

.890 .989 .944 .889 .835 .781

.900 .989 .945 .890 .836 .783

.910 .989 .945 .891 .838 .784

.920 .989 .946 .892 .839 .786

.930 .989 .946 .893 .841 .788

.940 .989 .947 .894 .842 .790

.950 .989 .948 .895 .843 .792

.960 .990 .948 .896 .845 .793

.970 .990 .949 .897 .846 .795

.980 .990 .949 .898 .847 .797

.990 .990 .950 .899 .849 .798

1.00 .990 .950 .900 .850 .800

 

Representación gráfica del efecto sobre la fiabilidad de la reducción de la longitud.

En la figura siguiente se ha representado la relación entre el valor n (en el eje de abscisas) y la fiabilidad final (en ordenadas) al reducir la longitud del test para un test de fiabilidad inicial 0'99 (linea superior). 0'95 (linea siguiente), 0'90 (tercera linea), 0'85 (cuarta linea) y 0'80 (última linea).

Es decir, la figura siguiente es la representación gráfica de los datos de la tabla anterior.

El eje de abscisas puede leerse como la proporción que el test final representa de uno inicial de tamaño unidad. Así por ejemplo el valor 0'8 en abscisas se refiere a un test compuesto solo por el 80% de items del test inicial, En ordenadas podemos leer que fiabilidad se espera después de aplicar esa reducción para un test de fiabilidad inicial dada.

Por ejemplo, para un test cuya fiabilidad inicial es 0'99 al reducir el número de sus elementos multiplicándolo por 0'8 la fórmula de Spearman-Brown pronostica una fiabilidad de 0'0988.

Para un test de fiabilidad inicial 0'8 al reducir sus elementos hasta dejar un 80% de los iniciales la fiabilidad pronosticada es 0'762.

Puede apreciarse que cuanto menor es la fiabilidad inicial (posición de cada curva sobre el valor 1 de abscisas, a la derecha del gráfico), mayor es el efecto sobre la fiabilidad de una determinada reducción de la longitud.

La reducción de la fiabilidad al acortar la longitud de una prueba es inversamente proporcional a n (que es el factor reductor), de modo que a más n menos reducción de la fiabilidad. Si se prefiere decirlo de otra forma, la fiabilidad final es directamente proporcional a n, cuanto mayor es n mayor es la fiabilidad final (menos se reduce está).

Obsérvese que la reducción de la fiabilidad al acortar la longitud depende por entero de n bajo este planteamiento, y es independiente del valor absoluto de la longitud inicial o final. Por ejemplo, si un test tiene una fiabilidad x y 100 items que reducimos a 50 (n=0'5) obtendremos la misma fiabilidad final que si el test tenía solo 10 items los reducimos a 5 (n=0'5) con la misma fiabilidad inicial x.

Figura. Efecto sobre la fiabilidad de la reducción de la longitud para tests de fiabilidad inicial 0'99, 0'95, 0'90, 0'85 y 0'80.

 

 

Problema tipo 10.

Estimación del número de items a añadir para mejorar una determinada fiabilidad inicial.

Tenemos un test con 40 items cuyo coeficiente de fiabilidad es 0'6. ┐Cuántos items habrá que añadir para alcanzar una fiabilidad de 0'8?

Solución:

El problema puede resolverse planteando la fórmula de Spearman-Brown y despejando n en ella:

Después, puede despejarse la longitud final en la fórmula de n:

Es decir, la forma final debería tener unos 107 items.

(Dado que el número de items es variable discreta redondeamos al entero superior).

De aquí es inmediato que, según el pronóstico de Spearman-Brown, habrá que añadir 67 items a los 40 iniciales para alcanzar esa fiabilidad final

Para resolver esta clase de problemas puede resultar práctico despejar n en la fórmula anterior, para facilitar los cálculos:

Dado que se persigue generalmente obtener la longitud final todavía es posible dar un paso más:

de donde:

Aplicándolo al problema anterior tenemos:

Obteniéndose, obviamente, las mismas conclusiones.

 

 

Problema tipo 11.

Estimación del número de items que se pueden eliminar para obtener una determinada fiabilidad final.

Tenemos un test con 167 items cuyo coeficiente de fiabilidad es 0'95. ┐Cuántos items podríamos suprimir para mantener una fiabilidad de 0'9?

Solución:

El problema puede resolverse planteando la fórmula de Spearman-Brown y despejando o aplicando las fórmulas con n o f despejados que hemos deducido en el problema anterior.

La forma final tendría unos 80 items (redondeamos los items finales al entero superior), y, por tanto, podríamos eliminar unos 87 items.

Aplicando la fórmula de f llegamos a los mismos resultados:

 

 

Problema tipo 12.

Cálculo del coeficiente alfa.

Hemos aplicado un test compuesto de 8 items a 10 personas observando los siguientes resultados. Obtener el coeficiente alfa.

i1

i2

i3

i4

i5

i6

i7

i8

T

s1

1

1

1

2

3

1

1

1

11

s2

5

4

5

4

4

3

2

1

28

s3

3

3

4

4

3

4

3

2

26

s4

5

5

5

4

4

4

5

3

35

s5

2

1

2

2

3

1

1

1

13

s6

4

3

4

4

3

5

5

3

31

s7

1

2

1

2

1

2

2

1

12

s8

5

5

5

4

5

5

4

2

35

s9

3

3

1

2

3

3

1

1

17

s10

5

5

5

5

4

4

3

1

32

Suma

34

32

33

33

33

32

27

16

240

Media

3,4

3,2

3,3

3,3

3,3

3,2

2,7

1,6

24

Des Tip

1,562

1,46969

1,735

1,1

1,005

1,4

1,487

0,8

9,263

Varianza

2,44

2,16

3,01

1,21

1,01

1,96

2,21

0,64

85,8

Sum. Var. Items=

14,64

Var. Total=

85,8

N║ de items=

8

Una vez calculadas las varianzas de los items y del total del test (columna T), simplemente se aplica la fórmula del coeficiente alfa:

El coeficiente alfa vale 0'94.

Obsérvese que en la fórmula de alfa n significa el número de items, 8 en el ejemplo.

 

 

Problema tipo 13.

Cálculo del coeficiente KR-20.

Hemos aplicado un test compuesto de 10 items valorados dicotómicamente a 12 personas que han obtenido los siguientes resultados. Calculad el coeficiente KR-20.

i1

i2

i3

i4

i5

i6

i7

i8

i9

i10

T

s1

1

1

1

1

1

1

1

1

1

1

10

s2

1

1

1

1

1

1

1

1

0

1

9

s3

1

1

1

1

1

1

1

1

1

1

10

s4

1

1

1

1

1

0

1

1

0

1

8

s5

1

1

1

1

0

0

1

1

0

1

7

s6

1

1

1

1

0

1

1

1

0

1

8

s7

0

1

1

1

1

1

1

1

0

1

8

s8

0

1

0

1

1

1

1

1

0

1

7

s9

0

1

0

1

1

1

1

1

0

1

7

s10

0

1

0

0

1

0

0

1

0

1

4

s11

0

0

0

0

1

0

0

1

0

0

2

s12

0

0

0

1

0

0

0

0

0

0

1

p

0,5

0,83333

0,583

0,833

0,75

0,583

0,75

0,917

0,167

0,833

6,75

q

0,5

0,16667

0,417

0,167

0,25

0,417

0,25

0,083

0,833

0,167

var

0,25

0,13889

0,243

0,139

0,188

0,243

0,188

0,076

0,139

0,139

7,854

des tip

0,5

0,37268

0,493

0,373

0,433

0,493

0,433

0,276

0,373

0,373

2,803

La fórmula KR-20 tan solo es una variante de alfa especialmente orientada a items dicotómicamente valorados (específicamente, valorados con los valores 0 y 1). Allí donde puede aplicarse KR-20 puede aplicarse alfa con el mismo resultado (pero lo inverso no es cierto, porque KR-20 es un caso particular y no sirve donde los items no están valorados dicotómicamente).

Una vez obtenido p (=A/N) y q (=1- p) para cada ítem, se procede a obtener la varianza de cada ítem como producto de p por q. También necesitamos la varianza del total y la suma de la varianza de los items para aplicar finalmente la fórmula:

 

 

Problema tipo 14.

Cálculo del coeficiente KR-20 y KR-21.

El coeficiente KR-21 es una variante de KR-20 que iguala a este cuando todos los items presentan igual p. Si alguno de los items presenta un p distinto a los demás entonces KR-21 infraestima KR-20 y carece de sentido aplicarlo. Si todos los items tienen exactamente igual p entonces da igual aplicar KR-20 ó KR-21. Además, la situación en que todos los items tengan igual p es en términos prácticos inverosímil. Por estas razones KR-21 carece de interés práctico, sin que aporte nada teóricamente. El problema siguiente se introduce únicamente a efecto de ilustrar estos extremos de una fórmula clásicamente presente en los manuales de psicometría.

Caso 1. Todos los items tienen igual p. Hemos aplicado un test compuesto de 10 items valorados dicotómicamente a 12 personas que han obtenido los siguientes resultados. Calculad el coeficiente KR-20 y KR-21.

i1

i2

i3

i4

i5

i6

i7

i8

i9

i10

T

s1

1

1

1

1

1

1

1

1

1

1

10

s2

1

1

1

1

1

1

1

1

1

1

10

s3

1

1

1

1

0

1

1

1

1

1

9

s4

1

1

1

0

0

0

1

1

1

1

7

s5

1

1

1

0

0

0

1

1

1

1

7

s6

1

1

0

0

0

1

1

0

1

1

6

s7

0

0

0

0

0

1

0

0

0

0

1

s8

0

0

1

1

1

0

0

0

0

0

3

s9

0

0

0

1

1

1

0

0

0

0

3

s10

0

0

0

0

1

0

0

0

0

0

1

s11

0

0

0

0

1

0

0

1

0

0

2

s12

0

0

0

1

0

0

0

0

0

0

1

p

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

5

Media

q

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

var

0,25

0,25

0,25

0,25

0,25

0,25

0,25

0,25

0,25

0,25

11,67

des tip

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

3,416

KR-21 utiliza otra fórmula (ver página siguiente) para expresar la suma de la varianza de los items, basada en la igualdad de las p entre estos siendo todos los demás términos iguales. Dado que en el problema anterior todos los items tienen igual p (es irrelevante que además en el ejemplo p=q) entonces se obtiene que KR-20=KR-21.

Por cierto que dado que si todos los items tienen igual p también tienen necesariamente igual varianza, entonces, en mi opinión, la fórmula clásica de KR-21 es innecesariamente complicada bastaría aplicar esta otra nueva fórmula para KR-21:

dado que, obviamente, en este caso:

Aplicada la nueva fórmula de KR-21 al problema anterior tenemos:

La nueva fórmula de KR-21 que he propuesto no sirve si todos los items no tienen igual varianza, pero en ese caso tampoco sirve ni tiene sentido calcular KR-21.

Caso 2. Para ilustrar el efecto de la alteración de un solo valor p sobre KR-21 hemos variado en la tabla anterior el valor p del ítem 10. Como ,puede apreciarse entonces KR-21 infraestima KR-20 (y no procede utilizarlo):

i1

i2

i3

i4

i5

i6

i7

i8

i9

i10

T

s1

1

1

1

1

1

1

1

1

1

1

10

s2

1

1

1

1

1

1

1

1

1

1

10

s3

1

1

1

1

0

1

1

1

1

1

9

s4

1

1

1

0

0

0

1

1

1

1

7

s5

1

1

1

0

0

0

1

1

1

0

6

s6

1

1

0

0

0

1

1

0

1

0

5

s7

0

0

0

0

0

1

0

0

0

0

1

s8

0

0

1

1

1

0

0

0

0

0

3

s9

0

0

0

1

1

1

0

0

0

0

3

s10

0

0

0

0

1

0

0

0

0

0

1

s11

0

0

0

0

1

0

0

1

0

0

2

s12

0

0

0

1

0

0

0

0

0

0

1

p

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,333

4,833

q

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,667

var

0,25

0,25

0,25

0,25

0,25

0,25

0,25

0,25

0,25

0,222

11,31

des tip

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,5

0,471

3,362

Fórmula clásica de :

Caso 2. Segundo ejemplo.

En general la presencia de mayores diferencias entre los valores p de los items (como es usual y requerido en la mayoría de los tests con respuesta verdadera) producen una discrepancia mayor entre KR-21 y KR-20.

Así por ejemplo, en los siguientes datos, donde, como es usual cada ítem presenta su propio valor p, KR-20= 0'568 y KR-21=0'401. Por supuesto, en este caso el valor que habría que considerar es el de KR-20.

i1

i2

i3

i4

i5

i6

i7

i8

i9

i10

T

s1

1

0

1

1

1

0

1

1

1

1

8

s2

1

0

1

1

1

0

1

1

1

1

8

s3

1

0

1

1

0

0

1

1

1

1

7

s4

1

0

1

0

0

0

1

1

1

1

6

s5

1

0

1

0

0

0

1

1

1

0

5

s6

1

0

1

0

0

1

1

1

1

0

6

s7

1

0

0

0

0

1

0

1

1

0

4

s8

1

0

1

1

0

0

0

1

1

0

5

s9

1

0

0

1

1

1

0

1

0

0

5

s10

1

0

0

0

1

0

0

0

0

0

2

s11

1

0

0

0

1

0

0

1

0

0

3

s12

0

1

0

1

0

0

0

0

0

0

2

p

0,917

0,08333

0,583

0,5

0,417

0,25

0,5

0,833

0,667

0,333

5,083

q

0,083

0,91667

0,417

0,5

0,583

0,75

0,5

0,167

0,333

0,667

var

0,076

0,07639

0,243

0,25

0,243

0,188

0,25

0,139

0,222

0,222

3,91

des tip

0,276

0,27639

0,493

0,5

0,493

0,433

0,5

0,373

0,471

0,471

1,977

 

 

Problema tipo 15.

La estimación de las puntuaciones verdaderas.

Una persona ha obtenido una puntuación de 25 en un test cuya media es 20, cuya desviación típica es 5 y cuyo coeficiente de fiabilidad es 0'7.

Obtened su puntuación verdadera estimada en directas, en diferenciales y en típicas.

Datos:

Solución:

Puntuaciones empíricas:

Empírica directa, está en los datos:

Empírica diferencial

Empírica típica:

Puntuaciones verdaderas estimadas:

Verdadera estimada directa:

Verdadera estimada diferencial:

Verdadera estimada típica:

 (Indice de fiabilidad).

El problema puede ser resuelto por varios caminos equivalentes entre sí.

Tal vez sea particularmente fácil convertir empíricas diferenciales a verdaderas estimadas diferenciales (simplemente multiplicando por el coeficiente de fiabilidad, como acabamos de hacer) y desde ahí obtener las verdaderas estimadas directas y típicas. Una vez tenemos la verdadera estimada diferencial procederíamos así:

Verdadera estimada directa:

Verdadera estimada típica:

  (Desviación típica de las verdaderas).

 

Problema tipo 16.

Intervalo confidencial en torno a la puntuación verdadera estimada.

Una vez obtenida la puntuación verdadera estimada puede establecerse en torno a ella un intervalo confidencial para un nivel de confianza determinado.

Por ejemplo, para establecer un intervalo con un nivel de confianza del 95% en torno a la puntuación verdadera estimada directa, con los datos del problema anterior procederemos del siguiente modo.

Paso 0.

Establecer la puntuación verdadera estimada directa. Como hemos visto es igual a 23'5.

Calcular el error típico de estimación de las puntuaciones verdaderas a partir de las empíricas:

Paso 1.

Determinar la puntuación típica crítica correspondiente al nivel de confianza escogido.

  (Contraste bidireccional)

Paso 2.

Calcular el error máximo:

Establecer el Intervalo de Confianza:

Es decir, en estas condiciones (para un test de esas características métricas) puede afirmarse con un nivel de confianza del 95% que una persona que ha obtenido una puntuación empírica directa de 25 presentará una puntuación verdadera estimada directa entre 19'01 y 27'99.

Existe todavía un margen de error del 5%, es decir, 5 de cada 100 veces que efectuemos este pronóstico la puntuación verdadera estará fuera de este intervalo.

Comentario:

Este tipo de estimación por intervalo es cierta si, además de los supuestos generales de la teoría clásica y de los que implica la estimación de la puntuación verdadera mediante las ecuaciones de regresión implícitas en el paso 0, es cierto que las puntuaciones empíricas distribuyen normalmente en torno a la verdadera al menos en el punto de la escala del test en que está ubicada la puntuación empírica directa de la que se parte.

Obsérvese que cuanto mayor es el nivel de confianza menor es el margen de error (nivel alfa en términos de probabilidades), pero este incremento de la confianza en el pronóstico se efectúa siempre a costa de abrir el intervalo, de modo que si el error de estimación es grande (lo que depende esencialmente de la fiabilidad del test) entonces el intervalo obtenido para un nivel de confianza alto (p.e. 99%) puede ser tan amplio que carezca de sentido operativo.

Es obvio, por ejemplo, que si la escala de un test va entre 0 y 30 puntos podemos afirmar con un nivel de confianza del 100% que la puntuación verdadera de cualquier sujeto, sea cual sea su puntuación empírica, ha de estar entre esos dos valores, porque la escala no puede reconocer otros niveles más allá de los que discrimina empíricamente (plantear otra cosa lleva a diversos absurdos). Pero, también obviamente, un intervalo como este no ayudaría para nada.

Por cierto que es posible por este método que el intervalo de confianza en torno a las puntuaciones verdaderas estimadas rompa los límites de la escala empírica del test planteando un intervalo que exceda en su máximo o en su mínimo el máximo o el mínimo de la escala. Basta para ello plantear el problema con un valor empírico inicial lo bastante próximo a los límites empíricos de la escala. Este es un tema que no se suele plantear; en mi opinión no tiene sentido extender el intervalo confidencial más allá del rango empírico de la escala del test y la interpretación debería restringirse a la zona en la que se produce una discriminación conocida (es decir, al rango de la variable). Por supuesto, una situación así insinúa que es posible que la persona este más allá del suelo (mínimo) o del techo (máximo) que la escala es capaz de evidenciar y que quizás proceda utilizar un test que opere en esa zona inferior o superior, según el caso, para medir esa dimensión de esa persona. Sin embargo, no creo que ello autorice a establecer un brazo del intervalo sobre una zona donde la escala simplemente no alcanza.

Esta situación paradójica de encontrar brazos de intervalo confidencial fuera de escala es consecuencia de un viejo problema con varias facetas: el problema de homocedasticidad en los extremos de la distribución (┐como va a distribuir normalmente el error de medida en el extremo de la escala si esto implica necesariamente "salirse de la escala"?) y de la regresión a la media (┐cómo va distribuir normalmente la segunda medición en torno a un valor en los extremos de la escala si esto implica "salirse de la escala?). Por supuesto esta una discusión divertida más allá de los sencillos fines de nuestro problema.

 

 

Problema tipo 17.

Método general de contraste de puntuaciones individuales.

Caso 1. Puntuaciones en escalas distintas.

Una persona ha sido evaluada en dos tests que pretenden medir dos aptitudes, distintas pero razonablemente relacionadas, la precisión en el desempeño mecánico manual (Aptitud A) y la rapidez en ese desempeño (Aptitud B), obteniendo en ambas 101 puntos del test. El primer test presenta una media de 95, una desviación típica de 8 y un coeficiente de fiabilidad de 0'8. El segundo test presenta una media de 105, una desviación típica de 7 y un coeficiente de fiabilidad de 0'9. ┐Puede afirmarse que existen diferencias significativas entre ambas puntuaciones a un nivel alfa 0'05?

Datos:

Test A Test B

Medias:

Des.Tip.:

Co. Fiab.:

Punt.:

Resultados:

┐Cuándo hay que convertir a puntuaciones típicas las puntuaciones antes de efectuar el contraste?

La primera cuestión ante este tipo de problemas es plantearse si las unidades en que están medidas las puntuaciones son conmensurables y comparables desde la misma escala. Si las mediciones pertenecen a tests distintos en distinta escala de medida conviene efectuar la tipificación antes de comparar. No siempre es del todo claro si las unidades pueden ser comparadas sin más, y pueden haber algunos casos discutibles, según que criterio se adopte. En general, si las mediciones provienen de tests distintos con distinta media y/o distinta desviación típica conviene tipificar las puntuaciones antes de proceder al contraste.

En este caso no hay duda, las puntuaciones a comparar provienen de tests distintos con distinta media y desviación típica, por tanto, antes de comparar las puntuaciones en el contraste las convertiremos en típicas.

Transformación de las puntuaciones directas a típicas:

Paso 0. Calcular el error típico de la diferencia.

Para calcular el error típico de la diferencia es necesario obtener la varianza de error de cada test. Puede recordarse que la varianza de error de un test no es más que su error típico de medida al cuadrado. En este caso, como vamos a comparar las puntuaciones una vez tipificadas hemos de considerar que la varianza (y la desviación típica) de cualquier variable en típicas vale siempre 1.

 

Paso 1. Tipificar la diferencia entre las puntuaciones.

 

Paso 2. Nivel de significación de la diferencia.

Este paso puede darse con distintos enfoque de trabajo que pasamos a comentar.

Enfoque de nivel de significación.

Utilizando una tabla de curva normal (o una calculadora que tenga esta función) (Ver la "Tabla de Nivel de Significación Bidireccional (P) de una puntuación típica (z) en valor absoluto") se determina cual es el área que queda entre las colas y la . (se toman ambas colas para un contraste bidireccional).

En este caso ese valor es 0'015840 (El valor obtenido en una tabla será una aproximación al anterior y puede diferir ligeramente. En adelante redondeamos a 0'016 por simplicidad).

Este valor representa la probabilidad de encontrar una diferencia tan grande o mayor que 2'412586 cuando la hipótesis nula es cierta (es decir, cuando realmente ambas puntuaciones no difieren entre sí y toda variación se debe al error de medición).

Es decir, una diferencia tan grande o mayor que 2'41 todavía aparecería por mero azar, que se atribuye al error de medida, aproximadamente 16 veces de cada mil con tests de estas características métricas.

(El valor 0'016 es la probabilidad de lo que se suele denominar error tipo I: es decir, la probabilidad de rechazar la hipótesis nula cuando en realidad es cierta. El valor 0'016 es la probabilidad de error tipo I asociada a una diferencia de 2'412586).

En resumen, mediante una tabla de curva normal determinamos que a una de 2'412586 le corresponde un nivel de significación de 0'016 (aproximadamente).

Contraste de hipótesis utilizando el nivel de significación:

Como se ha pedido una decisión al nivel alfa 0'05 rechazaremos la hipótesis nula siempre que la probabilidad asociada a la diferencia bajo la hipótesis nula sea menor o igual a 0'05.

En este problema, dado que, efectivamente 0'015840 < 0'05, hemos de rechazar la hipótesis nula y considerar la diferencia entre ambas puntuaciones como significativa.

Contraste de hipótesis sin obtener el nivel de significación exacto de la .

En este caso, como el problema se ha planteado en términos de efectuar un contraste de hipótesis sin que se haya solicitado el nivel de significación asociado a la , podíamos haber efectuado efectivamente el contraste de hipótesis sin pasar por la obtención del nivel de significación de la por medio de una tabla o de una calculadora.

Simplemente, como sabemos que cualquier puntuación típica mayor (en términos de valores absolutos) que 1'959964 (que suele redondearse por simplicidad a 1'96) deja a ambos lados de la distribución normal menos del 5% de los casos, entonces, en términos prácticos, es suficiente con comparar la obtenida con el valor de la puntuación típica "crítica" (). La puntuación típica crítica () expresa la menor típica posible (en valor absoluto) que representa una diferencia significativa. En este caso, para nivel alfa 0'05 bidireccional, esa puntuación sera .

En resumen, comparamos con y si entonces rechazamos la hipótesis nula y decimos que hay diferencias significativas. (Como en este problema).

Por el contrario, si entonces no podemos rechazar la hipótesis nula y decimos que no hay diferencias significativas.

Obsérvese que en aquellos casos en que decimos que "no podemos rechazar la hipótesis nula", se quiere afirmar que las diferencias detectadas no son lo suficientemente grandes (o "raras" en términos de muestreo) para afirmar que están más allá de las que podrían suceder "fácilmente" por azar, pero esto no equivale a establecer la igualdad entre ellas. No debe entenderse que se ha probado que las puntuaciones son iguales (ó, en contrastes estadísticos con muestras, que se ha probado que en la población no hay diferencias).

 

Caso 2. Puntuaciones en la misma escala.

Se administra a una persona un test que mide la variable X. Después de unos meses trabajando para mejorar la posición de la persona en esa variable (lo que significar conseguir reducir su puntuación) volvemos a medirla con el mismo test. El test en cuestión tiene una media de 30, una desviación típica de 5 y un coeficiente de fiabilidad de 0'9. La primera vez la persona obtuvo 35 puntos, y la segunda logró reducir su puntuación hasta 30. ┐Ha habido un cambio significativo estadísticamente en la evolución de la persona? (Responded la cuestión utilizando un nivel alfa 0'01 bidireccional).

Datos:

Solución:

Obviamente ambas mediciones están en la misma escala, por lo que no es necesario convertirlas previamente a típicas.

(No obstante, aunque es innecesario, si se convierte a típicas se ha de obtener exactamente el mismo resultado al final del contraste -es decir, se obtendrá justo la misma y por tanto justo la misma probabilidad-. Queda como ejercicio planteado comprobar esta afirmación.)

Paso 0. Calcular el error típico de la diferencia.

Para obtener el error típico de la diferencia es necesario obtener la varianza de error:

Paso 1. Tipificar la diferencia entre las puntuaciones.

Paso 2. Nivel de significación de la diferencia.

Nivel de significación. A la puntuación 2'236068 le corresponde un nivel de significación (alfa) de 0'025347. (Mediante una tabla de curva normal se obtendrá una aproximación a este número).

Contraste. Por tanto, a un nivel alfa 0'01 bidireccional no puede rechazarse la hipótesis nula (dado que la probabilidad obtenida es mayor que 0'01).

Analizado desde el valor de las puntuaciones típicas, la es menor que la por lo que no puede rechazarse la hipótesis nula (la diferencia entre las puntuaciones no es significativa a un nivel alfa 0'01 bidireccional).

Gráfico. Nivel de significación bidireccional (NSB) para cada típica (Z).

Caso 3. Diferencia Significativa Mínima (DSM).

He introducido el concepto de DSM -que es una novedad en este campo de las comparaciones individuales bajo teoría clásica-, inspirado por analogía en tests de Fisher para comparar múltiples muestras bajo unas mismas condiciones.

Este estadístico sirve para evitar tener que realizar un contraste de diferencias individuales para cada par de puntuaciones cuando estamos interesados en comparar muchos pares de puntuaciones individualmente (par a par) más que como grupo.

Por ejemplo, supongamos que medimos a una clase de estudiantes de 5║ grado con un amplio test de vocabulario orientado a los objetivos de ese grado educativo. Para cada persona efectuamos dos mediciones, una a comienzo de curso y otra al final. El grupo está formado por 30 estudiantes, y estamos interesados en discernir si existen diferencias significativas (alfa 0'01 bidireccional) entre la primera y la segunda medición de cada uno de los 30 estudiantes individualmente. El test tiene una media de 97, una deviación típica de 6'8 y un coeficiente de fiabilidad de 0'97. En esta situación habría que hacer 30 contrastes individuales (dado que el foco del problema son las personas individuales y no el grupo como un todo). En lugar de ello tiene sentido preguntarse ┐cuál es la diferencia mínima entre puntuaciones que resulta significativa?

Datos:

Respuesta:

La diferencia significativa mínima (DSM) es:

A su vez:

Por tanto:

Resultado que se interpreta en el sentido de que una diferencia entre dos puntuaciones individuales obtenidas con este test será significativa al nivel alfa 0'01 si es igual o mayor a 4'29 puntos. Esto permite contrastar las diferencias individuales entre las puntuaciones a ese nivel de significación cómodamente.

 

Comentario:

El problema anterior es una versión simplificada de las dificultades reales. Si estuviéramos interesados en conocer si existen diferencias significativas entre las mediciones del grupo antes y después el problema es muy sencillo. Bastaría con tomar los datos de la primera medición y los de la segunda medición y compararlos mediante una prueba t para muestras dependientes (una t de Gosset o una t de Welch, según se asumiera o no igualdad de varianzas entre ambas mediciones). Esto permitiría comparar el comportamiento de los dos grupos de puntuaciones a través de sus medias y decidir si existen o no diferencias significativas.

Sin embargo, tal y como está enfocado el problema, orientados a averiguar para cada persona individual si puede hablarse de cambio significativo en sus puntuaciones no hay más remedio que abordar la comparación desde una perspectiva individual. Esto supone algunas dificultades adicionales, pero realmente estas 30 preguntas individuales son para el psicólogo orientado a informar sobre el curso de la evolución de cada una de estas personas tan o más importantes que la cuestión sobre el grupo como un todo.

Las dificultades prácticas son de diversa índole.

Primero, por supuesto, en la práctica es altamente improbable que ambas mediciones presenten la misma media y la misma desviación típica, y si se calcula el coeficiente de fiabilidad separadamente con los datos de cada una de ellas probablemente también diferiría. Estas diferencias en medias (y desviaciones típicas) son la base que permite que la pregunta sobre la comparación de los grupos tenga sentido pero plantean preguntas para la comparación de puntuaciones individuales Dado que la media y la desviación típica de ambas mediciones no son iguales ┐debemos tipificar las puntuaciones antes del contraste? Puede responderse a esta cuestión de diferentes modos desde diferentes criterios. En primer lugar, si los grupos no difieren estadísticamente pueda obtenerse la media y la desviación típica para las 60 puntuaciones, dado que puede argumentarse que ambas mediciones pertenecen a una misma población de mediciones y dado que una estimación conjunta de media y de varianza puede considerarse en ese caso más adecuada. En este caso no sería necesario tipificar antes de comparar puntuaciones individuales. En segundo lugar, si los grupos difieren significativamente en media (prueba t ) o en varianza (test de Levene, p.e.) no puede sostenerse que pertenezcan a una misma población de mediciones y no puede recomendarse obtener una estimación conjunta de media o varianza. En ese caso para cada medición corresponde calcular su varianza de error separadamente y convendría tipificar las puntuaciones antes del contraste individual.

Segundo, un problema inherente a la realización de muchos contrastes entre puntuaciones individuales es que se acumula error tipo I, es decir, la probabilidad de rechazar la hipótesis nula cuando en realidad debería aceptarse. Si, pongamos por caso, para un contraste a nivel alfa 0'05 tenemos que de cada 100 veces que hiciéramos el contraste, en promedio, 5 rechazaríamos la hipótesis nula equivocadamente, entonces, si efectuamos 30 contrastes puede esperarse que 1 ó 2 de ellos presenten diferencias significativas por mero azar, es decir, diferencias que nos llevarían rechazar la hipótesis nula cuando en realidad es cierta. Pueden ensayarse diversas soluciones para esta cuestión aunque pueden resultar discutibles. En primer lugar, si el número de contrastes a realizar puede establecerse de antemano puede pensarse en un procedimiento tipo Bonferroni, dividiendo el nivel de significación por el número de contrastes para garantizar el nivel de significación originario. En la práctica, si el número de contrastes es muy elevado este procedimiento puede ser demasiado exigente con las diferencias para se consideradas significativas, y, desde un punto de vista de las diferencias para un caso individual, aceptar hipótesis nulas que en realidad son falsas, llevando a juicios sobre el comportamiento de las puntuaciones de personas concretas equivocados. En segundo lugar, puede pensarse en "proteger" los contrastes individuales mediante un contraste estadístico general a nivel de grupos. Esta aproximación puede no ser razonable para algunos de los variados casos en que puede aplicarse el contraste individual de puntuaciones, para empezar simplemente porque no este claro de que grupos se habla en algunos casos. De todas formas aun en los casos en que sea razonable aplicar el método, como en el ejemplo del problema donde se podría aplicar previamente una t para muestras dependientes, es difícil considerar, en términos psicométricos de comparación entre puntuaciones individuales que si no puede rechazarse la hipótesis nula a nivel de grupos necesariamente no pueda rechazarse para un caso individual: un razonamiento así sería una petición de principio que desaconsejaría en cualquier caso efectuar cualquier contraste que no fuera de grupos de puntuaciones.

En síntesis, de la discusión anterior puede concluirse que el contraste estadístico de puntuaciones individuales es procedimiento que debe tomarse con precaución muy particularmente cuando hay que efectuar múltiples contrastes individuales.

 

 

Problema 18.

Indice de discriminación basado en p.

Tenemos un test de aptitudes y estamos interesados en obtener el índice de discriminación basado en p para el ítem 1. Para ello, calculamos la puntuación total del test que obtiene cada persona de una muestra de N=300, y obtenemos el valor de la mediana en esa puntuación total. Utilizando la mediana como punto de corte descomponemos la muestra total en dos submuestras, inferior y superior, de 150 personas cada una.

En la submuestra inferior aciertan el ítem 25, mientras que en la submuestra superior lo aciertan 125. Calculad el índice de discriminación basado en p.

Solución:

Según la clasificación de Ebel. dado que el índice de discriminación basado en p es mayor que 0'39 podemos decir que el ítem es muy discriminativo, que "funciona muy bien" en el propósito de distinguir entre los mas capaces y los menos capaces.

 

 

Problema 19.

Fórmula de corrección de la respuesta al azar.

Suponiendo que se dan las condiciones adecuadas para aplicar la fórmula de corrección, una persona, en una prueba objetiva de 20 ítems de tipo V/F, ha acertado 15 items y ha fallado 3. ┐Qué puntuación le corresponde en una escala de 0 a 10?

Solución:

Puesta la calificación en la escala usual de 0 a 10 tenemos:

La persona ha obtenido un 6 como "calificación".

 

 

Problema tipo 20.

Fórmula de atenuación.

Tenemos un test con coeficiente de fiabilidad de 0'9 y un criterio con coeficiente de fiabilidad de 0'91. El coeficiente de validez de este test con este criterio es 0'7. ┐Cuál será la correlación entre test y criterio una vez atenuados los errores de medida?

Solución:

 

 


 

PROBLEMAS PLANTEADOS DE PSICOMETRIA.

Prof. J.L. Meliá.

Estos problemas que se presentan planteados sin resolver pretenden ofrecer material adicional para practicar personalmente algunos problemas básicos.

De cada una de las matrices de datos siguientes calculad:

Para cada una de las formas paralelas:

1. La correlación entre dos mitades.

Tomando como esta correlación como estimación del coeficiente de fiabilidad, calculad el índice de fiabilidad, el error típico de medida, y la varianza verdadera.

2. La fiabilidad del test por el método de las dos mitades (mediante la corrección de Spearman-Brown, la fórmula de Rulon y la de Guttman).

3. La fiabilidad del test por el procedimiento de pares-impares (mediante la corrección de Spearman-Brown, la fórmula de Rulon y la de Guttman).

4. La correlación inter-ítem promedio.

5. El coeficiente alfa, o en su caso el KR-20 si corresponde.

6. Tomando alfa (ó KR-20) como estimación del coeficiente de fiabilidad, calculad el índice de fiabilidad, el error típico de medida, y la varianza verdadera.

Entre las dos formas paralelas:

7. La fiabilidad calculada por el procedimiento de formas paralelas (Correlación entre mitades).

Con las dos formas tomadas conjuntamente (como si entre las dos formaran una sola forma):

8. La fiabilidad por el método de pares-impares (mediante la corrección de Spearman-Brown, la fórmula de Rulon y/ó la de Guttman).

9. La correlación inter-ítem promedio.

10. La fiabilidad estimada según el espacio muestral de items.

11. El coeficiente alfa o el KR-20 si procede.

12. En los items valorados dicotómicamente (0-1) el índice de dificultad de cada ítem (tomando el 1 como acierto en el ítem).

13. Las correlaciones entre cada ítem y el total del test.

De las dos formas tomadas conjuntamente con las variables Y1 y Y2:

14. Suponiendo que Y1 es un criterio, calculad la validez criterial del test total.

15. Suponiendo que Y2 es otro criterio, calculad la validez criterial del test total.

16. Calcular la correlación adecuada de los items del test con el criterio Y1.

17. Calcular la correlación adecuada de los items del test con el criterio Y2.

PROBLEMA 1.

FORMA PARALELA A. FORMA PARALELA B CRITERIOS:

SUJ: ITEMS: ITEMS:

1 2 3 4 1 2 3 4 Y1 Y2

1 1 1 0 1 0 1 0 1 3 4

2 1 1 1 0 1 0 1 0 3 4

3 1 0 0 0 1 1 0 0 2 3

4 1 0 1 1 1 1 0 0 3 4

5 0 1 1 1 0 1 1 0 2 2

6 0 1 1 1 0 1 1 1 3 4

7 0 0 0 1 0 0 0 0 1 2

8 0 0 0 1 0 0 0 1 1 2

9 0 0 0 0 0 0 0 1 1 2

10 0 1 0 0 0 0 1 0 1 2

PROBLEMA 2.

FORMA PARALELA A. FORMA PARALELA B CRITERIOS:

SUJ: ITEMS: ITEMS:

1 2 3 4 1 2 3 4 Y1 Y2

1 1 1 1 1 0 1 1 1 4 4

2 1 1 1 0 1 0 1 1 3 4

3 1 1 0 0 1 1 0 0 3 3

4 1 1 1 1 1 1 1 0 4 4

5 0 1 1 1 0 1 1 1 3 3

6 0 1 1 1 1 1 1 1 4 4

7 1 0 0 0 0 1 0 0 1 1

8 0 0 0 0 0 0 0 1 2 1

9 0 0 0 0 0 0 0 1 1 2

10 0 1 0 1 0 0 1 0 2 1

PROBLEMA 3.

FORMA PARALELA A. FORMA PARALELA B CRITERIOS:

SUJ: ITEMS: ITEMS:

1 2 3 4 1 2 3 4 Y1 Y2

1 2 4 3 4 3 3 4 3 12 16

2 1 2 1 1 1 1 2 1 8 6

3 6 7 6 6 7 7 6 6 24 27

4 8 9 9 9 8 7 9 9 36 32

5 1 0 1 2 2 1 2 1 4 2

6 6 7 6 6 7 6 6 6 24 27

7 5 5 6 5 5 5 5 6 20 22

8 1 0 0 0 1 2 1 0 2 4

9 3 4 4 3 4 3 4 5 12 8

10 4 4 5 5 5 6 4 4 16 19

 

PROBLEMA 4.

FORMA PARALELA A. FORMA PARALELA B CRITERIOS:

SUJ: ITEMS: ITEMS:

1 2 3 4 1 2 3 4 Y1 Y2

1 10 11 12 10 10 9 12 10 40 43

2 7 7 7 6 8 7 6 7 28 32

3 3 3 2 3 3 3 3 2 12 8

4 4 5 4 5 6 5 6 5 30 20

5 1 2 1 2 2 1 1 1 4 2

6 0 1 0 1 0 0 0 1 0 1

7 21 17 21 20 18 17 16 20 80 69

8 5 5 5 4 3 2 5 6 20 16

9 9 8 9 8 8 8 8 7 29 31

10 3 4 5 1 3 2 1 5 12 12

PROBLEMA 5.

FORMA PARALELA A. FORMA PARALELA B CRITERIOS:

SUJ: ITEMS: ITEMS:

1 2 3 4 1 2 3 4 Y1 Y2

1 1 1 2 10 7 6 6 0 40 43

2 7 7 7 6 8 7 6 7 58 32

3 3 3 1 3 3 3 3 2 12 38

4 4 5 4 5 6 5 6 5 10 20

5 1 1 1 2 2 1 1 1 4 27

6 0 1 10 1 10 0 10 1 0 1

7 2 1 1 0 8 7 6 0 0 69

8 5 5 5 4 3 2 5 6 20 16

9 9 8 9 8 8 8 8 7 39 31

10 3 4 5 1 3 2 1 5 12 12

11 2 2 2 2 1 2 3 2 0 76

12 1 2 1 2 1 0 1 10 60 56

13 1 1 1 0 3 7 2 10 15 90

14 1 4 6 2 3 10 2 7 90 3

15 10 1 10 1 3 7 9 9 21 71

PROBLEMA 6.

FORMA PARALELA A. FORMA PARALELA B CRITERIOS:

SUJ: ITEMS: ITEMS:

1 2 3 4 1 2 3 4 Y1 Y2

1 1 1 1 1 1 9 1 1 4 4

2 7 7 7 6 8 7 6 7 2 3

3 3 3 2 3 3 3 3 2 1 8

4 4 5 4 5 6 5 6 5 3 2

5 1 2 1 2 2 1 1 1 4 2

6 0 1 0 1 0 0 0 1 0 1

7 1 1 2 0 8 1 6 0 8 9