COMPARACIONES MULTIPLES

Artículo publicado en Revista de Investigación Educativa, 1994, nº 23 (1), pp 396-404

LA UTILIZACIÓN DE LOS PROCEDIMIENTOS DE COMPARACIONES MÚLTIPLES EN LA INVESTIGACION EDUCATIVA EN ESPAÑA

por

A. SAEZ; J.M. SUAREZ; F. ALIAGA y R.M. BO

Departamento M.I.D.E. Universitat de València

1. Presentación del trabajo

Un problema común al que nos podemos enfrentar en cualquier investigación es querer comparar más de 2 grupos de datos para detectar posibles diferencias entre ellos. La utilización de modelos de ANOVA puede permitirnos detectar diferencias, a nivel global, entre las medias involucradas, pero en muchas ocasiones deseamos trabajar a un mayor detalle y detectar las diferencias entre grupos concretos lo que sólo es posible mediante el uso de los Procedimientos de Comparaciones múltiples (PCM).

Las propiedades estadísticas de los PCM son bien conocidas (Miller, 1981; Hochberg y Tamhane, 1987) y el comportamiento de estas pruebas en distintas situaciones ha sido descrita tanto en estudios teóricos (Tukey, 1953; Einot y Gabriel, 1975; Stoline y Ury, 1979; Scheffé, 1970) como en estudios utilizando estrategias de simulación de Monte-Carlo (Dunnett, 1980a; Dunnett, 1980b; Wang, 1971; Maxwell, 1980; Keselman y Rogan, 1978; Keselman, Toothaker y Shooter, 1975; Keselman, Murray y Rogan 1976; Berhardson, 1975; Boardman y Moffitt, 1971). A pesar de todo esto, las Comparaciones Múltiples no suelen ser utilizadas por los investigadores o, en algunas ocasiones se utilizan incorrectamente..

La posibilidad de efectuar comparaciones múltiples ha recibido críticas importantes desde diversas perspectivas (Dawkins, 1983; O'Neill, y Wetherill, 1971; Perry, 1986). Bastantes críticas provienen de la pugna teórica entre las diversas concepciones y corrientes estadísticas. Otras se refieren a principios de utilización incorrecta. Por ejemplo, Wilcox (1987) afirma que solamente cuando se desean realizar todas las comparaciones por pares y si se quiere mantener la probabilidad del error de tipo I igual a a, es perfectamente legítimo omitir la prueba F y usar uno de los procedimientos de contraste de medias. La razón aducida es que la aplicación de las pruebas de comparación múltiple únicamente después de una prueba F significativa es una estrategia que reduce la potencia y el nivel a en una cantidad difícil de determinar.

La utilización incorrecta de Comparaciones Múltiples lleva a los investigadores a conclusiones erróneas que se reflejan en ambos tipos de error (tipo I y tipo II). En un trabajo de Coward (1991) sobre la utilización de las pruebas de comparaciones múltiples en Estados Unidos se detectan cuatro posibles situaciones que pueden conducir a error en la aplicación de las pruebas: 1) utilizar pruebas de comparaciones de pares cuando lo correcto es utilizar contrastes polinómicos, 2) usar comparaciones múltiples a posteriori en lugar de a priori; 3) utilizar medias aritméticas en lugar de mínimo cuadráticas y 4) utilizar una prueba demasiado "liberal"

A estos problemas debidos a la mala utilización, hay que añadir la falta de uso de este tipo de pruebas que, como veremos, se da en nuestro país y que a nuestro juicio se da por dos circunstancias:

1) La falta de claridad en los textos de estadística sobre los distintos procedimientos de comparaciones múltiples con una clara clasificación de las pruebas en sus aspectos más relevantes como: conveniencia respecto al diseño experimental utilizado, tratamiento del control del error de tipo I, o incluso a nivel de los supuestos estadísticos necesarios para su aplicación (Por lo que se refiere a manuales, solamente se cuenta con algunos, el trabajo primigenio de síntesis de Miller, ya actualizado (Miller, 1981), y las recientes exposiciones en los textos de Klockars y Sax (1986) y Toothaker (1993) en la colección de Sage y el más completo de Hochberg y Tamhane (1987); ninguno de ellos traducido al castellano.) . Y como consecuencia de lo anterior,

2) La falta de implementación en paquetes estadísticos de ordenador de muchas de las pruebas para los diseños experimentales más utilizados. Aunque todos los paquetes suelen cubrir los diseños de una via entre grupos, hemos detectado una carencia de pruebas de comparaciones múltiples para diseños factoriales de medidas repetidas o en los diseños mixtos o en los diseños de ANOVA no paramétricos.

Existen diferentes tipos de clasificaciones de las pruebas de comparaciones múltiples lo cual nos ofrece una variedad de dimensiones según las cuales caracterizar a las pruebas (Hochberg y Tamhane, 1987; Toothaker, 1991). Por ejemplo, Toothaker (1991, 1993) propone las siguientes dimensiones: 1) Según el número de comparaciones; 2) según el tipo de contraste (ortogonales frente a no ortogonales); 3) según la manera de comparación (por pares o no); 4) comparaciones a priori o comparaciones a posteriori; 5) según el proceso de cálculo (simples o en un único paso o en varios pasos 'stepwise', estos a su vez se dividen en step-down o step-up, según se proceda desde la mayor diferencia hasta la más pequeña o desde la menor diferencia a la mayor); 6) según el tipo de estadístico y/o la distibución teórica utilizada en su cálculo; 7) según el tipo de tasa de error (existen dos tipos: tasa de error por comparación y tasa de error por familia).

Muchas de las dimensiones anteriores pueden aparecer combinadas según la elección de la prueba que se realice. Se podrían utilizar comparaciones múltiples a priori y una tasa de error por comparación. O se pueden utilizar comparaciones ortogonales y a posteriori con una tasa de error por comparación. Algunas combinaciones son imposibles, tales como todas las comparaciones por pares y ortogonales. Sin embargo, es cierto que unas determinadas combinaciones se suelen utilizar con más frecuencia, como comparaciones ortogonales y a priori con una tasa de error por comparación.

A modo de cuadro-resumen presentamos algunas de las pruebas de comparaciones múltiples clasificadas según la distribución estadistica que utilizan en su cálculo:

Basadas en la distribución t	Dunn-Bonferroni (Dunn, 1961) Dunn-Sidak (Dunn, 1958 y Sidák, 1967) Holm-Shaffer (Holm, 1979 y Shaffer, 1986)
Basadas en la distribución del Rango Studentizado	Tukey (Tukey, 1953) Newman-Keuls (Newman, 1932 y Keuls 1952) Duncan (Duncan, 1955) Ryan (Ryan, 1960; Einot y Gabriel , 1975) Peritz (Peritz, 1970)
Basadas en la distribución F	Scheffé (Scheffé, 1953, 1959) F de Newman-Keuls F de Ryan
Basadas en una prueba t protegida	LSD de Fisher (Fisher, 1935) Shaffer-Ryan (Shaffer, 1979) Fisher-Hayter (Hayter, 1986)
Basadas en la comparación con un control	Dunnet (Dunnett, 1955)

En el resumen anterior podemos observar que, además de las pruebas tradicionales, existen otros procedimientos más recientes (como los de Ryan o Peritz) que suelen ser modificaciones de pruebas anteriores para corregir algunos de los problemas de estas pruebas clásicas. Se da la circustancia que muchas de estas pruebas recientes no están disponibles en los manuales de estadistica al uso y, por supuesto, tampoco estan implementadas en los paquetes estadísticos para ordenador más utilizados.

Como ocurre en la prueba t y la prueba F es necesario el cumplimiento de los supuestos paramétricos para la correcta aplicación de las pruebas de contraste que hemos visto. Vamos a revisar aquí algunos de los resultados más importantes que se han encontrado sobre el cumplimiento de supuestos.

Respecto al supuesto de normalidad parece que según Dunnet (1982), y como ocurre con la prueba F, las pruebas de contraste son robustas frente a pequeñas desviaciones respecto a la normalidad; en el caso de desviaciones de la normalidad muy grandes, aumenta el riesgo del error (consultar a Dunnet, 1982 y Ringland, 1983).

Respecto al problema de tamaños muestrales distintos entre los grupos a comparar se proponen distintas pruebas alternativas como son dos variaciones a la prueba de Tukey: una propuesta por Kramer (1956), conocida como prueba de Tukey-Kramer, y la segunda variación propuesta por Miller (1981) y Winer (1971), conocida como prueba de Miller-Winer y por último una prueba nueva propuesta por Hochberg (1974) conocida como la prueba GT2.

Mientras que para el caso de desigualdad de varianzas existen alternativas como la prueba GH de Games y Howell (1976), y las pruebas C o T3 de Dunnet (1980). Brown y Forsythe (1974c) han propuesto una modificación a la prueba de Scheffé para hacerla resistente a la desigualdad de las varianzas y que ha dado pie a posteriores variaciones (Kaiser y Bowden, 1983) y alternativas (Dalal, 1975; Hochberg, 1976).

En este trabajo se pretende llevar a cabo un contraste entre estas posibilidades técnicas y la realidad de utilización concreta en nuestro ámbito de investigación. Así, pretendemos determinar en que situaciones se emplean estos procedimientos, en cuales se podrían/deberían emplear, qué opciones concretas se manejan, etc. Todo ello vamos a llevarlo a cabo dentro del ámbito de la investigación educativa en nuestro país.

2. Método

A tal efecto se ha tomado como referente de investigación los trabajos publicados en revistas de investigación de difusión nacional. En este sentido, se han seleccionado 7 publicaciones: Revista de Investigación Educativa, Infancia y Aprendizaje, Revista de Educación, Investigación en la Escuela, Bordón, Revista Española de Pedagogía y Ciencias de la Educación. Dada la relativa recencia de estos procedimientos como tema monográfico en la literatura estadística se ha seleccionado un conjunto de 5 años correspondientes al periodo que va desde 1988 a 1992, ambos inclusive.

La técnica de trabajo es la correspondiente a cualquier estudio bibliométrico básico, procurando mantener en todo momento la conexión con las informaciones cualitativas que se derivan de los informes originales.

3. Resultados

El conjunto de resultados respecto a la utilización de las pruebas de Comparaciones Múltiples se encuentran recogidos en las tablas 1 y 2. Es preciso resaltar que se indagan únicamente tres publicaciones (Revista de Investigación Educativa, Infancia y Aprendizaje y Bordón) por ser las únicas de las revistas estudiadas en las que se encuentran artículos que utilizan las pruebas de Comparaciones Múltiples.

A partir del análisis de esta información se pueden señalar los siguientes aspectos relevantes:

* Existe esencialmente una revista -Infancia y Aprendizaje- en la que es relativamente habitual la publicación de trabajos que incluyen la utilización de estas pruebas. Y aún así su presencia es relativamente moderada respecto a las posibilidades potenciales directas para su empleo: un 45,06% de los artículos que utilizan modelos ANOVA. En las otras dos revistas la publicación de trabajos que presenten Comparaciones Múltiples es mucho más rara.

* No parece existir ningún tipo de evolución temporal a través de los cinco años estudiados respecto a la utlización de las pruebas de Comparación Múltiple. De hecho, los escasos trabajos que las utilizan tienden a distribuirse de una forma casi uniforme a través de todo este período temporal.

* Merece un comentario detallado la escasa utilización de estas pruebas incluso tomando como referente las situaciones en las que es perfectamente ajustada su utilización: aquellos trabajos en los que se ha utilizado modelos de ANOVA. Así, solo un 12,33% de los trabajos de las tres revistas, entre los que emplean modelos ANOVA, ha utilizado alguna técnica de Comparaciones Múltiples. Además, sí que parece haber una cierta relación entre la mayor utilización de estas técnicas y su mayor actuación proporcional respecto al total de situaciones posibles. Así, en ambos casos la revista Infancia y Aprendizaje muestra tanto una mayor frecuencia de utilización como una mayor proporción de utilización respecto a todos los trabajos que emplean modelos ANOVA.

	1988	1989	1990	1991	1992	Total
Revista Investigación Educativa % respecto Total % respecto Revista % respecto Año	0 0,0 0,0 0,0	0 0,0 0,0 0,0	0 0,0 0,0 0,0	1(T) 11,11% 100% 33,33%	0 0,0 0,0 0,0	1 11,11
Infancia y Aprendizaje % respecto Total % respecto Revista % respecto Año	2(T) 22,22 28,57 100	1(S) 11,11 14,29 100	1(B) 11,11 14,29 50	2(S) 22,22 28,57 66,67	1(S) 11,11 14,29 100	7 77,78
Bordón % respecto Total % respecto Revista % respecto Año	0 0,0 0,0 0,0	0 0,0 0,0 0,0	1(S) 11,11 100 50	0 0,0 0,0 0,0	0 0,0 0,0 0,0	1 11,11
Total % Total	2 22,22	1 11,11	2 22,22	3 33,33	1 11,11	9
Tabla 1. Número de articulos con aplicaciones de Pruebas de Comparaciones Múltiples para cada revista y año. Se establecen proporciones respecto a la totalidad de los artículos publicados con CM, respecto a la totalidad de artículos de la revista (en los 5 años) y respecto a la totalidad de artículos por años del conjunto de las tres revistas -en los tres casos es la totalidad de artículos que utilizan estas pruebas-. (T= Tukey, S=Scheffé y B= Bonferroni)

* Los trabajos que emplean Comparaciones Múltiples tienden a utilizar aquellas que se corresponden con los modelos más simples -ANOVAS de una vía- con técnicas recogidas en los paquetes estadísticos más extendidos (SPSS, BMDP, fundamentalmente). Una parte de las "exclusiones" en cuanto a la utilización de estos procedimientos se produce por la presencia de modelos ANOVA más complejos -con 2 o más variables independientes-. Esto parece tener una clara relación con la mucho menor oferta de estos procedimientos en los paquetes estadísticos, junto con un tratamiento más esporádico del problemas en los textos y manuales dedicados a esta temática. Así, salvo los manuales que tratan monográficamente el tema de las técnicas de Comparaciones Múltiples, las opciones y forma de aplicación de las mismas a los modelos de cierta complejidad no están tradicionalmente recogidas en los textos, salvo alguna mención tangencial en algunos casos.

1988

1989

1990

1991

1992

Total

Revista Investigación Educativa

% respecto Trabajos estadisticos

% respecto ANOVAS

0,0

1(T)

11,11

0,0

1,33

7,7

Infancia y Aprendizaje

% respecto Trabajos estadisticos

% respecto ANOVAS

2(T)

14,29

1(S)

5,88

11.11

1(B)

8,33

2(S)

14,29

1(S)

11,11

10,61

Bordón

% respecto Trabajos estadisticos

% respecto ANOVAS

0,0

1(S)

16,67

100

0,0

1,72

8.33

Total

% respecto Trabajos estadisticos

% respecto ANOVAS

3,45

18,18

1,12

6,25

1,9

23,07

18,5

2,49

12,33

Tabla 2. Número de articulos con aplicaciones de Pruebas de Comparaciones Múltiples para cada revista, proporciones sobre el total de artículos que han empleado un modelo ANOVA y sobre el total de estudios en que se utiliza el análisis cuantitativo.

* Del total de 9 artículos en los que se emplean técnicas de Comparaciones Múltiples más de la mitad (55,56%) utilizan la prueba de Scheffé. En los casos restantes, se utilizan en una tercera parte (3 artículos) la prueba de Tukey (33,33%) y en un sólo artículo (11,11%) la prueba de Bonferroni. A partir de las informaciones sobre los estudios respecto a las propiedades de estas pruebas las decisiones no parecen estar mayoritariamente respaldadas por la evidencia. TOOTHAKER (1993) recomienda la utilización de la prueba de Tukey por no resultar tan conservadora como la de Scheffé ni tan liberal como la de Bonferroni. Por su parte, HOCHBERG Y TAMHANE (1987) señalan que la prueba más potente con diseños equilibrados es la de Scheffé, mientras que la de Tukey es más adecuada cuanto más se acentúa el desequilibrio entre los grupos. Dado que la práctica totalidad de los estudios manejan grupos desequilibrados parece que se ha producido mayoritariamente una decisión no suficientemente avalada, respecto a la técnica concreta elegida para establecer las Comparaciones Múltiples, en dos terceras partes de los trabajos estudiados (66,66%).

* Por lo que se refiere a la utilización de las pruebas dentro del enfoque del ajuste de modelos, es preciso resaltar que se produce en la práctica totalidad de las situaciones una aplicación independiente de la verificación del cumplimiento de los supuestos del modelo. Este hecho, por otra parte, es algo desgraciadamente habitual en el caso de la aplicación de múltiples técnicas estadísticas y particularmente se tiende a producir en los casos en que se utilizan modelos ANOVA.

4. CONCLUSIONES

La revisión de la literatura científica más reciente respecto a las técnicas estadísticas está acentuando cada vez más la importancia de la utilización de los procedimientos de Comparaciones Múltiples cuando se trata de verificar hipótesis sobre la igualdad de K medias correspondientes a situaciones diferentes que se desean comparar.

Existe hoy en día suficientes alternativas desarrolladas dentro de las técnicas de Comparaciones Múltiples que pueden dar respuesta a buena parte de las necesidades más comunes en la investigación educativa. De hecho, se cubre la mayor parte de los modelos que se aplican a las situaciones que habitualmente se plantean en nuestro ámbito de investigación.

No obstante, a partir de la revisión de los trabajos de investigación educativa en el ámbito español se aprecia que, en conjunto, el tema de la aplicabilidad de estas técnicas está poco difundido en la comunidad científica. De hecho, se manejan los procedimientos más clásicos que son de amplia difusión en los textos de estadística y que se encuentran profusamente recogidos en los paquetes estadísticos más importantes. Además, se emplean exclusivamente aquellas técnicas relacionadas con los modelos más simples, con una sola variable independiente y en situaciones entre grupos. Por último, cabe señalar que las decisiones entre las opciones alternativas no se suelen hacer tomando como base los estudios de validación disponibles respecto a los diferentes procedimientos.

Por todo ello, es preciso afirmar la necesidad de establecer los mecanismos para la difusión de este procedimiento entre la comunidad científica que investiga en educación. Esto entendemos que debe hacerse realizando un esfuerzo por clarificar las opciones disponibles, establecer estrategias de adecuación de estas opciones a cada situación concreta y reseñar cuales son las herramientas informáticas disponibles en cada situación.

Finalmente, pensamos que sería de particular interés en este tema la elaboración de programas informáticos específicos que cubrieran las principales lagunas existentes y que permitieran una utilización más amplia y mejor dirigida de estos procedimientos, a la espera de su implementación en los paquetes estadísticos más conocidos.

5. Bibliografia

Berhardson, C. (1975). Type I Error Rates when Multiples Comparison Procedures Follow a Significant F Test of ANOVA. Biometrics, 31, 229-232.

Boardman, T. & Moffitt, D. (1971). Graphical Monte Carlo Type I Error Rates for Multiple Caomparison Procedures. Biometrics, 27, 728-744.

Brown, M. &AMP; Forsythe, A. (1974c). The ANOVA and Multiple Comparations for Data with Heterogeneous Variances. Biometrics, 30, 179-184.

Coward, W.M. (1991). A Meta-Analysis of Multiple Comparison Procedures. Tesis doctoral.

Dalal, S. (1975). Simultaneous Confidence Procedure for Univariate Behrens-Fisher Type Problems. Biometrics, 65, 221-225.

Dawkins, H. (1983). Multiple Comparisons Misused: Why so Frequently in Response-Curve Studies?. Biometrics, 39, 789-790.

Duncan, D. (1955). Multiple Rage Tests and Multiple F Test. Biometrics, 11(1), 1-42.

Dunn, O.J. (1958). Estimation of the Means of dependent variables. Annals of Mathematical Statistics, 29, 1095-1111.

Dunn, O.J. (1961). Multiple comparisons using rank sums. Technometrics, 6, 241-252.

Dunnett, C. (1955). A Multiple Comparison Procedure for Comparing Several Treatments with a Control. Journal of the American Statistical Association, 50, 1096-1121.

Dunnett, C. (1980a). Pairwise Multiple Comparisons in the Homogeneous Variance, Unequal Sample Size Case. Journal of the American Statistical Association, 75(372), 789-795.

Dunnett, C. (1980b). Pairwise Multiple Comparisons in the Unequal Variance Case. Journal of the American Statistical Association, 75 (372), 796-800.

Dunnett, C. (1982). Robust multiple comparisons. Communications in Statistics, 11, 2611-2629.

Einot, I. & Gabriel,K. (1975). A Study of the Powers of Several Methods of Multiple comparisons. Journal of the American Statistical Association, 70 (351), 574-583.

Fisher, R.A. (1935). The design of experiments. Edinburgh: Oliver & Boyd.

Games P.A. & Howell, J.F. (1976). Pairwise Multiple comparisons procedures with unequal n's and/or varainces. Journal of Educational Statistics, 1, 113-125.

Hayter, A.J. (1986). The maximun familywise error rate of Fisher's least significant difference test. Journal of the American Statistical Association, 81, 1000-1004.

Hochberg, Y. (1974). Some geeralizations of the T-method in simultaneous inference. Journal of Multivariate Analysis, 4, 224-234.

Hochberg, Y. & Tamhane, A. (1987). Multiple Comparison Procedures. New York: John wiley & Sons.

Hochberg, Y. (1976). A Modification of the T-method of Multiple comparisons for a One-Way Layout with Unequal Variances. Journal of the American Statistical Association, 71 (353), 200-203.

Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6, 65-70.

Kaiser, L. & Bowden, D. (1983). Simultaneous Confidence Intervals for all Linear Contrast of Means with Heterogeneous Variances. Communications in Statistics-Theory and Methods, 12, 73-88.

Keselman, H. & Rogan, J. (1978). A Comparisons of the Modified-Tukey and Scheffé Methods of Multiple comparisons for pairwise Contrasts. Journal of the American Statistical Association, 73 (361), 47-52.

Keselman, H.; Murray, R. & Rogan, J. (1976). Effect of Very Unequal Group Sizes on Tukey's Multiple Comparison Test. Educational and Psychological Measurement, 36, 263-270.

Keselman, H.; Toothaker, L. & Shooter, M. (1975). An Evaluation of Two Unequal n(k) Forms of the Tukey Multiple Comparison Statistic. Journal of American Statistical Association, 70(351), 584-587.

Keuls, M. (1952). Use of the "Studentized Range" in Connection with an Analysis of Variance. Euphytica, 1, 112-122.

Klockars, A.J. & Sax, G. (1986). Multiple Comparisons. Beverly Hills: Sage.

Kramer, C. (1956). Extension of Multiple Range Tests to Group Means with Unequal Numbers of replications. Biometrics, 12, 307-310.

Maxwell, S. (1980). Pairwise Multiple Comparisons in Repeated Measures Designs. Journal of Educational Statistics, 5 (3), 269-287.

Miller, R. (1981). Simultaneous Statistical Inference (2 ed.). New York: Springer-Verlag.

Newman, D. (1939). The Distribution of Range in Samples from a Normal Population, Expressed in Terms of an Independent Estimate of Standard Deviation. Biometrika, 31, 20-30.

O'Neill, R.T. & Wetherill, B.G. (1971). The present state of multiple comparisons methods (with discussion). Journal of the Royal Statistical Society, 33, 218-241.

Peritz, E. (1970). A note on multiple comparisons. Unpublished manuscript, Hebew University, Israel.

Perry, J. (1986). Multiple Comparison Procedures: A Dissenting View. Journal of Economic Entomology, 79(5), 1149-1155.

Ringland, J. (1983). Robust Multiple Comparisons. Journal of American Statistical Association, 78, 145-151.

Ryan, T.A. (1960). Significance tests for multiple comparisons of proportions, variance and other statistics. Psychological Bulletin, 57, 318-328.

Scheffé, H. (1953). A method for judging all contrasts in analysis of variance. Biometrika, 40, 87-104.

Scheffé, H. (1959). The analysis of variance. New-york: John Wiley.

Scheffé, H. (1970). Practical Solutions of the Behrens-Fisher Problem. Journal of the American Statistical Association, 65 (332), 1501-1508.

Shaffer, J.P. (1979). Comparison of means: An F test followed by a modified multiple range procedure. Journal of Educational Statistics, 4, 14-23.

Shaffer, J.P. (1986). Modified sequentially rejective multiple test procedures. Journal of the American Statistical Association, 81, 826-831.

Sidák, Z. (1967). Rectangular confidence regions for the means of multivariate normal distributons. Journal of the American Statistical Association, 62, 626-633.

Stoline, M. & Ury, H. (1979). Tables of the Studentized maximum Modulus Distribution and an Application to Multiple Comparison among Means. Technometrics, 21(1), 87-93.

Toothaker, LE. (1991). Multiple Comparisons for Researchers. Newbury Park: Sage Pubns.

Toothaker, L.E. (1993). Multiple Comparisons procedures. Beverly Hills: Sage Pubns.

Tukey, J. (1953). The Problem of Multiple Comparisons. Unpublished manuscript. Princeton University.

Wang, Y. (1971). Probabilities of the Type I Errors of the Welch Tests for the Behrens-Fisher Problem. Journal of the American Statistical Association, 66 (335), 605-608.

Wilcox, R.R. (1987). New statistical procedures for the social sciences. Hillsdale, N.J.: LEA.

Winer, B.J. (1971). Statistical principles in experimental design (2nd ed.). New-York: McGraw-Hill.