1. Presentación del trabajo
Un problema común al que nos podemos enfrentar
en cualquier investigación es querer comparar más
de 2 grupos de datos para detectar posibles diferencias entre
ellos. La utilización de modelos de ANOVA puede permitirnos
detectar diferencias, a nivel global, entre las medias involucradas,
pero en muchas ocasiones deseamos trabajar a un mayor detalle
y detectar las diferencias entre grupos concretos lo que sólo
es posible mediante el uso de los Procedimientos de Comparaciones
múltiples (PCM).
Las propiedades estadísticas de los PCM son
bien conocidas (Miller, 1981; Hochberg y Tamhane, 1987) y el comportamiento
de estas pruebas en distintas situaciones ha sido descrita tanto
en estudios teóricos (Tukey, 1953; Einot y Gabriel, 1975;
Stoline y Ury, 1979; Scheffé, 1970) como en estudios utilizando
estrategias de simulación de Monte-Carlo (Dunnett, 1980a;
Dunnett, 1980b; Wang, 1971; Maxwell, 1980; Keselman y Rogan, 1978;
Keselman, Toothaker y Shooter, 1975; Keselman, Murray y Rogan
1976; Berhardson, 1975; Boardman y Moffitt, 1971). A pesar de
todo esto, las Comparaciones Múltiples no suelen ser utilizadas
por los investigadores o, en algunas ocasiones se utilizan incorrectamente..
La posibilidad de efectuar comparaciones múltiples
ha recibido críticas importantes desde diversas perspectivas
(Dawkins, 1983; O'Neill, y Wetherill, 1971; Perry, 1986). Bastantes
críticas provienen de la pugna teórica entre las
diversas concepciones y corrientes estadísticas. Otras
se refieren a principios de utilización incorrecta. Por
ejemplo, Wilcox (1987) afirma que solamente cuando se desean realizar
todas las comparaciones por pares y si se quiere mantener la probabilidad
del error de tipo I igual a a, es perfectamente legítimo
omitir la prueba F y usar uno de los procedimientos de contraste
de medias. La razón aducida es que la aplicación
de las pruebas de comparación múltiple únicamente
después de una prueba F significativa es una estrategia
que reduce la potencia y el nivel a en una cantidad difícil
de determinar.
La utilización incorrecta de Comparaciones
Múltiples lleva a los investigadores a conclusiones erróneas
que se reflejan en ambos tipos de error (tipo I y tipo II). En
un trabajo de Coward (1991) sobre la utilización de las
pruebas de comparaciones múltiples en Estados Unidos se
detectan cuatro posibles situaciones que pueden conducir a error
en la aplicación de las pruebas: 1) utilizar pruebas de
comparaciones de pares cuando lo correcto es utilizar contrastes
polinómicos, 2) usar comparaciones múltiples a posteriori
en lugar de a priori; 3) utilizar medias aritméticas en
lugar de mínimo cuadráticas y 4) utilizar una prueba
demasiado "liberal"
A estos problemas debidos a la mala utilización, hay que añadir la falta de uso de este tipo de pruebas que, como veremos, se da en nuestro país y que a nuestro juicio se da por dos circunstancias:
1) La falta de claridad en los textos de estadística sobre los distintos procedimientos de comparaciones múltiples con una clara clasificación de las pruebas en sus aspectos más relevantes como: conveniencia respecto al diseño experimental utilizado, tratamiento del control del error de tipo I, o incluso a nivel de los supuestos estadísticos necesarios para su aplicación (Por lo que se refiere a manuales, solamente se cuenta con algunos, el trabajo primigenio de síntesis de Miller, ya actualizado (Miller, 1981), y las recientes exposiciones en los textos de Klockars y Sax (1986) y Toothaker (1993) en la colección de Sage y el más completo de Hochberg y Tamhane (1987); ninguno de ellos traducido al castellano.) . Y como consecuencia de lo anterior,
2) La falta de implementación en paquetes
estadísticos de ordenador de muchas de las pruebas para
los diseños experimentales más utilizados. Aunque
todos los paquetes suelen cubrir los diseños de una via
entre grupos, hemos detectado una carencia de pruebas de comparaciones
múltiples para diseños factoriales de medidas repetidas
o en los diseños mixtos o en los diseños de ANOVA
no paramétricos.
Existen diferentes tipos de clasificaciones de las
pruebas de comparaciones múltiples lo cual nos ofrece una
variedad de dimensiones según las cuales caracterizar a
las pruebas (Hochberg y Tamhane, 1987; Toothaker, 1991). Por ejemplo,
Toothaker (1991, 1993) propone las siguientes dimensiones: 1)
Según el número de comparaciones; 2) según
el tipo de contraste (ortogonales frente a no ortogonales);
3) según la manera de comparación (por pares
o no); 4) comparaciones a priori o comparaciones a posteriori;
5) según el proceso de cálculo (simples o
en un único paso o en varios pasos 'stepwise', estos a
su vez se dividen en step-down o step-up, según
se proceda desde la mayor diferencia hasta la más pequeña
o desde la menor diferencia a la mayor); 6) según el
tipo de estadístico y/o la distibución teórica
utilizada en su cálculo; 7) según el tipo
de tasa de error (existen dos tipos: tasa de error por comparación
y tasa de error por familia).
Muchas de las dimensiones anteriores pueden aparecer
combinadas según la elección de la prueba que se
realice. Se podrían utilizar comparaciones múltiples
a priori y una tasa de error por comparación. O se pueden
utilizar comparaciones ortogonales y a posteriori con una tasa
de error por comparación. Algunas combinaciones son imposibles,
tales como todas las comparaciones por pares y ortogonales. Sin
embargo, es cierto que unas determinadas combinaciones se suelen
utilizar con más frecuencia, como comparaciones ortogonales
y a priori con una tasa de error por comparación.
A modo de cuadro-resumen presentamos algunas de las
pruebas de comparaciones múltiples clasificadas según
la distribución estadistica que utilizan en su cálculo:
Dunn-Bonferroni (Dunn, 1961)
Dunn-Sidak (Dunn, 1958 y Sidák, 1967) Holm-Shaffer (Holm, 1979 y Shaffer, 1986) | |
Tukey (Tukey, 1953)
Newman-Keuls (Newman, 1932 y Keuls 1952) Duncan (Duncan, 1955) Ryan (Ryan, 1960; Einot y Gabriel , 1975) Peritz (Peritz, 1970) | |
Scheffé (Scheffé, 1953, 1959)
F de Newman-Keuls F de Ryan | |
LSD de Fisher (Fisher, 1935)
Shaffer-Ryan (Shaffer, 1979) Fisher-Hayter (Hayter, 1986) | |
Dunnet (Dunnett, 1955) |
En el resumen anterior podemos observar que, además
de las pruebas tradicionales, existen otros procedimientos más
recientes (como los de Ryan o Peritz) que suelen ser modificaciones
de pruebas anteriores para corregir algunos de los problemas de
estas pruebas clásicas. Se da la circustancia que muchas
de estas pruebas recientes no están disponibles en los
manuales de estadistica al uso y, por supuesto, tampoco estan
implementadas en los paquetes estadísticos para ordenador
más utilizados.
Como ocurre en la prueba t y la prueba F es necesario
el cumplimiento de los supuestos paramétricos para la correcta
aplicación de las pruebas de contraste que hemos visto.
Vamos a revisar aquí algunos de los resultados más
importantes que se han encontrado sobre el cumplimiento de supuestos.
Respecto al supuesto de normalidad parece que según
Dunnet (1982), y como ocurre con la prueba F, las pruebas de contraste
son robustas frente a pequeñas desviaciones respecto a
la normalidad; en el caso de desviaciones de la normalidad muy
grandes, aumenta el riesgo del error (consultar a Dunnet, 1982
y Ringland, 1983).
Respecto al problema de tamaños muestrales
distintos entre los grupos a comparar se proponen distintas pruebas
alternativas como son dos variaciones a la prueba de Tukey: una
propuesta por Kramer (1956), conocida como prueba de Tukey-Kramer,
y la segunda variación propuesta por Miller (1981) y Winer
(1971), conocida como prueba de Miller-Winer y por último
una prueba nueva propuesta por Hochberg (1974) conocida como la
prueba GT2.
Mientras que para el caso de desigualdad de varianzas
existen alternativas como la prueba GH de Games y Howell (1976),
y las pruebas C o T3 de Dunnet (1980). Brown y Forsythe (1974c)
han propuesto una modificación a la prueba de Scheffé
para hacerla resistente a la desigualdad de las varianzas y que
ha dado pie a posteriores variaciones (Kaiser y Bowden, 1983)
y alternativas (Dalal, 1975; Hochberg, 1976).
En este trabajo se pretende llevar a cabo un contraste
entre estas posibilidades técnicas y la realidad de utilización
concreta en nuestro ámbito de investigación. Así,
pretendemos determinar en que situaciones se emplean estos procedimientos,
en cuales se podrían/deberían emplear, qué
opciones concretas se manejan, etc. Todo ello vamos a llevarlo
a cabo dentro del ámbito de la investigación educativa
en nuestro país.
2. Método
A tal efecto se ha tomado como referente de investigación
los trabajos publicados en revistas de investigación de
difusión nacional. En este sentido, se han seleccionado
7 publicaciones: Revista de Investigación Educativa, Infancia
y Aprendizaje, Revista de Educación, Investigación
en la Escuela, Bordón, Revista Española de Pedagogía
y Ciencias de la Educación. Dada la relativa recencia de
estos procedimientos como tema monográfico en la literatura
estadística se ha seleccionado un conjunto de 5 años
correspondientes al periodo que va desde 1988 a 1992, ambos inclusive.
La técnica de trabajo es la correspondiente
a cualquier estudio bibliométrico básico, procurando
mantener en todo momento la conexión con las informaciones
cualitativas que se derivan de los informes originales.
3. Resultados
El conjunto de resultados respecto a la utilización
de las pruebas de Comparaciones Múltiples se encuentran
recogidos en las tablas 1 y 2. Es preciso resaltar que se indagan
únicamente tres publicaciones (Revista de Investigación
Educativa, Infancia y Aprendizaje y Bordón) por ser las
únicas de las revistas estudiadas en las que se encuentran
artículos que utilizan las pruebas de Comparaciones Múltiples.
A partir del análisis de esta información
se pueden señalar los siguientes aspectos relevantes:
* Existe esencialmente una revista -Infancia y Aprendizaje-
en la que es relativamente habitual la publicación de trabajos
que incluyen la utilización de estas pruebas. Y aún
así su presencia es relativamente moderada respecto a las
posibilidades potenciales directas para su empleo: un 45,06% de
los artículos que utilizan modelos ANOVA. En las otras
dos revistas la publicación de trabajos que presenten Comparaciones
Múltiples es mucho más rara.
* No parece existir ningún tipo de evolución
temporal a través de los cinco años estudiados respecto
a la utlización de las pruebas de Comparación Múltiple.
De hecho, los escasos trabajos que las utilizan tienden a distribuirse
de una forma casi uniforme a través de todo este período
temporal.
* Merece un comentario detallado la escasa utilización
de estas pruebas incluso tomando como referente las situaciones
en las que es perfectamente ajustada su utilización: aquellos
trabajos en los que se ha utilizado modelos de ANOVA. Así,
solo un 12,33% de los trabajos de las tres revistas, entre los
que emplean modelos ANOVA, ha utilizado alguna técnica
de Comparaciones Múltiples. Además, sí que
parece haber una cierta relación entre la mayor utilización
de estas técnicas y su mayor actuación proporcional
respecto al total de situaciones posibles. Así, en ambos
casos la revista Infancia y Aprendizaje muestra tanto una mayor
frecuencia de utilización como una mayor proporción
de utilización respecto a todos los trabajos que emplean
modelos ANOVA.
Revista Investigación Educativa
| 0
0,0 0,0 0,0 | 0
0,0 0,0 0,0 | 0
0,0 0,0 0,0 | 1(T)
11,11% 100% 33,33% | 0
0,0 0,0 0,0 | 1
11,11 |
Infancia y Aprendizaje
| 2(T)
22,22 28,57 100 | 1(S)
11,11 14,29 100 | 1(B)
11,11 14,29 50 | 2(S)
22,22 28,57 66,67 | 1(S)
11,11 14,29 100 | 7
77,78 |
Bordón
| 0
0,0 0,0 0,0 | 0
0,0 0,0 0,0 | 1(S)
11,11 100 50 | 0
0,0 0,0 0,0 | 0
0,0 0,0 0,0 | 1
11,11 |
| 2
22,22 | 1
11,11 | 2
22,22 | 3
33,33 | 1
11,11 | 9 |
Tabla 1. Número de articulos con aplicaciones de Pruebas de Comparaciones Múltiples para cada revista y año. Se establecen proporciones respecto a la totalidad de los artículos publicados con CM, respecto a la totalidad de artículos de la revista (en los 5 años) y respecto a la totalidad de artículos por años del conjunto de las tres revistas -en los tres casos es la totalidad de artículos que utilizan estas pruebas-. (T= Tukey, S=Scheffé y B= Bonferroni) |
* Los trabajos que emplean Comparaciones Múltiples
tienden a utilizar aquellas que se corresponden con los modelos
más simples -ANOVAS de una vía- con técnicas
recogidas en los paquetes estadísticos más extendidos
(SPSS, BMDP, fundamentalmente). Una parte de las "exclusiones"
en cuanto a la utilización de estos procedimientos se produce
por la presencia de modelos ANOVA más complejos -con 2
o más variables independientes-. Esto parece tener una
clara relación con la mucho menor oferta de estos procedimientos
en los paquetes estadísticos, junto con un tratamiento
más esporádico del problemas en los textos y manuales
dedicados a esta temática. Así, salvo los manuales
que tratan monográficamente el tema de las técnicas
de Comparaciones Múltiples, las opciones y forma de aplicación
de las mismas a los modelos de cierta complejidad no están
tradicionalmente recogidas en los textos, salvo alguna mención
tangencial en algunos casos.
Revista Investigación Educativa
| 0
0,0 0,0 |
0
0,0 0,0 | 0
0,0 0,0 | 1(T)
11,11 50 | 0
0,0 0,0 |
1
1,33 7,7 |
Infancia y Aprendizaje
| 2(T)
14,29 50 | 1(S)
5,88 11.11 | 1(B)
8,33 20 | 2(S)
14,29 40 | 1(S)
11,11 50 | 7
10,61 28 |
Bordón
| 0
0,0 0,0 |
0
0,0 0,0 | 1(S)
16,67 100 | 0
0,0 0,0 |
0
0,0 0,0 | 1
1,72 8.33 |
| 2
3,45 18,18 | 1
1,12 6,25 | 2
1,9 8 |
3
5 23,07 | 1
2 18,5 |
9
2,49 12,33 |
Tabla 2. Número de articulos con aplicaciones de Pruebas de Comparaciones Múltiples para cada revista, proporciones sobre el total de artículos que han empleado un modelo ANOVA y sobre el total de estudios en que se utiliza el análisis cuantitativo. |
* Del total de 9 artículos en los que se emplean
técnicas de Comparaciones Múltiples más de
la mitad (55,56%) utilizan la prueba de Scheffé. En los
casos restantes, se utilizan en una tercera parte (3 artículos)
la prueba de Tukey (33,33%) y en un sólo artículo
(11,11%) la prueba de Bonferroni. A partir de las informaciones
sobre los estudios respecto a las propiedades de estas pruebas
las decisiones no parecen estar mayoritariamente respaldadas por
la evidencia. TOOTHAKER (1993) recomienda la utilización
de la prueba de Tukey por no resultar tan conservadora como la
de Scheffé ni tan liberal como la de Bonferroni. Por su
parte, HOCHBERG Y TAMHANE (1987) señalan que la prueba
más potente con diseños equilibrados es la de Scheffé,
mientras que la de Tukey es más adecuada cuanto más
se acentúa el desequilibrio entre los grupos. Dado que
la práctica totalidad de los estudios manejan grupos desequilibrados
parece que se ha producido mayoritariamente una decisión
no suficientemente avalada, respecto a la técnica concreta
elegida para establecer las Comparaciones Múltiples, en
dos terceras partes de los trabajos estudiados (66,66%).
* Por lo que se refiere a la utilización de
las pruebas dentro del enfoque del ajuste de modelos, es preciso
resaltar que se produce en la práctica totalidad de las
situaciones una aplicación independiente de la verificación
del cumplimiento de los supuestos del modelo. Este hecho, por
otra parte, es algo desgraciadamente habitual en el caso de la
aplicación de múltiples técnicas estadísticas
y particularmente se tiende a producir en los casos en que se
utilizan modelos ANOVA.
4. CONCLUSIONES
La revisión de la literatura científica
más reciente respecto a las técnicas estadísticas
está acentuando cada vez más la importancia de la
utilización de los procedimientos de Comparaciones Múltiples
cuando se trata de verificar hipótesis sobre la igualdad
de K medias correspondientes a situaciones diferentes que se desean
comparar.
Existe hoy en día suficientes alternativas
desarrolladas dentro de las técnicas de Comparaciones Múltiples
que pueden dar respuesta a buena parte de las necesidades más
comunes en la investigación educativa. De hecho, se cubre
la mayor parte de los modelos que se aplican a las situaciones
que habitualmente se plantean en nuestro ámbito de investigación.
No obstante, a partir de la revisión de los
trabajos de investigación educativa en el ámbito
español se aprecia que, en conjunto, el tema de la aplicabilidad
de estas técnicas está poco difundido en la comunidad
científica. De hecho, se manejan los procedimientos más
clásicos que son de amplia difusión en los textos
de estadística y que se encuentran profusamente recogidos
en los paquetes estadísticos más importantes. Además,
se emplean exclusivamente aquellas técnicas relacionadas
con los modelos más simples, con una sola variable independiente
y en situaciones entre grupos. Por último, cabe señalar
que las decisiones entre las opciones alternativas no se suelen
hacer tomando como base los estudios de validación disponibles
respecto a los diferentes procedimientos.
Por todo ello, es preciso afirmar la necesidad de
establecer los mecanismos para la difusión de este procedimiento
entre la comunidad científica que investiga en educación.
Esto entendemos que debe hacerse realizando un esfuerzo por clarificar
las opciones disponibles, establecer estrategias de adecuación
de estas opciones a cada situación concreta y reseñar
cuales son las herramientas informáticas disponibles en
cada situación.
Finalmente, pensamos que sería de particular
interés en este tema la elaboración de programas
informáticos específicos que cubrieran las principales
lagunas existentes y que permitieran una utilización más
amplia y mejor dirigida de estos procedimientos, a la espera de
su implementación en los paquetes estadísticos más
conocidos.
5. Bibliografia
Berhardson, C. (1975). Type I Error Rates when Multiples Comparison Procedures Follow a Significant F Test of ANOVA. Biometrics, 31, 229-232.
Boardman, T. & Moffitt, D. (1971). Graphical Monte Carlo Type I Error Rates for Multiple Caomparison Procedures. Biometrics, 27, 728-744.
Brown, M. & Forsythe, A. (1974c). The ANOVA and Multiple Comparations for Data with Heterogeneous Variances. Biometrics, 30, 179-184.
Coward, W.M. (1991). A Meta-Analysis of Multiple Comparison Procedures. Tesis doctoral.
Dalal, S. (1975). Simultaneous Confidence Procedure for Univariate Behrens-Fisher Type Problems. Biometrics, 65, 221-225.
Dawkins, H. (1983). Multiple Comparisons Misused: Why so Frequently in Response-Curve Studies?. Biometrics, 39, 789-790.
Duncan, D. (1955). Multiple Rage Tests and Multiple F Test. Biometrics, 11(1), 1-42.
Dunn, O.J. (1958). Estimation of the Means of dependent variables. Annals of Mathematical Statistics, 29, 1095-1111.
Dunn, O.J. (1961). Multiple comparisons using rank sums. Technometrics, 6, 241-252.
Dunnett, C. (1955). A Multiple Comparison Procedure for Comparing Several Treatments with a Control. Journal of the American Statistical Association, 50, 1096-1121.
Dunnett, C. (1980a). Pairwise Multiple Comparisons in the Homogeneous Variance, Unequal Sample Size Case. Journal of the American Statistical Association, 75(372), 789-795.
Dunnett, C. (1980b). Pairwise Multiple Comparisons in the Unequal Variance Case. Journal of the American Statistical Association, 75 (372), 796-800.
Dunnett, C. (1982). Robust multiple comparisons. Communications in Statistics, 11, 2611-2629.
Einot, I. & Gabriel,K. (1975). A Study of the Powers of Several Methods of Multiple comparisons. Journal of the American Statistical Association, 70 (351), 574-583.
Fisher, R.A. (1935). The design of experiments. Edinburgh: Oliver & Boyd.
Games P.A. & Howell, J.F. (1976). Pairwise Multiple comparisons procedures with unequal n's and/or varainces. Journal of Educational Statistics, 1, 113-125.
Hayter, A.J. (1986). The maximun familywise error rate of Fisher's least significant difference test. Journal of the American Statistical Association, 81, 1000-1004.
Hochberg, Y. (1974). Some geeralizations of the T-method in simultaneous inference. Journal of Multivariate Analysis, 4, 224-234.
Hochberg, Y. & Tamhane, A. (1987). Multiple Comparison Procedures. New York: John wiley & Sons.
Hochberg, Y. (1976). A Modification of the T-method of Multiple comparisons for a One-Way Layout with Unequal Variances. Journal of the American Statistical Association, 71 (353), 200-203.
Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6, 65-70.
Kaiser, L. & Bowden, D. (1983). Simultaneous Confidence Intervals for all Linear Contrast of Means with Heterogeneous Variances. Communications in Statistics-Theory and Methods, 12, 73-88.
Keselman, H. & Rogan, J. (1978). A Comparisons of the Modified-Tukey and Scheffé Methods of Multiple comparisons for pairwise Contrasts. Journal of the American Statistical Association, 73 (361), 47-52.
Keselman, H.; Murray, R. & Rogan, J. (1976). Effect of Very Unequal Group Sizes on Tukey's Multiple Comparison Test. Educational and Psychological Measurement, 36, 263-270.
Keselman, H.; Toothaker, L. & Shooter, M. (1975). An Evaluation of Two Unequal n(k) Forms of the Tukey Multiple Comparison Statistic. Journal of American Statistical Association, 70(351), 584-587.
Keuls, M. (1952). Use of the "Studentized Range" in Connection with an Analysis of Variance. Euphytica, 1, 112-122.
Klockars, A.J. & Sax, G. (1986). Multiple Comparisons. Beverly Hills: Sage.
Kramer, C. (1956). Extension of Multiple Range Tests to Group Means with Unequal Numbers of replications. Biometrics, 12, 307-310.
Maxwell, S. (1980). Pairwise Multiple Comparisons in Repeated Measures Designs. Journal of Educational Statistics, 5 (3), 269-287.
Miller, R. (1981). Simultaneous Statistical Inference (2 ed.). New York: Springer-Verlag.
Newman, D. (1939). The Distribution of Range in Samples from a Normal Population, Expressed in Terms of an Independent Estimate of Standard Deviation. Biometrika, 31, 20-30.
O'Neill, R.T. & Wetherill, B.G. (1971). The present state of multiple comparisons methods (with discussion). Journal of the Royal Statistical Society, 33, 218-241.
Peritz, E. (1970). A note on multiple comparisons. Unpublished manuscript, Hebew University, Israel.
Perry, J. (1986). Multiple Comparison Procedures: A Dissenting View. Journal of Economic Entomology, 79(5), 1149-1155.
Ringland, J. (1983). Robust Multiple Comparisons. Journal of American Statistical Association, 78, 145-151.
Ryan, T.A. (1960). Significance tests for multiple comparisons of proportions, variance and other statistics. Psychological Bulletin, 57, 318-328.
Scheffé, H. (1953). A method for judging all contrasts in analysis of variance. Biometrika, 40, 87-104.
Scheffé, H. (1959). The analysis of variance. New-york: John Wiley.
Scheffé, H. (1970). Practical Solutions of the Behrens-Fisher Problem. Journal of the American Statistical Association, 65 (332), 1501-1508.
Shaffer, J.P. (1979). Comparison of means: An F test followed by a modified multiple range procedure. Journal of Educational Statistics, 4, 14-23.
Shaffer, J.P. (1986). Modified sequentially rejective multiple test procedures. Journal of the American Statistical Association, 81, 826-831.
Sidák, Z. (1967). Rectangular confidence regions for the means of multivariate normal distributons. Journal of the American Statistical Association, 62, 626-633.
Stoline, M. & Ury, H. (1979). Tables of the Studentized maximum Modulus Distribution and an Application to Multiple Comparison among Means. Technometrics, 21(1), 87-93.
Toothaker, LE. (1991). Multiple Comparisons for Researchers. Newbury Park: Sage Pubns.
Toothaker, L.E. (1993). Multiple Comparisons procedures. Beverly Hills: Sage Pubns.
Tukey, J. (1953). The Problem of Multiple Comparisons. Unpublished manuscript. Princeton University.
Wang, Y. (1971). Probabilities of the Type I Errors of the Welch Tests for the Behrens-Fisher Problem. Journal of the American Statistical Association, 66 (335), 605-608.
Wilcox, R.R. (1987). New statistical procedures for the social sciences. Hillsdale, N.J.: LEA.
Winer, B.J. (1971). Statistical principles in experimental design (2nd ed.). New-York: McGraw-Hill.