Aliaga,
F. (2000). Validez de la Investigación causal. Tipologías y evolución. Bordón, 52 (3), pp.301-321.
Disponible en http://www.uv.es/~aliaga/curriculum/Validez.htm |
Universidad de
Valencia
RESUMEN
Para alcanzar un necesario prestigio social de las Ciencias
de la Educación, resulta fundamental que las investigaciones educativas tengan
un alto nivel de Validez, algo que no siempre se consigue. A pesar de que es
unánimemente reconocida la labor de Campbell y sus colaboradores (Stanley,
Cook, etc.) en el análisis del problema de la Validez de Investigación, una
revisión de los textos de autores españoles escritos en los últimos años sobre
Investigación Educativa revela que ninguno de ellos sigue los modelos de
Validez de la Investigación expuestos por Campbell y sus colaboradores desde
1979, sino que en todo caso se refieren (o plantean diversas variaciones) a
modelos más antiguos. Para intentar clarificar esta cuestión hacemos un repaso
de la evolución y del estado de la cuestión en los últimos años, así como un
análisis crítico de la situación actual del tema.
ABSTRACT
To obtain social prestige, the Educational Research need achieve a high
grade of Validity but this is not ever present. For this reason, is important
clarify properly the subject. Despite the unanimous importance conferred to
seminal work of Campbell and his collaborators (Stanley, Cook, etc.) in the
field of Research Validity, a review of most recent texts published in Spain
about Educational Research shows that none follow the models of Research
Validity exposed by Campell and collaborators since 1979, but in all cases they
refer (or uses diverse variations) to older models. To clarify the situation we
make a review of the evolution and state, of art over the last few years, as
well as a critical analysis of the actual situation of the subject
*********************
Es evidente que no todos los diseños de
investigación educativa están orientados a determinar las causas de
determinados fenómenos o las consecuencias de ciertas intervenciones. Sin
embargo, en una disciplina aplicada como es la educación, este tipo de
planteamientos tienen una importancia fundamental, hasta el punto de que en los
últimos años se han desarrollado procedimientos diversos para intentar
contrastar modelos causales a partir, incluso, de estudios de carácter
descriptivo, tales como el análisis de vías o el análisis de relaciones
estructurales lineales (LISREL) (ver Tuijnman y Keeves, 1997, para una revisión de la
utilidad y limitaciones de estos procedimientos). Por tanto, resulta una de las
principales áreas de interés de la investigación educativa (Cook y Campbell,
1979), por lo que ha venido prestándosele una notable atención.
Durante mucho tiempo ha sido una dolorosa
evidencia que la investigación en Ciencias Sociales en general, y la educativa
en particular, han estado, en general, muy mal realizadas, y que
"contienen un número desproporcionado de malos estudios" (Cordray,
1986). No en balde, la decepción con los resultados obtenidos con la investigación
educativa son los que vinieron a fomentar la búsqueda de modelos y paradigmas
nuevos que solventaran los problemas y limitaciones planteados (Wienert, 1997).
Entre los muchos ejemplos disponibles
citaremos dos que nos parecen especialmente ilustrativos. La Oficina de
Auditoria General de los Estados Unidos realizó en 1984 un estudio para evaluar
el impacto de los programas de apoyo a niños, jóvenes y mujeres. Se revisaron
sesenta y un trabajos de investigación sobre un tópico específico (la
influencia de los programas sociales sobre el peso de los niños al nacer), de
los que hubo que descartar cincuenta y cinco por problemas metodológicos y,
consiguientemente, por su escasa credibilidad (citado por Cordray, 1986)
En otro ejemplo significativo de
investigación educativa fue llevado a cabo a principios de esta década, el
Departamento (Ministerio) de Educación de Estados Unidos solicitó al Consejo
Nacional de Investigación que evaluara los principales estudios sobre los
diversos tipos de educación bilingüe, a fin de determinar cuales eran los
mejores procedimientos disponibles. Los resultados de la evaluación (Meyer y
Conrad, 1992) fueron frustrantes, destacando, entre otras conclusiones, las
siguientes:
- "Los estudios no autorizan la conclusión de
que ningún tipo de programa sea superior a ningún otro, ni que los programas
sean igualmente efectivos. Incluso si
alguno de los programas hubiera sido superior, los estudios, tal y como se
planificaron y llevaron a cabo, podrían haber fracasado identificar tal
circunstancia". (p.104)
- "Los estudios (revisados) adolecen de una excesiva atención al uso de
elaborados métodos estadísticos para intentar solventar las deficiencias en los
diseños de investigación. Los métodos de análisis estadístico no pueden
corregir los fallos en la conceptualización, diseño y ejecución de los estudios"(p.
104).
- "Dada la heterogeneidad de situaciones
investigadas que hacen imposible realizar comparaciones adecuadas, el equipo evaluador
recomienda que se lleven a cabo estudios mejor orientados y fundados
teóricamente para analizar la interacción de diferentes planteamientos
instruccionales en contextos de educación bilingüe de comunidades con
características específicas" (p. 105).
- "Aunque el informe final (de uno de las
principales investigaciones revisadas) afirma
que los tres programas (tratamientos)
representan tres modelos instruccionales distintos, los datos revelan que los
programas no eran tan distintos. Fueron esencialmente diferentes versiones del
mismo tratamiento; los programas de Inmersión lingüística y de Integración
Temprana en ocasiones no podían distinguirse entre sí" (p. 103).
Cordray (1986) indica que esta mala calidad
de la investigación amenaza la misma reputación del campo, lo que por ejemplo,
podría justificar que, sin mayor problema, desde alguna instancia política se
haya criticado recientemente el trabajo del INCE sobre evaluación de la ESO
"por su escasa fiabilidad" (sic).
Puede haber algunas razones que justifiquen esta mala calidad de las
investigaciones, entre las que podríamos mencionar, siguiendo parcialmente a
Cordray:
- Los métodos de
investigación en Ciencias Sociales no son adecuados (o capaces) de explicar la
compleja realidad social y humana. Planteamientos de este tipo han estado a la
base, por ejemplo, de la creciente atención que se ha prestado en los últimos
años a modelos alternativos, como la investigación denominada cualitativa o
interpretativa (Keeves, 1997; Walker y Evers, 1997), aunque los planteamientos
puedan ser prometedores, la mejora que estos nuevos procedimientos puedan traer
a la investigación educativa en su conjunto están aún por demostrar. Se han
desarrollado incluso desde esta perspectiva cualitativa criterios de calidad de
la investigación propios, con una aceptación desigual, y que no revisaremos
aquí por problemas porque su análisis excedería a los limitados objetivos de
este trabajo (ver Aliaga, 1998 para un análisis más detallado de este tema). En
cualquier caso conviene recordar aquí que difícilmente puede acusarse a las
teorías clásicas sobre la validez de la investigación de
"cuantitativas", ya que algunos de sus principales autores han
manifestado su simpatía por los acercamientos cualitativos, e incluso en cierta
medida han propiciado su crecimiento (Campbell, 1974; Cronbach, 1974).
- Los métodos de
investigación en Ciencias Sociales están aún poco evolucionados y no se han
desarrollado suficientemente como para ser capaces de detectar la eficacia de
los distintos tratamientos. El desarrollo de una cierta proporción
investigaciones bien controladas y fiables (como, por ejemplo, en el caso de
seis de los sesenta y un estudios revisados por la Oficina de Auditoria General
de los Estados Unidos, 1984) nos permite descartar esta alternativa
- El trabajo
empírico en Ciencias Sociales supone complicaciones específicas que hacen muy
difícil llevar a cabo investigaciones válidas. Algunos de los problemas de este
tipo han sido analizados en los en los últimos treinta años, básicamente
gracias al trabajo de Campbell y sus colaboradores (Campbell y Stanley, 1966;
Cook y Campbell, 1979; Campbell, 1986; Cook, Campbell y Peracchio, 1990), espoleados por planteamientos críticos como los de Cronbach (1982),
de tal modo que se han desarrollado procedimientos específicos, como es el caso
de los diseños cuasi-experimentales, que posibilitan, cuando menos, una
comprensión global del proceso de investigación en las particulares
circunstancias que se dan en las Ciencias Sociales y Humanas.
- Los profesionales
e investigadores no hemos comprendido y/o aplicado adecuadamente los
conocimientos desarrollados sobre diseños de investigación y los condicionantes
a su validez que, conjuntamente con el desarrollo de los procedimientos de
investigación (particularmente la cuasiexperimentación), se han desarrollado en
las últimas décadas.
Existen algunos indicios que podrían
permitirnos suponer que, al menos parcialmente, esta última posibilidad pudiera
tener ciertos visos de credibilidad. Algunas revisiones sobre los
procedimientos analíticos empleados en la investigación educativa en España
(por ejemplo, Sáez et al., 1994; Suárez et al., 1995) revelan una mala
utilización de los procedimientos más complejos de análisis estadístico. Ya
Campbell y Stanley (1966) clamaban porque "una capacitación más a fondo de los investigadores educacionales en
técnicas modernas de estadística experimental permitiría elevar la calidad de
la experimentación pedagógica" (p. 14 de la edición española).
Desde el punto de vista de los diseños, y más
concretamente, respecto al tema de la validez de investigación, existe una
heterogeneidad de concepciones tal que parece haber una diversidad de opiniones
enorme. Revisando sólo los planteamientos mostrados en algunos de los principales
textos sobre investigación educativa que han aparecido últimamente en nuestro
país, diremos que Buendía,
Colás y Hernádez Pina (1997), cuando se refieren a la validez de la
investigación experimental, distinguen dos grandes tipos, la Validez Interna y
la Validez Externa, dentro de la cual engloban la Validez de Población, la
Validez Ecológica, y la Validez de Constructo (p.82). Por su parte Latorre, Del
Rincón y Arnal (1996) plantean que “hay
que tener en cuenta tres tipos de validez: la interna, que exige el control; la
externa (generalización) y la conceptual (coherencia)” (p. 127). Colás y
Buendía (1994) señalan que los diseños experimentales deben responder a tres
clases de validez (p. 111): Validez Interna, Validez Externa, y Validez
Ecológica. Bisquerra (1989) distingue por un lado entre Validez Interna y
Validez Externa, añadiendo un apartado residual de "otros tipos de validez”, en los que incluye la validez
ecológica, la validez de población, la validez de conclusión estadística y la
validez de constructo. López-Barajas, López López y Pérez Juste (1987)
distinguen también entre Validez Interna y Validez Externa, dentro de la cual
distinguen entre validez de muestras, de variables y ecológica. Pérez Juste
(1985), en su revisión de los diseños experimentales, hace referencia sólo a la
Validez Interna y a Validez Externa, siguiendo el primer modelo planteado por
Campbell y Stanley (1966).
Modelos
de Validez en textos españoles sobre Investigación Educativa
Como
podemos comprobar, existe entre nosotros una enorme variedad de planteamientos,
muchos de ellos basados parcialmente en el modelo original de Campbell y
Stanley (1963; 1966) y al que cada autor ha añadido ciertas peculiaridades.
Consideramos una medida interesante no acoger sin más los modelos planteados
por otros autores, por prestigiosos que puedan ser, y por tanto creemos que
cada una de las matizaciones aportadas en los textos pueden tener su interés.
Sin embargo, llama poderosamente la atención que ninguno de los textos citados
recoja, siquiera aproximadamente, los últimos modelos que sobre validez han ido
surgiendo tanto desde las posturas de Campbell y sus colaboradores, como desde
otras perspectivas alternativas. Nosotros pretendemos plantear en el presente
trabajo algunas de las principales evoluciones en el campo que pueden ser de
interés para poder entender el actual estado de la cuestión.
Nos
hemos centrado especialmente en el tema de la validez de investigación porque,
como señala Mark (1986), el conocimiento de las tipologías de validez pueden
ayudar a comprender de un modo más global las ventajas y desventajas de cada
tipo de diseño a la hora de aplicarlo a una cuestión determinada. No se trata,
por tanto, tan sólo de una disquisición teórica, sino que es una de esas ocasiones
en las que como dijo Kurt Lewin, no hay
nada más práctico que una buena teoría.
Son
diversos los modelos y concepciones que se tienen (o se han planteado) sobre la
causación (Cfr. Cook y Campbell, 1979). Entre ellas tenemos posturas
positivistas (en las que podríamos incluir desde Hume hasta Pearson o Bertrand
Russell), que rechazan el establecimiento de las relaciones causales,
proponiendo sustituirlas por el estudio de las relaciones funcionales. También
han tenido un importante predicamento las posturas que se han denominado esencialistas, según las cuales lo
importante no es tanto encontrar vínculos empíricos entre las presuntas causas
y consecuencias como la comprensión
del grupo de factores que, necesaria, inevitable e infaliblemente, son
determinantes causales de un determinado efecto. Esta postura esencialista
supone la necesidad reduccionista de plantear un amplio programa de
experimentación en el que los diversos constructos implicados como causas sean
modificados y probados en diversos niveles, a fin de determinar la
configuración exacta que determina cada consecuencia. Sin embargo, la
comprensión de esa relación esencial no siempre tendría que ir vinculada a
posibilidades empíricas de manipulación, ya que la comprensión va más allá de
los meros hechos y su descripción. Esta concepción, más ambiciosa desde el
punto de vista filosófico, choca con la realidad de las limitaciones que
suponen las características concretas de la investigación empírica.
Otro
modelo de particular importancia es el que se ha denominado teoría de la
actividad de la causación (Cook y Campbell, 1979) o de la manipulabilidad de la
causación (Cook y Shadish, 1994). Se trata de un modelo mucho más práctico del
modelo de causa, basado en buena medida en el sentido común, aunque con un
desarrollo racional inferior a los modelos citados anteriormente. Los
experimentos no serían más que puestas en prácticas de este modelo, según el
cual, si al modificar alguna variable se provocan cambios en otras variables
tendremos un indicio de relación causal. Sin embargo, estos indicios no son
suficientes, y suelen emplearse todavía los criterios planteados por John
Stuart Mill para determinar una relación causal:
a) Precedencia temporal: las causas han de
acontecer antes que las consecuencias. La aplicación de este principio provocó,
por ejemplo el rechazo de la teoría evolucionista de Lamarck, que planteaba una
causación teleológica.
b) Covariación de causas y efectos, es decir,
que los cambios de una vayan acompañados de cambios en la otra. Esta condición
es necesaria, pero no suficiente, por lo que las conclusiones causales de los
diseños correlacionales, por sí solos, no están autorizadas.
c) Eliminación de otras explicaciones
alternativas a las relaciones causa-efecto. Esta es sin duda la condición
cuyo cumplimiento es más difícil de verificar, razón por la cual tuvo una
repercusión tan amplia la obra de Campbell y Stanley (1963, 1966), que ofrecía
un marco general que guiara en la consecución del cumplimiento de esta tercera
condición.
A
nuestro entender, aun no se han analizado en profundidad algunos de los modelos
más actuales de causa (por ejemplo, los derivados de la Teoría General de
Sistemas) que implican que sólo la adecuada interrelación compleja entre
diversas "causas" o factores pueden resultar (se rechaza el término
"determinar", ya que los resultados son probabilísticos) en un
determinado efecto. La incomprensión de este tipo de modelos probabilísticos complejos (en los que la precedencia puede
ser muy alejada en el tiempo, y la covariación tomada como un factor poco
determinante) suele llevar consigo el no reconocimiento, al menos por parte de
los legos -pero no sólo de ellos-, de las relaciones causales que parecen
evidentes para los investigadores familiarizados con este tipo de concepto
(esto ocurre frecuentemente, por ejemplo, con respecto a los avisos incluidos
en los paquetes de tabaco: aunque hay pocas dudas de la relación causal entre
fumar y, digamos, cáncer de pulmón, mucha gente, aplicando el más puro sentido
común -y un modelo excesivamente simple de causación- rechazan la idea diciendo
"pues yo conozco a alguien que fumaba dos paquetes diarios y no tuvo
cáncer, muriendo de muy viejo": es decir, no se considera causa porque no
es una condición suficiente). Quizás
el análisis más detallado de estos nuevos modelos pueda llegar a arrojar alguna
luz nueva sobre el proceso de investigación en Ciencias Humanas.
Como
hemos comentado anteriormente, la obra de Campbell y Stanley supuso un impulso
notable a la investigación causal, quizás la más importante desde las
aportaciones de Fisher en los años 20 y 30. De hecho su obra estuvo en buena
medida motivada (Campbell, 1986) por el hecho de que se asumía de modo general
que la mera asignación aleatoria de los casos a las distintas situaciones
experimentales, según proponía el modelo fisheriano del Análisis de Varianza,
permitía controlar los sesgos de la investigación y llegar a conclusiones
"sólidas". Por tanto, se suponía que el único control que había que
tener a la hora de diseñar una investigación era el aleatorio. Sin embargo,
Campbell y Stanley identificaron dos grandes grupos de sesgos posibles (Cfr.
Campbell, 1986, p. 68), algunos de los cuales podían ser controlados mediante
la asignación aleatoria, denominados Amenazas a la Validez Interna mientras que
otro grupo de amenazas o sesgos no quedaban controladas aunque se utilizaran
este procedimiento azaroso, las Amenazas a la Validez Externa (" el fin principal que se persigue con
la aleatorización (...) es la validez interna, no la externa" p. 52[1]).
Por tanto, para el análisis de cualquier investigación se deberían separar
ambos conjuntos de características o sesgos, de tal modo que pudiéramos
identificar si cada uno de ellos estaba controlado o no, y por tanto si la
investigación era válida o no.
Esta circunstancia dio lugar a que se creara
el concepto de "diseño cuasi-experimental", para referirse a aquellas
investigaciones en las que, por diversas razones (ver Coyle, Boruch y Turner,
1991 para una revisión de las mismas) las amenazas a la validez interna no se
hubieran controlado mediante la aleatorización. Los diseños cuasi-experimentales
son, por tanto, entendidos como una aproximación imperfecta (por lo que hace
referencia a su validez interna) a los estudios experimentales, pero ambos
diseños, experimentales y cuasi experimentales, carecen, en principio, de
validez externa, que habría que planificar separadamente.
La Validez Interna de una investigación
causal vendría a ser interpretada, por tanto, como el nivel de seguridad en que
el estímulo experimental aplicado provoca algún cambio significativo en la
variable dependiente (Campbell, 1957) "en
este caso experimental concreto" (Campbell y Stanley, 1966, p. 16).
Dicho de otro modo, y basándonos tanto en el principio de falsación popperiano
como en el tercer criterio de causación expuesto por Stuart Mill, puede entenderse
la Validez Interna como la inversa de la "admisibilidad
relativa de las teorías rivales" (p. 74), de tal modo que cuanto menos
probables sean esas otras explicaciones alternativas, mayor será la Validez
Interna del estudio. Hemos de tener muy presente que, de ningún modo, podemos
llegar a alcanzar una Validez Interna plena, es decir, no podemos confirmar (o demostrar) que una determinada hipótesis (y la existencia de una
relación causal es sólo uno de los posibles tipos de hipótesis) ya que "cuando por conveniencia utilizamos ese
término queremos significar, más bien, que la hipótesis fue expuesta a
refutación y salió airosa de ella" (p. 73). Sin embargo, se considera
la asignación aleatoria como un método seguro para crear grupos no-sesgados,
aunque ello no es lo mismo que garantizar la igualdad entre dichos grupos (algo
que así sólo se logra de modo "muy
imperfecto", en palabras de Campbell y Stanley, 1966, p. 35. "No obstante, es la única forma práctica de
hacerlo"). Por ello, los procedimientos cuasi-experimentales han de
prestar particular atención a la eliminación de las explicaciones alternativas
(por usar los términos de Krathwohl, 1985): "precisamente porque se carece de control experimental total, es
imprescindible que el investigador tenga un conocimiento a fondo de cuales son
las variables específicas que su diseño particular no controla"
(Campbell y Stanley, 1966, p. 71)
Tabla 1 - Tipos de Validez y sus
amenazas según Campbell y Stanley (1966)
Validez Interna |
Historia: acontecimiento específico
entre el pretest y el post-test |
Maduración: cambios debidos al mero paso
del tiempo e independientes del tratamiento |
|
Administración de tests: efecto de
la administración de un test sobre los resultados en otro posterior |
|
Instrumentación: cambios en los criterios de
evaluación o achacables a las características del instrumento |
|
Regresión Estadística: tendencia a
aproximarse a la media que ocurre en los grupos seleccionados por sus valores
extremos |
|
Selección: Diferencias entre los grupos
provocadas por una asignación sesgada de los sujetos a los tratamientos |
|
Mortalidad experimental: pérdida
diferencial de participantes entre los grupos de comparación |
|
Interacción entre selección y otras amenazas |
|
Validez Externa |
Interacción entre las pruebas y el tratamiento: cambio en la sensibilización de los sujetos experimentales
provocado por el pretest |
Interacción entre selección y tratamiento: se refiere a aquellos casos en los que los resultados observados
pudieran ser específicos de la situación investigada |
|
Otras interacciones con el tratamiento: referidas a los factores que podían afectar a la Valdez Interna,
tales como maduración, historia, mortalidad, etc. |
|
Efectos reactivos de los dispositivos experimentales: cambios en la reacción de los sujetos como consecuencia de las
condiciones experimentales |
|
Interferencia
entre tratamientos múltiples: efectos que pueden ejercer
antiguos tratamientos aplicados al grupo experimental cuando se le aplican
varias intervenciones |
El segundo concepto fundamental que se
plantea en la obra de Campbell y Stanley con respecto a la Validez de la investigación
causal es el de Validez Externa, término éste que hace referencia a la
posibilidad de generalización de los resultados obtenidos en un estudio
determinado a otras condiciones (poblaciones, situaciones, variables de
tratamiento y variables de medición) diferentes. Puesto que esa generalización
siempre parte de unos datos concretos, se basa en un proceso inductivo,
procedimiento éste denunciado desde hace siglos como particularmente poco
fiable. Como indican Campbell y Stanley (1966, p. 39), "Desde el punto de vista lógico no
podemos generalizar más allá de dichos límites (las características
específicas de la investigación original); es
decir, no podemos generalizar en absoluto". Si embargo, la
generalización de conocimientos se ha basado, generalmente, en la experiencia y
el sentido común, y en lo que los autores denominaron una "ley general
empírica": "cuanto más cercanos
se hallan dos acontecimientos en tiempo, espacio y valor (...) más tienden a ajustarse a las mismas leyes"
(Campbell y Stanley, 1966, p. 40). Téngase en cuenta que para resolver los
problemas de Validez Externa no siempre es posible acudir a procedimientos
probabilísticos, ya que los mismos sólo son aplicables a algunos de sus
componentes (por ejemplo a la muestra de casos), pero no a todos (por ejemplo,
el instrumento de medida o el tiempo).
La concepción de Validez Externa planteada
por Campbell y Stanley es menos homogénea que la de Validez Externa, lo que ha llevado
a muchos autores a subdividirla en diversos componentes independientes entre sí
(Ver Aliaga 1992-1993). Así, entre dichos componentes de la Validez Externa se
ha hecho referencia a la Validez de Población (representatividad de casos o
sujetos), Validez ecológica (representatividad de la situación), etc.. Para Snow (1963), la Validez
Externa es el resultado conjunto de la validez de población, de la validez
ecológica y de la por él denominada "generalidad referente". Para
Kratochwill (1978) se incluirían como componentes de la Validez Externa la
validez de población, la generalización de grupos a individuos y la validez
ecológica). Cone, (1977), siguiendo a Wiggin (1973), considera generalización
de las puntuaciones, de los elementos, temporal, de las situaciones, del método
y de las dimensiones. Otros autores han hablado de Validez
de Variables, Generalización del instrumento de medida, Validez de constructo,
Validez de tratamiento, etc.
Para verificar la generalización de las
conclusiones causales de un determinado estudio, algo de particular importancia
para disciplinas aplicadas como es el caso de la Educación, Campbell y Stanley
proponen dos vías. Por un lado la representatividad
de las muestras (aunque la capacidad de hacer muestreos representativos, como
hemos dicho, está limitada sólo a algunos de los componentes de la Validez
Externa). Se trata de un método que plantea diversos problemas prácticos, por
lo que ha de ser considerado más bien como un desideratum (p. 43). El otro procedimiento, por lo demás propio de
ciencias más avanzadas, es la replicación
de los estudios (p. 40)
Otro aspecto de gran relevancia en el modelo
de validez planteado por Campbell y Stanley se refería a la prioridad dada por
ellos a la Validez Interna (considerada como una condición sine qua non) sobre la Validez Externa, ya que sin seguridad en la
existencia de una determinada relación causa no tiene sentido considerar su
posible generalización, aunque esta concepción ha sido duramente criticada (por
ejemplo, Cronbach, 1982)
Fruto de un análisis más minucioso de las
circunstancias y conceptos del modelo planteado por Campbell y Stanley, se
reformuló (más bien habría que decir que se especificó) dicho modelo al cabo de
casi tres lustros en un libro de gran importancia que apareció en 1979 (Cook y
Campbell). La aportación principal de este nuevo planteamiento es que, a fin de
lograr una mayor claridad, se dividió cada uno de los dos tipos de Validez
propuestos anteriormente en otros dos nuevos subtipos, al darle una mayor
entidad a alguna de las características que constituían los conceptos
originales, lo que produjo una nueva tipología de cuatro tipos de validez:
Evolución
desde Campbell y Stanley (1966) a Cook y Campbell (1979)
A) Validez de la conclusión estadística: puesto que la covariación es una condición
necesaria para poder determinar una relación causal, el nivel de seguridad que
podamos tener en que tal variación conjunta existe es de considerable
importancia, lo que justifica que este concepto se desligase del resto del
concepto de "Validez interna", tal y como había sido definido por
Campbell y Stanley (referente a si la relación entre dos variables, tal y como
se habían operacionalizado, era causal. De hecho, los problemas de la validez
de la conclusión estadística se habían considerado previamente como amenazas a
la validez interna. Sin embargo, el hecho de que la covariación no siempre
implica relación causal y de que los procedimientos para determinar si podemos
determinar que tal covariación existe y en qué magnitud suelen ser
estadísticos, e independientes del diseño en cuanto tal, Cook y Campbell
decidieron añadir esta categoría como diferenciada del resto del concepto de la
Validez interna, a la que, como veremos, le dan un significado más específico.
Las amenazas a la Validez de la Conclusión estadística están relacionadas
fundamentalmente con las fases de medición y análisis de datos
B) Validez Interna: El concepto de Validez Interna en el modelo
de Cook y Campbell (1979) se centra específicamente en determinar si la
relación encontrada entre las variables (suponiendo que tal relación tenga una
buena Validez de la Conclusión estadística) es de tipo causal, y en tal caso,
cual es la dirección de dicha relación causal. Ha de tenerse presente que las
conclusiones sobre esta posible relación causal se establece exclusivamente,
como ya mantenía el modelo anterior, entre las variables tal y como han sido
operativizadas en la práctica de la investigación ("en este caso experimental concreto", en palabras de Campbell y
Stanley, 1966, p. 16). A las amenazas a la validez interna ya conocidas en el
modelo anterior se suman algunas más, tales como la ambigüedad sobre la dirección de la relación causal, la difusión o imitación de tratamientos, la igualación compensatoria de tratamientos
(cuando dejar "sin nada" al grupo control parece inadecuado y se les
concede algún bien o servicio), la
rivalidad compensatoria de los sujetos (esto es, el efecto competencia que
se puede desatar en el grupo control) o la
desmoralización o resentimiento de los sujetos que reciben menor cantidad de
tratamiento deseable. Curiosamente, algunas de estas nuevas amenazas
introducidas por Cook, con la aprobación de Campbell, en el nuevo modelo -
particularmente la desmoralización- no
cumplen con la característica original que había definido los sesgos de la
denominada Validez Interna, es decir, que no pueden ser controlados mediante la
asignación aleatoria. Esto hace que posteriormente Campbell (1986, p. 67)
considere que alguna de estas amenazas (incluso puede que todas) no sean
específicamente de la validez interna, sino de la de constructo.
Tabla 2 - Amenazas a la Validez de la
investigación en Cook y Campbell (1979)
Validez de la conclusión
estadística |
Baja potencia estadística Violación de los supuestos
de las pruebas estadísticas Violación del error tipo I Fiabilidad de la medición de
la respuesta Fiabilidad de la
administración de los tratamientos Irrelevancias aleatorias del
contexto de investigación Heterogeneidad aleatoria de
las unidades de respuesta |
Validez Interna |
Historia Maduración Administración de pruebas Instrumentación Regresión estadística Selección Mortalidad Selectiva Interacciones con la
selección Ambigüedad en la dirección
de la relación causa-efecto Difusión e imitación de
tratamientos Igualación compensatoria de
tratamientos Rivalidad compensatoria de
los sujetos Desmoralización de los
sujetos |
Validez de constructo |
Explicación preoperacional
inadecuada. Sesgos derivados del uso de
una operación única Sesgos derivados del uso de
un solo método Adivinación de hipótesis Recelo de evaluación Expectativas del
experimentador Confusión de constructos y
niveles de constructo. Interacción de tratamientos
intrasujeto Interacción de
administración de pruebas y tratamiento Generalidad restringida
entre constructos |
Validez externa |
Interacción
selección-tratamiento (validez de población) Interacción
contexto-tratamiento (validez ecológica) Interacción
historia-tratamiento (validez histórica) |
C) Validez de constructo de las causas y los efectos: Cuando
Campbell y Stanley (1966) se refieren a la validez externa afirman que esta se ocupa
de la posibilidad de generalizar a "otras poblaciones, situaciones,
variables de tratamiento y variables de medición " (p. 16). En la
reformulación planteada por Cook y Campbell (1979) - aunque el propio Campbell
(1986) confiesa que realmente la propuesta es de Cook - las dos últimas
generalizaciones se independizan y toman entidad propia. En efecto, ya Campbell
y Stanley habían insistido repetidamente en que las relaciones causales
encontradas en una investigación determinada se limitaban, exclusivamente, a
las operacionalizaciones específicas de la Variable Dependiente y la Variable
Independiente "en este caso
experimental concreto" (Campbell y Stanley, 1966, p. 16). Por tanto,
la generalización desde esas operacionalizaciones concretas a otras formas de
entender (operacionalizar) dichas variables era un proceso que no debía
asumirse sin más de modo automático. Debe resaltarse que mientras que la "validez interna tiene que ver con la
eliminación de explicaciones alternativas de la supuesta relación causal entre
X tal y como es manipulada y O tal y como es medida, la Validez de Constructo
se ocupa de eliminar las explicaciones alternativas de las supuestas categorías
de X y O" (Cook, Campbell y Peracchio[2],
1990, p. 495).
Esta idea de Validez de Constructo está íntimamente relacionada con el
concepto de "Confundido",
que hace referencia a la circunstancia de que un mismo hecho, una misma
operacionalización, puede ser entendida como perteneciente a dos categorías o
constructos teóricos diferentes, de tal modo que las variables que realmente
mantienen una relación causal pueden estar enmascaradas o confundidas con otras
que no tienen ese tipo de relación, pero que son coherentes con las
operacionalizaciones utilizadas en la investigación. Shadish, Cook y Houts
(1986) informan, por ejemplo, de los resultados obtenidos por Coleman (1972) en
su análisis sobre la igualdad de oportunidades educativas. Dependiendo del modo
en que se hubiera operacionalizado en cada investigación la variable
"calidad escolar" (como tamaño de la clase, gastos por alumno,
antigüedad de las instalaciones y el material, aislamiento acústico, etc.)
encontraba resultados diferentes de dicha variable. Otros ejemplos del efecto Confundido son el efecto Hawthorne, el efecto Pigmalión o el efecto placebo (Ball,
1997). Para solventar este problema de generalización desde las causas o las
consecuencias tal y como las hemos medido y/o manipulado a los conceptos de los
enmarcan Cook y Campbell (1979) proponen un doble proceso, basado en la matriz
multirrasgo-multimétodo de Campbell y Fiske (1959):
a) comprobar la convergencia a través de diferentes
medidas o manipulaciones del mismo constructo. Es la parte más importante (y
empíricamente a veces casi la única: Cook y Campbell, 1979, p. 61).
b) comprobar la divergencia respecto de los resultados
obtenidos con medidas o manipulaciones de constructo parecidos pero distintos.
La validez de constructo tiene un amplio
listado de amenazas identificadas (ver tabla 2), que Ato (en Anguera et al.,
1995) ha dividido en dos grandes grupos, a las que nosotros hemos asignado
todas ellas (Ato sólo clasifica siete de las diez amenazas citadas por Cook y
Campbell, 1989):
a) Sesgos de operacionalización de las
causas y los efectos:
1) explicación
preoperacional inadecuada: esta amenaza puede estar presente cuando la
elección de la definición operativa de una variable no se realiza a partir de
un cuidadoso análisis conceptual de la misma, y por tanto no se adecua
exactamente a la definición constitutiva (Kerlinger, 1975) del constructo.
2) sesgos por el
empleo de una única operación: puesto que definir operativamente un
constructo o variable puede ser inadecuado (no tener validez de contenido o ser
incompleta, estar sesgada, ser incorrecta) siempre es preferible utilizar
diversos procedimientos, lo que nos permitirá triangular los datos y captar
mejor el significado de la variable. Esta es una amenaza derivada de no
comprobar la convergencia a la que
hacíamos referencia anteriormente.
3) sesgos
derivados de utilizar un solo método: esta amenaza puede presentarse
cuando, independientemente de que se operacionalice de una o varias formas,
todas ellas utilizan un mismo procedimiento (sólo técnicas de lápiz y papel o
sólo procedimientos para evaluar la reactividad fisiológica). En tales casos,
el propio método puede conllevar un sesgo sistemático que nos impida
aprehender adecuadamente el constructo
que nos interesa.
4) Confusión
entre constructos y niveles de constructo: ocurre en aquellos casos en que
un determinado constructo sólo se relaciona con otro cuando alcanza un
determinado nivel, pero el investigador no es capaz de descubrirlo porque no
llega a sobrepasar dicho umbral. Un ejemplo simplificado podría ser el de un
presunto investigador que concluyese que la temperatura no afecta al estado
físico del agua, porque lo ha modificado desde los 10o centígrados
hasta los 90o sin obtener resultados. En el mismo sentido, puede
haber problemas para generalizar los efectos de la utilización de un sistema de
educación compensatoria (o la ausencia de los mismos) si éstos consistían
exclusivamente en una hora semanal de apoyo, cuando hubiera sido necesaria una
mayor intensidad del tratamiento para conseguir algún resultado apreciable.
5) interacción
entre diferentes tratamientos: se refiere a la posibilidad de que los
efectos de un determinado tratamiento aplicado con anterioridad al grupo
experimental interfieran con los del tratamiento actual, por lo que
malinterpretemos los efectos producidos por este último, que no podrán
generalizarse a otras condiciones.
6) interacción
entre la administración de pruebas y el tratamiento: se refiere a los
sesgos que la aplicación de un pretest puede provocar en los sujetos
(sensibilización), consiguiendo efectos diferentes a los que se conseguirían en
una situación natural, diferente de la investigación en que carece de esos
controles previos
7) generalizabilidad
a través de los constructos: se refiere a los posibles efectos, no
considerados en el diseño previo, que un tratamiento puede tener entras
variables o constructos distintos a la variable dependiente.
b) Sesgos de reactividad de las unidades
de respuestas (sujetos o casos)
1) adivinación
de la hipótesis: los sujetos que participan en una investigación con
frecuencia pretenden adivinar qué es
lo que el investigador pretende de ellos, y en un proceso que la psicología
social ha denominado deseabilidad social, adaptarse a dichas expectativas, más
que a responder directamente al tratamiento que, realmente, se le administra.
2) aprensión a
la evaluación (o efectos reactivos de la observación): indica la propensión
de los sujetos a cambiar su comportamiento cuando saben que están siendo
evaluados u observados (es la aplicación blanda
en las Ciencias Humanas del Principio de Incertidumbre de Heisenberg
en la Física).
3) expectativas
del experimentador: también conocido con el nombre de efecto Rosenthal (por su descubridor), efecto Pigmalión o, en sentido inverso, efecto Golem (Cfr. Ball, 1997). Aunque su auténtico alcance ha sido
puesto en duda, está relacionado con los sesgos que de modo más o menos
insconsciente puede intentar auto-cumplir sus predicciones.
D) Validez Externa: El concepto de validez externa en Cook y
Campbell (1979) ha quedado como una categoría residual, referida a la
generalización de los resultados a través de diversos componentes, los no
incluidos en la Validez de Constructo de
causas y efectos, básicamente los sujetos y las situaciones, a los que se
ha añadido la dimensión temporal. Consecuentemente, las amenazas también han
quedado reducidas sustancialmente, quedando fundamentalmente en tres:
a) interacción
de selección y tratamiento: esta amenaza se refiere a la posible limitación
de la generalización de resultados a sujetos o poblaciones no directamente
incluidas en la investigación, es decir, mantienen presente la posibilidad de que las relaciones causales
identificadas sean especificas de los sujetos directamente analizados.
b) interacción
de situaciones y tratamiento: En este caso las limitaciones a la generalización
de los resultados de la investigación puede venir de la especificidad de la
relación causal en la situación específicamente considerada.
c) Interacción
de historia y tratamiento: en este caso se considera que las limitaciones a
la generalización de las relaciones causales pueden estar directamente
vinculadas con el momento temporal, de modo que suponer que tal relación causal
existió en el pasado o se mantendrá en el futuro, al ir más allá de lo
expresamente descubierto, tiene una alta dosis de suposición no contrastada.
Son varios los procedimientos que Cook y
Campbell (1979) analizan para procurar aumentar la Validez Externa de una
investigación. En primer lugar se consideran diversos tipos de muestreo, que
incumben tanto a sujetos como a situaciones, pero que no considera, obviamente,
la dimensión temporal:
a) muestreo
aleatorio: este muestreo aleatorio es el que mejor procura la
representatividad de los resultados, y por tanto, el que nos ofrece mayores
garantías para generalizar los resultados a otras situaciones o sujetos
pertenecientes a la población global. Sin embargo, plantea serios problemas
prácticos, fundamentalmente debido a que las circunstancias no siempre permiten
hacer un muestreo de este tipo, o a que cuando se realiza las muestras suelen
estar muy dispersas.
b) muestreo
heterogéneo deliberado: consiste en procurar incluir en el estudio un
amplio rango de sujetos y circunstancias de tal modo que abarquen la mayor
amplitud posible, aunque esta idea no debe entenderse como selección exclusiva
de los casos extremos, sino que han de incluirse también casos
"típicos". Este procedimiento es mucho más asequible que el
aleatorio, y aunque técnicamente no se puede generalizar a partir de sus
resultados, la amplia gama considerada nos permite hacernos una idea global de
las relaciones estudiadas en las diversas modalidades posibles.
c) muestreo
impresionista de categorías o modos:. Consiste en determinar las clases o
categorías a las que queremos generalizar (cursos o municipios) y elegir al
menos un elemento de cada una de esas modalidades, a fin de obtener una
impresión general. Este tipo de procedimiento es útil en aquellos casos en los
que las pretensiones de generalización son limitadas, y particularmente en
investigación aplicada, ya que no es útil para establecer un conocimiento
teórico ampliamente generalizable.. Es el procedimiento menos poderoso de los
tres tipos de muestreo, pero tiene como ventajas principales su simplicidad y
economía.
Hay, sin embargo, un último procedimiento
para asegurar la generalización de los resultados: la replicación. Mediante
este método conseguimos establecer si los datos avalan la generalización de los
resultados cuando algunas de las condiciones (sujetos, situaciones o tiempo) es
modificada. Por tanto, es un procedimiento con respaldo empírico, en lugar de
acudir a la justificación teórica o racional más propia de los tipos de
muestreo.
Aunque, como hemos repetido, los modelos más
influyentes sobre validez de investigación han sido los creados por Campbell y
sus colaboradores, diversos modelos alternativos han sido planteados por otros
autores. De ellos el que ha tenido un mayor eco en la comunidad científica ha
sido el de Cronbach, un modelo de notable complejidad de análisis que vino a
aportar una visión algo diferente de la validez de las investigaciones. Otras
aportaciones interesantes, aunque han tenido un menor predicamento, son las de
Krathwoll (1985), Kruglanski y Kroy (1976) o el de Reichardt (1986, citado en
Mark, 1986), que es una variación del de Cronbach (Ver Mark, 1986 para una
análisis e integración de las diversas propuestas).
Por problemas de extensión de este trabajo
vamos a centrarnos fundamentalmente en el trabajo de Cronbach (1982), que es
probablemente el modelo sobre validez más elaborado y de mayor interés entre
los que se han construido como alternativa a los de Campbell y sus
colaboradores (Campbell y Stanley, 1966; Cook y Campbell, 1979). En su modelo
Cronbach distingue cuatro tipos de elementos diferentes en una investigación:
- Unidades: suele referirse a los sujetos experimentales, ya
sean estos individuos, grupos, centros escolares, etc.
- Tratamiento: es la presunta causa, es decir, aquello que
manipula (o selecciona) el investigador.
- Observación: de manera general se refiere al presunto efecto
en la relación causal, que no se manipula sino que únicamente se mide.
- Situación: se refiere al "contexto social, entendido en
un sentido amplio, en el que el estudio tiene lugar" (Cronbach, 1982, p.
79). Por tanto, incluye desde el clima
social, económico, ideológico o político hasta el momento temporal específico.
Algunos autores (por ejemplo, Cook, Campbell y Peracchio, 1990, Ato en Anguera et al., 1995) han dividido este concepto
en dos diferentes, uno sobre las condiciones en las que se realiza propiamente
la investigación (el contexto o situación) y otro referido específicamente al
momento temporal, en el sentido dado por Cook y Campbell (1979) a este
concepto, cosa que compartimos, ya que puede darse el caso de que una misma
investigación se realice en un mismo contexto (por ejemplo, en un mismo colegio
público entre alumnos de la misma asignatura) pero que los resultados sean
distintos debido a los cambios más intangibles que puedan deberse al paso del
tiempo (cambios en la ideología, la legislación, etc.).
Crombach utiliza las iniciales de estos
elementos de distintas maneras según el grado de especificidad. Así, por
ejemplo, utiliza el término UTOS, en
mayúsculas, para referirse a los constructos que son objeto de investigación,
bien entendido que en un nivel abstracto (al añadir el momento temporal en uno
de los elementos relevantes de la investigación Cook, Campbell y Peracchio,
1990 convierte esas iniciales en UTOSCH,
al representar el tiempo como CH, del griego chronos; Ato, en Anguera et al., 1995, ha traducido ingeniosamente
los términos al castellano dando lugar al acrónimo TRUCO -Tratamiento, Respuesta, Unidades, Contexto y Ocasión o
momento temporal- que facilita el proceso mnemotécnico).
Cook y Campbell (1979) habían puesto de
relieve las dificultades de interpretación que pueden presentarse al
operativizar, en la práctica, los distintos constructos. Cronbach (1982)
profundiza en esta idea y utiliza el término utoS para referirse a los elementos concretos incluidos en la
investigación. Así, la u hace
referencia a la muestra de unidades (generalmente se refiere a los sujetos
concretos) que son directamente analizados en la investigación; la t se refiere al modo específico en que
se ha operacionalizado la variable tratamiento y la o a la forma en que se ha medido la variable dependientes. Ha de
hacerse notar que Cronbach (1982) siempre utiliza la S de la situación en mayúsculas ya que, atendiendo a la
clasificación fisheriana de los términos de un análisis de varianza, la
situación (y habrían que incluir también el tiempo) es un factor fijo, en el
sentido de que sólo hay uno en cada estudio, mientras que los demás términos
pueden ser factores aleatorios (p. 86).
En un tercer nivel de especificidad, Cronbach
utiliza los *UTOS para referirse a
aquellas condiciones a las que podríamos estar interesado en generalizar los
resultados obtenidos al investigar los utoS específicos de una investigación,
pero que difieren de las poblaciones de referencia (los UTOS) en alguna o
algunas características (por ejemplo, otras poblaciones, contextos diferentes,
efectos distintos, o tratamientos parecidos).
Ilustración 2 - Relación entre los modelos de
Campbell y Stanley (1966), Cook y Campbell (1979) y
Cronbach (1982)
Adaptado a partir de Cronbach (1982) y Ato, en
Anguera et al.(1995)
Puesto que existen tres niveles diferentes de
concreción-generalización, Cronbach (1982) plantea dos tipos deferentes de inferencia,
según las relaciones que deseemos establecer a partir de las posibles
relaciones causales identificadas en una investigación concreta. En primer
lugar, el establecimiento de relaciones que puedan existir entre los utoS y los
UTOS (es decir, las operaciones o muestras con los constructos o poblaciones
que pretenden representar) son denominadas por Cronbach Inferencias Internas, y la seguridad que podemos tener en tal
relación es denominada Validez Interna.
En segundo lugar, la relación entre los utoS y los *UTOS (o sea, entre los
casos específicos y los constructos o poblaciones ligeramente diferentes a
aquellos que pretendían representar) recibe el nombre de Inferencias Externas, y el grado de credibilidad o seguridad en tal
relación es denominada Validez Externa.
Puesto que Cronbach está especialmente interesado en la utilidad práctica de
las investigaciones, concede una importancia prioritaria a estos dos tipos de
inferencias, particularmente en las inferencias externas, ya que como señala
"normalmente sólo una pequeña
fracción de la audiencia está interesada en los UTOS que define el estudio"
(p. 99). En efecto, para ser aplicado, los lectores de la investigación
normalmente habrán de preguntarse cosas como "¿funcionará este programa de
lectoescritura en nuestro idioma (*S), con nuestros alumnos (*U), tal y como
nosotros evaluamos el rendimiento (*O) y adaptado para que lo apliquen nuestros
profesores (*T)?. Es decir, las aplicaciones de los resultados han de hacerse
con frecuencia a condiciones diferentes a las estudiadas y, en el caso de la
investigación aplicada, este proceso es el prioritario, ya que los responsables
de tales tomas de decisión no suelen ser tan puntillosos respecto a la
seguridad con que se haya establecido la relación causal, sino que están más
bien interesados en la aplicabilidad de los descubrimientos.
Como podemos comprobar, Cronbach utiliza
algunos conceptos acuñados por Campbell y sus colaboradores (fundamentalmente
el término de Validez Interna) en un sentido distinto, lo que ha producido
cierta confusión, lo cual, añadido a la complejidad del modelo ha propiciado
que no se haya difundido demasiado, excepto entre los especialistas.
Otra de las críticas que se han realizado
contra este modelo se refiere al excesivo esquematismo dado al tema de la
generalización (Mark, 1986). Es bien cierto que Cronbach tiene razón al
plantear que las aplicaciones prácticas de las investigaciones con frecuencia
requieren su generalización a situaciones o condiciones que varían, en mayor o menor
grado, de las poblaciones o condiciones analizadas inicialmente. Sin embargo,
no hay razón alguna para mantener que esa mayor diversidad deba plantearse en
sólo dos niveles (UTOS y *UTOS), sino que, en nuestra opini9ón, más bien debe
ser concebida como un continuo (Mark, 1986, p. 52).
A pesar de la complejidad del modelo de
Cronbach (1982) y de su limitada difusión, su contribución a la aclaración del
tema fue importante, básicamente porque obligó a reflexionar sobre los modelos
existentes y a introducir algunos cambios que permitiesen aclarar el campo.
Así, por un lado, ya hemos citado la consideración que la dimensión temporal de
las conclusiones causales fue tomando, lo que hizo que se incluyese incluso en
el modelo ampliado que se deriva del propuesto inicialmente por Cronbach (1982)
y que hemos representado en la ilustración 2.
Entre las reacciones más importantes que
produjo el modelo de Cronbach (1982), aunque hubo algunas otras razones que
justificaron el cambio (ver Cook y Shadish 1994), cabe citar la reformulación
que hizo Campbell (1986) de algunos de los conceptos incluidos en sus propios
modelos. Así, como una reacción al hecho de que muchos autores solían
considerar, erróneamente, (a pesar de lo indicado por el de modo explícito) que
el término de Validez Interna se refería al nivel de seguridad que podíamos
tener en que existía una relación causal entre dos conceptos (por ejemplo "un Programa de
Enriquecimiento Instrumental mejora el rendimiento académico"), Campbell
propone cambiar el nombre de Validez Interna por otro que especifique, de modo
más detallado, las características que tiene dicho concepto. La alternativa que
ofrece es la de pasar a denominarla Validez
Causal Local Molar. Con esta nueva denominación pretende hacer hincapié en
algunos aspectos esenciales, representados por cada uno de los términos
empleados:
- Causal: se refiere a que este tipo de
Validez ha de centrarse fundamentalmente en que las relaciones analizadas sean
realmente de tipo causal.
- Local: hace referencia exclusivamente a
que el nivel de relación causal se establece exclusivamente entre la t y la o del modelo de (la t y
la r en el modelo traducido del
esquema truco). Recordemos que ya en
Campbell y Stanley (1966), se referían a la Validez Interna como los cambios
que introducían "los tratamientos
empíricos en este caso
experimental concreto" (p. 16; el subrayado es nuestro). Existe
en esta nueva conceptualización, por tanto, un rechazo implícito a la postura de
Cronbach (1982) que no sólo incluye en el concepto de Validez Interna los
Constructos T y O, sino incluso los de U
y S)
- Molar: implica que las relaciones
causales identificadas en el nivel más bajo de operacionalización han de
entenderse como el resultado de la interacción global entre todos los elementos
implicados (sujetos, contexto, forma de manipular el tratamiento, modo de
observar los resultados, etc.) más que como el efecto de alguno o algunos de
dichos microelementos aisladamente. Dicho de otro modo, lo que se determina no
es si esta causa provoca esta consecuencia, sino si tal relación acontece para
estos sujetos determinados en estas circunstancias concretas y en este preciso
momento temporal.
Campbell (1986) no sólo propuso cambiar el nombre
de la Validez Interna, sino que su afán clarificador de conceptos le hizo
proponer igualmente un cambio de denominación para la Validez Externa. Como
respuesta a los dos niveles de inferencia (interna y externa) planteados por
Cronbach (1982), Campbell propone modificar el concepto de Validez Externa y
sustituirlo por el de Gradiente de
Semejanza (Proximal Similarity),
como parte de un proceso de reflexión que le lleva a alejarse cada vez más de
los procedimientos basados en procurar la representatividad a través del
muestreo. Por un lado debido a que tal tipo de muestreo es impracticable para
algunos componentes de la investigación, como el tiempo. Por otro porque esa
misma dimensión temporal, aparte de otras, afecta a la representatividad del
resto de componentes: ¿un muestreo aleatorio de sujetos - o de escuelas, o de
aulas- puede seguir considerándose representativo de cómo es la población de
referencia diez o quince años después de realizado el estudio?. Por último,
razones de tipo práctico (económicas, geográficas, etc.) recomiendan la
utilización de muestreos ilustrativos (impresionistas, tal y como los
denominaban Cook y Campbell, 1979) orientados por alguna teoría específica en
lugar de los muestreos aleatorios de poblaciones amplias, cuyo abandono
formalmente recomienda Campbell (1986, p. 73). Mark (1986) y, de modo especial,
Shadish, Cook y Houts (1986) abogan por una planteamiento semejante, en el que
las inferencias se construyan no a través de procedimientos de estadística
inferencial sino a través de la integración de la información proveniente de
diversas fuentes (p. 43).
Por tanto, y como resumen, Campbell reformula
en 1986 su tipología de la validez de la investigación causal de tal modo que
decanta su antigua Validez Interna (ahora denominada
Validez Causal Local Molar) hacia una concepción más empírica y menos
teórica, mientras que impulsa su antigua Validez Externa (ahora Gradiente de Semejanza) hacia un modelo
más guiado por la teoría específica de cada estudio y menos por procedimientos
aleatorios más o menos automatizados.
Otros planteamientos han puesto de manifiesto
algunos problemas con los que se enfrenta la investigación causal. Por ejemplo,
Mark (1986) en su excelente trabajo integrador de las diversas tipologías de
validez, señala que el intentar asegurar una alta validez en el establecimiento
de las relaciones causales puede carecer de utilidad práctica, tal y como ya
había señalado anteriormente la postura de Cronbach, mucho más interesado por
la trascendencia práctica de las investigaciones que por el nivel de seguridad
en la conclusiones.
Cook y Shadish (1994) señalan que las
tipologías de validez no están (ni probablemente puedan llegar a estar)
completas. Siguiendo a Dunn (1982) reconocen que la cantidad de tipos de validez
es ilimitada: ¿porqué separar la validez de constructo de la validez externa,
como hacen Cook y Campbell en 1979, y no hacer lo propio con la validez de
población, o la ecológica o la temporal, por ejemplo?. Cook, Campbell y
Peracchio (1994) presentan un listado de amenazas a la validez de investigación
que, aunque basada en las propuestas anteriores de Campbell y Cook (1979), que
a su vez se basaba en la de Campbell y Stanley (1966), presenta ciertas
modificaciones, fundamentalmente respecto a la categoría a la que se asigna
cada tipo de amenaza, lo que nos sugiere que tampoco es éste un campo
completamente cerrado (Ver Tabla 3).
Tabla
3- Evolución de las clasificaciones de amenazas a la validez en los diversos
modelos de Campbell y Cols.
|
Campbell y
Stanley (1966) |
Cook y
Campbell (1979) |
Cook, Campbell
y Peracchio (1990) |
Validez
Interna |
Historia Maduración Administración de
tests Instrumentación Regresión Selección Mortalidad
experimental Interacción
entre selección y otras amenazas |
Historia Maduración Administración de
pruebas Instrumentación Regresión estadística Selección Mortalidad Interacciones con la
selección Ambigüedad en la
dirección de la relación causa-efecto Difusión o imitación
de tratamientos Igualación
compensatoria de tratamientos Rivalidad
compensatoria de los sujetos Desmoralización de los
sujetos |
Historia Maduración Administración de
pruebas Instrumentación Regresión estadística Selección Mortalidad Interacciones con la
selección Ambigüedad en la dirección
de la relación causa-efecto |
Validez de Conclusión
Estadística |
Baja potencia
estadística Violación de los
supuestos de las pruebas estadísticas Violación del error
tipo I Fiabilidad de la
medición de la respuesta Fiabilidad de la
administración de los tratamientos Irrelevancias
aleatorias del contexto de investigación Heterogeneidad
aleatoria de las unidades de respuesta |
Baja potencia
estadística Violación del error
tipo I Fiabilidad de las
medidas Fiabilidad de la administración
de los tratamientos Irrelevancias
aleatorias del contexto Heterogeneidad
aleatoria de las unidades de respuesta |
|
Validez
Externa |
Efecto reactivo o de
interacción de los tests Interacción
selección-tratamiento Efectos
reactivos de dispositivos experimentales Interacción entre
tratamientos múltiples |
Interacción
selección-tratamiento Interacción
contexto-tratamiento Interacción
historia-tratamiento |
Interacción entre
tratamientos múltiples Interacción
medición-tratamiento Interacción
selección-tratamiento Interacción
contexto-tratamiento Interacción
historia-tratamiento |
Validez de Constructo
de Causas y
Efectos |
Explicación
preoperacional inadecuada. Sesgos derivados del
uso de una operación única Sesgos derivados del
uso de un solo método Adivinación de
hipótesis Recelo de evaluación Expectativas del
experimentador Confusión de
constructos y niveles de constructo. Interacción de
tratamientos intrasujeto Interacción de
administración de pruebas y tratamiento Generalidad
restringida entre constructos |
Explicación
preoperacional inadecuada. Sesgos derivados del
uso de una operación única Sesgos derivados del
uso de un solo método Interacción entre el
procedimiento y el tratamiento Difusión o imitación de
tratamientos Igualación
compensatoria de tratamientos Rivalidad
compensatoria de los sujetos Desmoralización de los
sujetos Adivinación
de hipótesis en de las condiciones exper. Recelo de evaluación Expectativas del
experimentador Confusión de constructos
y niveles de constructo. |
La utilidad de los modelos de Validez ha
sido, a pesar de la polémica, indudable, y ha permitido a los investigadores en
Ciencias Sociales centrarse en aspectos que en modelos anteriores pasaban
desapercibidos. Sin embargo, la creciente complejidad y fragmentación de los
modelos, así como la confusión con respecto al vocabulario empleado (con
distinto significado según los autores, y con diversidad terminológica para un
mismo concepto), puede estar a la base de la actitud conservadora que
detectábamos a la hora de revisar los textos españoles (y no sólo los
españoles) más recientes. Asumir sin más los cambios que en cada momento se van
proponiendo podría denotar que se está al día, pero también falta de criterio.
Por el contrario, el hecho de que tantos autores, cuya capacidad profesional no
puede ser puesta en duda, se resistan a utilizar los modelos mas actualizados
quizás sea una señal de que éstos deberían ser reconsiderados nuevamente,
quizás en la línea que ya hiciera Campbell (1986) de aclarar los conceptos
originales para evitar malentendidos (aunque la propuesta del cambio
terminológico nos parece excesiva), y evitar sucesivas y potencialmente
infinitas subdivisiones de cada concepto o modelo (Cook y Shadish, 1994,
reconocen que "no hay límites al número de posibles tipos de validez"
-p.553-), que tan sólo dificultan la comprensión global del problema
Por otro lado, y centrándonos en la
delimitación de los posibles problemas de la validez de investigación, el
intento de crear un modelo excesivamente simple, con un listado de amenazas
supuestamente cerrado ha conducido a ciertos excesos. Así, por ejemplo,
Cronbach ha señalado que muchas investigaciones, incluso las no causales, se
han visto innecesariamente complicadas al plagarse de controles para algunas
amenazas. Reichardt (1985), por su parte, señala algunos ejemplos en los que
algunas amenazas no se han detectado por acogerse demasiado rígidamente a los
esquemas de validez planteados. Estos excesos no son, sin embargo, achacables a
los modelos planteados, sino más bien a la utilización ciega (o excesivamente
rígida) que se ha realizado de los mismos. De hecho casi todos los modelos
sobre tipologías de validez iban acompañados de una advertencia sobre sus
limitaciones o su provisionalidad. Campbell (1986) afirma que su nuevo
planteamiento "es una reacción
dialéctica o una sobre-reacción. Confiemos en que la reformulación global
conduzca hacia la convergencia" (p. 76); Cronbach (1982) dice que el
suyo es "uno de los muchos esquemas
posibles" (p. 77), y Cook y Campbell (1979) mantienen que su modelo
está guiado por consideraciones prácticas, "lo cual no determina necesariamente razones lógicas para la
clasificación" (p.39). Por último, y de modo más claro todavía,
Campbell y Stanley (1966) en su capítulo final previenen sobre la utilización
rígida de los modelos o tablas por ellos planteados :"más bien habría que estimular una actitud abierta hacia la indagación
de los nuevos mecanismos de obtención de datos, y un nuevo análisis acerca de
algunas de las imperfecciones que acompañan a la aplicación rutinaria de los
(diseños) tradicionales (...) hemos llamado la atención sobre la
posibilidad de utilizar creativamente las características peculiares de
cualquier situación concreta de investigación al diseñar pruebas específicas de
hipótesis causales" (pp. 138-139).
La complejidad, e incluso confusión, del
estado actual de la cuestión justifican una actitud conservadora, al menos con
intenciones didácticas, ante los modelos de Validez que hemos de plantear, de
modo introductorio, a los alumnos, tal y como hacen los textos de autores
españoles que hemos analizado en la presentación y que están, en general,
orientados a ese tipo de público.
Creemos, sin embargo, que hemos de concebir,
y enseñar a los investigadores actuales y a los futuros, que el problema de la
validez de una investigación no puede resolverse con un libro de recetas
(Trochim, 1986), automáticamente, que el tema implica un amplio proceso de
reflexión sobre las circunstancias de cada caso. Por ello es interesante la
concepción de De la Orden (1998) de que nos enfrentamos, al realizar una
investigación en Ciencias Humanas, con un problema de falta de control de los
factores que pueden afectar a la misma, de tal modo que cada caso habría de
plantearse como una situación de resolución de los problemas específicos. En
este sentido, es particularmente ilustrativa la imagen, planteada por Shadish,
Cook y Houts (1986), de que debemos concebir la investigación y su validez como
el ajedrez, en el que difícilmente encontraremos dos partidas iguales, y en las
que a pesar de que hay ciertas reglas particulares (cómo se utiliza y para qué
sirve cada pieza) el resultado final (en el caso de la investigación, sus
conclusiones y su posibilidad de generalización) será el resultado de un
esfuerzo combinado y de una organización conjunta de todas las piezas a
disposición del investigador. Sólo esta flexibilidad, basada en el conocimiento
y en el sentido común, nos permitirá mejorar sustancialmente la investigación
educativa y, de paso, la deteriorada imagen de la misma.
Aliaga, F. (1998). Proyecto Docente. Universidad de Valencia.
Documento no publicado.
Anguera, M.T., Arnau, J., Ato, M. Martinez Arias, R., Pascual, J. y
Vallejo, G. (1995). Métodos de investigación en psicología. Madrid: Síntesis.
Ball, S. (1997). Unintended Effects in
Educational Research. En J.P. Keeves (Ed.), Educational
Research, Methodology and Measurement. An International Handbook. 2ª Edición. Londres: Pergamon.
Bisquerra, R. (1989). Métodos de
investigación educativa. Guía práctica. Barcelona: Ceac.
Buendía,L.; Colás, P y
Hernández Pina, F. (1997). Métodos de
investigación en Psicopedagogía. Madrid: McGraw-Hill.
Campbell, D.T y Fiske. D.W. (1959). Convergent and Discriminant
Validation by the Multitrat-Multimethod Matrix. Psychological Bulletin, 56, pp. 81-105.
Campbell, D.T. (1957). Factor Relevant to the Validity of Experiments in
Social Settings. Psychological Bulletin, 54 (4), pp. 297-312.
Campbell, D.T. (1974). Qualitative knowing in action research. Comunicación presentada en la
Reunión anual de la American Psychological Association, Los Angeles
California.
Campbell, D.T. (1986). Relabeling Internal and External Validity for
Applied Social Scientist. En W. Trochim (Ed.),Advances in Quasi-Experimental Design and Analysis. San Francisco:
Jossey-Bass.
Campbell, D.T. y Overman, E.S. (1988). Methodology and epistemology for social science: Selected papers.
Chicago: University of Chicago Press.
Campbell, D.T. y Stanley, J.C. (1963). Experimental and
quasi-experimental designs for research on teaching. En N.L. Gagé (Ed.) Handbook for research on
teaching. Chicago: Rand McNally.
Campbell, D.T. y Stanley, J.C. (1966). Experimental and quasi-experimental designs for research. Chicago: Rand McNally
(Traducción española: Diseños
experimentales y cuasiexperimentales en la investigación social. Buenos Aires:
Amorrortu. 1973).
Colás, Mª P. y Buendía, L. (1994).
Investigación educativa. 2ª edición. Sevilla: Alfar.
Coleman, F. (1972). The evaluation of Equality of Educational Opportunity. En F. Mosteller y
D.P. Moynihan (Eds.), On Equality of
Educational Opportunity. Nueva York: Random House
Cone, J.D. (1977). The relevance of reliability and validity for behavioral assessment. Behavior Therapy, 8, 411-426.
Cook, T. D. y Campbell, D. T. (1979). Quasi-Experimentation Design and Analysis Issues for Fields
Settings. Chicago: Rand McNally.
Cook, T. D. y Shadish, Jr., W. R. (1986). Program Evaluation: The World
Science, Annual Review of Psychology, 37,
pp. 139-232
Cook, T. D. y Shadish, W.R. (1994). Social experiments: some
developments over the past fifteen years. Annual
Review of Psychology, 45, pp. 545-580.
Cook, T. D.; Campbell, D.T. y Peracchio, L. (1990). Quasi
Experimentation. En M.D. Dunnette y L.M. Hough (Eds.), Handbook of industrial and Organizational Psychology, Vol 1,
pags. 491-576. 2ª Edición. Palo Alto (CA) Consulting Psychologist Press.
Cordray, D.S. (1986). Quasi-Experimental Analysis: A Mixture of Methods
and Judgment. En W. Trochim (Ed.),Advances
in Quasi-Experimental Design and Analysis. San Francisco: Jossey-Bass.
Coyle, S.; Boruch, R. y Turner (Eds.).(1991). Evaluating AIDS prevention programs: expanded edition.
Washington DC: National Academy Press.
Cronbach, L. J. (1974). Beyond the two disciplines of the scientific
psychology. Comunicación
a la asamblea de la A.P.A., 2 de Septiembre. (Traducción española en F. Alvira,
M .D. Avia, R. Calvo y F. Morales (Eds.)(1979): Los dos métodos de las Ciencias Sociales. Madrid: C.I.S.).
Cronbach, L.J. (1982). Designing
Evaluations of Educational and Social Programs. San Francisco: Jossey-Bass.
De la Orden, A (1998).
Comunicación personal.
Keeves, J.P. (Ed.) (1997). Educational Research, Methodology and Measurement. An International
Handbook. 2ª Edición. Londres: Pergamon.
Krathwohl, D. R. (1985). Social Behavioral Science Research. Berverly Hills: Sage.
Kratochwill, T.R. (1978). Single
Subject Research. Strategies for evaluating change. Nueva York: Academic
Press.
Kruglanski, A.W. y Kroy, M. (1976). Outcome validity in experimental
research: A reconceptualization. Representative
Research in Social Psychology, 7, pp. 166-178.
López-Barajas, E; López. E.
y Pérez Juste, R (1987). Pedagogía experimental I. Madrid: UNED.
Mark, M. (1986). Validity Typologies and the Logic and Practice of
Quasi-experimentation. En W. Trochim (Ed.), Advances
in Quasi-Experimental Design and Analysis. San Francisco: Jossey-Bass.
Meyer, M. y Conrad, S. (1992). The Case of Bilingual Education Strategies. Washington, D.C.: National Academy Press.
Pérez Juste, R. (1985). Diseño experimental. En A. De la Orden (Dir.),
Investigación educativa. Diccionario de
Ciencias de la Educación. Madrid: Anaya
Reichardt, C.S. (1985). Reinterpreting Seaver's
Study of Teacher Expectancies as a Regression Artifact. Journal of Educational Psychology, 77, pp. 231-236.
Reichardt, C.S. (1986). Estimating Effects. Manuscrito no publicado.
Departamento de Psicología, Universidad de Denver.
Sáez, A., Suárez, J.,
Aliaga, F. y Bo, R. (1994). La utilización de los procedimientos de
comparaciones múltiples en la investigación educativa en España. Revista de Investigación Educativa, Nº
23, 396-404
Shadish, W.; Cook, T.D. y Houts, A. (1986). Quasiexperimentation in a
Critical Multiplist Mode. En W. Trochim (Ed.), Advances in Quasi-Experimental Design and Analysis. San Francisco:
Jossey-Bass.
Snow, R.E. (1979). Diseños representativos y cuasirepresentativos para la investigación en
la enseñanza. En F. Alvira, M.D. Avia; R. Calvo y F. Morales (Eds.) Los dos
métodos de las Ciencias Sociales. Madrid: Centro de Investigaciones
Sociológicas.
Suárez , J.; Aliaga, F.; Orellana,N.;
Salavert, L.; Sáez, A.; Belloch, C. y Bo, R. (1995). La utilización de los
procedimientos de medida del cambio en la investigación educativa en España. En
AIDIPE, Estudios de investigación
Educativa en intervención Psicopedagógica. Valencia:
AIDIPE.
Trochim, W. (Ed.)(1986). Advances
in Quasi-Experimental Design and Analysis. San Francisco: Jossey-Bass.
Tuijman, A.C. y Keeves, J.P. (1997). Path
analysis and Linear Structural Relations Analysis. En J.P. Keeves (Ed.), Educational Research, Methodology and
Measurement. An International Handbook. 2ª
Edición. Londres: Pergamon.
U.S. General Accounting Office (1984). WIC evaluations provide some favorable but not conclusive evidence.
Washington D.C.: U.S. General Accounting Office
Walker, J.C. y Evers, C.W. (1997). Research in Education:
Epistemological Issues. En J. Keeves (Ed.) Educational
Research, Methodology and Measurement. An International Handbook. 2ª
Edición. Londres: Pergamon
Wienert, F.E. (1997). Translating Research into Practice. En J.P. Keeves
(Ed.), Educational Research, Methodology
and Measurement. An International Handbook. 2ª
Edición. Londres: Pergamon.
Wiggins, J.S. (1966). Substantive dimensions of self-report in the MMPI
item pool. Psychol. Monograph, 80,
630
********************************
Perfil Académico y Profesional
Profesor titular del Departamento de Métodos de
Investigación y Diagnóstico en Educación de la Universidad de Valencia (Avda.
Blasco Ibañez, 30). Sus principales áreas de interés en la actualidad son los
Métodos de Investigación Educativa y la utilización de la Nuevas Tecnologías en
la Educación y la Investigación (es el actual Webmaster de la Sociedad Española
de Pedagogía). Su dirección de correo es Francisco.Aliaga@uv.es.
Para más información puede visitarse su página Web http://www.uv.es/~aliaga
Aliaga,
F. (2000). Validez de la Investigación causal. Tipologías y evolución. Bordón, 52 (3), pp.301-321.
Disponible en http://www.uv.es/~aliaga/curriculum/Validez.htm |
[Volver a Página Principal] [Volver a Índice del curriculum]
[1] Las páginas a las que hacemos referencia al citar la obra de
Campbell y Stantley (1966) se refieren a las de la edición española de 1973,
más asequible para el lector, aunque respetamos la fecha del original para mejor
resaltar la influencia del paso del tiempo en los distintos modelos sobre
validez.
[2] Hemos sustituido los
términos A y B con los que en el original se refieren a las variables
dependiente e independiente por los términos X y O, respectivamente, mucho más
cercanos a la tradición experimental y a la notación utilizada por Campbell y
colaboradores