Salvador Amigó Borrás


Principal
Psicología
Ciencias sociales
Otras áreas
galeria de fotos

LOS SESGOS DEL CIENTÍFICO SOCIAL : SOBRE LA CIENCIA APARENTE Y REAL

 

Salvador Amigó Borrás

Universidad de Valencia

 

 

1.    Introducción

 

                Las ciencias sociales se erigen como disciplinas científicas al adoptar el método científico de las ciencias naturales, como la Física o la Química : el método hipotético-deductivo. En este método se destaca de forma importante la investigación experimental. A lo largo de la historia de la ciencia, se han desarrollado dos concepciones de la investigación experimental :

 

1.    La experimentación clásica de laboratorio, característica de las ciencias naturales, con un control óptimo de variables y condiciones físicas y de aislamiento de los materiales. Se trata, según Cook y Campbell (1986) de la tradición del control y el aislamiento experimental.

2.    La experimentación en ambientes naturales, característica de las ciencias sociales, en las que se sustituye el control y aislamiento experimental por el control estadístico de diferencias interindividuales basado, fundamentalmente, en la asignación aleatoria de sujetos a condiciones experimentales. Es lo que Cook y Campbell (1986) denominan tradición del control estadístico.

 

Como bien señalan Gómez y Hombrados (1993), la utilización de diseños experimentales en intervención social y comunitaria, no es un fenómeno nuevo, ya que en los años 30, autores como Fisher y Syrian los utilizaron para evaluar los efectos de intervenciones escolares y programas de promoción de conductas de higiene, respectivamente. Pero a partir de la Segunda Guerra Mundial, la experimentación se realiza exclusivamente en el laboratorio, donde se pueden controlar adecuadamente las variables dependientes e independientes. No será hasta bien entrada la década de los 70 cuando las críticas a la investigación de laboratorio y el desarrollo de la Psicología Social propician los primeros intentos de llevar la experimentación al campo de lo social.

                En este intento, quizá el autor que más ha contribuido a la difusión de la metodología experimental en el campo social ha sido Campbell, ya citado, que en 1969 propone la extensión de los métodos de la investigación básica al estudio de los problemas sociales, en lo que llamará experimentación social o innovación social experimental. Este autor, primero con Stanley (1966) y después con Cook (1979) analizaró una serie de diseños experimentales (o experimentos auténticos, como los experimentos de campo) y cuasiexperimentales apropiados para la intervención social.

Los cuasiexperimentos se aplican, al igual que los experimentos de campo, en ambientes naturales. A diferencia de estos, en los cuasiexperimentos no se manipula la variable independiente y/o no se asignan aleatoriamente a los sujetos a las condiciones experimentales. Podríamos decir que se trata de adaptaciones especiales de los experimentos verdaderos, tratando de separar los efectos debidos a la intervención de los producidos por las variables no controladas. Los cuasiexperimentos se pueden clasificar en dos grupos : preexperimentos y los propiamente cuasiexperimentos (grupo de control no equivalente y series temporales interrumpidas), diferenciándose en el grado de validez interna que alcanzan.

La teoría de la validez de la inferencia causal se debe, en gran medida, al grupo de Campbell, quienes se propusieron la exigencia de un mayor rigor en los diseños de investigación social de la época, que ofrecían pocas garantías en la elaboración de conclusiones sobre las relaciones causales y la generalización de los resultados. En las primeras formulaciones (Campbell y Stanley, 1966) se distinguía entre validez interna, que se refiere al grado de confianza en que se puede establecer una relación de causa-efecto entre dos o más variables de un experimento, y la validez externa, que se refiere al grado de confianza en que la relación de causa-efecto obtenida en un contexto experimental se puede generalizar a otros contextos. En posteriores formulaciones (Cook y Campbell, 1976, 1979) se incorporaron otros tipos de validez, como la validez de la conclusión estadística o la validez de constructo.             

                Según la metodología propuesta por el grupo de Campbell, hay que considerar tanto las amenazas a la validez interna (historia, maduración, etc.) como a la validez externa (sesgos en la selección de los sujetos, interacción contexto-tratamiento, etc.) a la hora tanto de diseñar como de obtener conclusiones de un cuasiexperimento, respecto al grado de inferencia de las relaciones causa-efecto o de representatividad de la misma. Se trata, por tanto, de infundir un mayor rigor científico a los experimentos en ambientes naturales.

                Y de eso vamos, precisamente, a ocuparnos aquí, del grado de rigor científico que presenta en la actualidad la investigación en ciencias sociales, centrando especialmente nuestro interés en la Psicología. Pero en realidad, nuestro objetivo va algo más allá, y se adentra en terrenos más subjetivos y epistemológicos. Así, cabe preguntarnos : ¿qué entienden los científicos sociales por estudios rigurosos y científicos ? ¿son los experimentos de laboratorio, donde la validez interna es máxima, los realmente científicos ? ¿No es acaso la validez interna, que nos da confianza de la relación causal entre las variables del estudio, más importante que la representatividad ? ¿Qué pasa, pues, con la investigación en ambientes naturales ? ¿Debe esta investigación asumir la tradición experimental del control y el aislamiento para considerarse realmente científica ? ¿Hay que concluir, definitivamente, que la investigación en ambientes aplicados, la cuasiexperimentación, es claramente menos científica que el experimento auténtico ?

                En este ensayo nos proponemos demostrar que las concepciones de lo que es científico o no, no son tanto resultado de un análisis riguroso y objetivo de los diseños de investigación y su alcance, sino también, y en buena medida, de las concepciones a priori, subjetivas, de lo que se considera o no científico. Por eso hemos titulado el ensayo los sesgos del científico social y no los sesgos en la investigación en ciencias sociales. Se trata de profundizar en los prejuicios e ideas preconcebidas sobre el rigor científico de la investigación en ciencias sociales, a partir de los sesgos personales en la conceptualización y comprensión de la validez interna vs externa, de la necesidad del grupo control, de los errores en la decisión a partir de la significación estadística y de la disyuntiva entre la causación y la correlación.

                Se pretende, pues, en este ensayo, propiciar una reflexión profunda sobre la concepción de lo científico en las ciencias sociales, con el objetivo de incorporar los resultados de esta elaboración mental a la práctica científica. Quien esto escribe quiere dejar claro que su postura en metodología científica ha sido siempre de defensa sin paliativos del sentido y objetivo del método hipotético-deductivo, alcanzando en buena parte de su trayectoria profesional una adhesión al positivismo que podríamos calificar, incluso, de excesiva. Por tanto, los argumentos que aquí se van a recoger han supuesto un motivo de reflexión profunda para mi sobre las concepciones de lo científico que no sobre la necesidad de contar con un fundamento científico de primer orden para edificar las ciencias sociales. Lo que aquí se recoge representa la crítica a unas concepciones científicas, a veces poco reflexivas, que tiene por único objetivo, y sobre esto no debe haber duda, ahondar en la necesidad de desarrollar unas ciencias sociales sobre supuestos realmente científicos, basados en el análisis objetivo de las condiciones experimentales y no en supuestos a priori más o menos supuestamente rigurosos.

 

 

2.    Validez interna vs. Validez externa y sesgos del investigador

 

Tradicionalmente se entiende que el establecimiento de una relación causal entre la variable dependiente y la independiente es el objetivo fundamental de la investigación experimental. Así, elaborar diseños experimentales que garanticen una absoluta o elevada validez interna es, tal vez, el más importante propósito del método científico. Según este enfoque, no se trata de desdeñar la importancia de la validez externa, pero se supedita a la validez interna, en cuanto al cumplimiento de las exigencias de rigor científico de un diseño experimental. Así, se argumenta, que la garantía de control de una alta validez externa tiene sentido plantearla si y solo si se cuenta con un diseño con alta validez interna, es decir, en donde se garantice, en primer lugar, el establecimiento de la relación causal entre variables.

La clasificación de los diseños de investigación, según el grupo de Campbell, nos advierte precisamente de estos supuesto, al partir de la evaluación de los diseños según su poder de procurar datos adecuados y correctos. Así, los diseños pueden ser pseudoexperimentales, experimentales auténticos y cuasiexperimentales. Tal como indica Bernia (1981), el término “experimental” es en este caso equivalente a “riguroso” o “científico”. Es como decir que aquellos diseños de investigación que garantizan una más alta validez interna son, realmente, los científicos. Y aquí nos encontramos con una primera conceptualización de lo científico en relación a los diseños de investigación que nos parece más basada en prejuicios que en realidades objetivas. Intentaré en lo que queda de este apartado demostrar esta idea.

Hemos de reconocer que Campbell y sus colegas siempre han defendido la conveniencia de que los diseños experimentales garanticen tanto la validez interna como externa. De hecho, reconocen que aumentar una de ellas puede ir en detrimento de la otra, cuando dicen : “ambos criterios son sin duda importantes, aunque con frecuencia se contrapongan, en el sentido de que ciertos aspectos que favorecen a alguno de ellos perjudica (de alguna forma) al otro. Si bien la validez interna es el sine qua non y a la cuestión de la validez externa, como a la de la influencia inductiva, nunca se puede responder plenamente, es obvio que nuestro ideal lo constituye la selección de diseños ricos en una y otra validez (Campbell y Stanley, 1973, pp 16-17). No obstante, siguen argumentando que la validez interna es el sine qua non, el objetivo prioritario.

Pero veamos qué tipo de experimentos cuentan con una alta validez interna. Son, sin duda los experimentos de laboratorio, con un control muy alto tanto de las variables del experimento como de las variables extrañas, en un contexto de aislamiento del ambiente natural. Si bien la Psicología experimental comenzó adoptando la tradición de control y aislamiento experimental, con nombres como Fechner, Wundt, Thorndike, Skinner, etc., no es menos cierto que a partir de un determinado momento histórico, coincidente con el surgimiento de la Psicología Social, esta concepción entró en descrédito, y ello debido, entre otras razones, a la gran dificultad en el diseño de experimentos auténticos en Psicología y a que los resultados no resultaban, en muchas ocasiones, relevantes en su vertiente aplicada, ya que el control exhaustivo de las variables en contextos alejados del ambiente natural distorsionan claramente el comportamiento que tendría lugar fuera del laboratorio, haciendo que los resultados fueran poco significativos para las situaciones de la vida real.

Dicho de otra forma, el celo excesivo en aumentar la validez interna de un experimento reduce necesariamente la validez externa. Y este es uno de los principales argumentos de este ensayo. Así, el aumento de la validez interna reduce, con toda seguridad, la validez externa, y viceversa. Este argumento tiene un amplio alcance en el sentido epistemológico. Así, si los diseños con alta validez interna distorsionan inevitablemente el comportamiento bajo estudio, de forma que este no sea representativo de las situaciones reales, ¿por qué seguimos defendiendo que el aumento de la validez interna garantiza el rigor científico ? No podemos, ya que el rigor científico se garantiza si y sólo si se realizan experimentos tanto con alta validez interna como externa. Pero si hemos dicho que los dos tipos de validez se contraponen más que se complementan en un determinado diseño experimental, ¿cómo podemos exigir una alta validez interna a la vez que externa ? ¿No se trata de una contradicción ? Sí sería una contradicción si lo exigiéramos en cada experimento, pero no para un conjunto de experimentos, en los que una parte de ellos garantizarían la validez interna sobre todo (investigación básica) y otra parte la validez externa (investigación aplicada).

Según estos argumentos, la adopción de la tradición experimental de control y aislamiento por parte de la investigación aplicada, lejos de garantizar el rigor científico, redundaría en una disminución del mismo, ya que el objetivo de conseguir una alta validez interna distorsionará el comportamiento bajo estudio, debido al aumento considerable y no deseable de amenazas a la validez externa. Pero tampoco el rigor que se le supone a la asignación aleatoria en los estudios sociales, como sustituto del control y aislamiento, resulta el realmente científico. Así, los diseños cuasiexperimentales, utilizados sobre todo en educación e intervención social y comunitaria, en donde no se realiza asignación aleatoria de sujetos a condiciones experimentales, no resultan menos científicos, ya que la asignación aleatoria introduciría unas distorsiones en el diseño que reducirían sin duda la validez externa.

En este punto nos hacemos una pregunta crucial : ¿qué diseños son, por tanto, los más científicos, los más rigurosos ? La respuesta es : depende del objetivo de la investigación. Y aquí está la segunda clave de nuestras argumentaciones. Veamos. Si nuestro objetivo es establecer con claridad relaciones causales entre variables en condiciones de aislamiento, los diseños que garanticen una alta validez interna (y por tanto, baja validez externa) serán los más apropiados, pero si lo que queremos es investigar un procedimiento terapéutico aplicable a poblaciones clínicas, necesitaremos un diseño que garantice al máximo la validez externa (si bien en detrimento de la validez interna, necesariamente). No se trata de generar una disyuntiva entre Investigación Básica e Investigación Aplicada, sino más bien al contrario, complementarlas definitivamente a partir de la promoción de los dos tipos de investigaciones para el mayor dominio de un campo de conocimientos determinado, garantizando la máxima validez interna como externa para el conjunto de las investigaciones.

Un breve ejemplo servirá de ilustración. Levin y cols. (1998) comprobaron en una muestra de 12 jóvenes, con diagnóstico de dependencia a la cocaína y de trastorno adulto por déficit de atención e hiperactividad, que una dosis diaria de 40 a 80 mg de metilfenidato a lo largo de 12 semanas de tratamiento redujo las dificultades de atención, hiperactividad e impulsividad, a la vez que el deseo y consumo de cocaína. Además del estimulante, los jóvenes recibieron sesiones semanales de terapia de prevención de la recaída. Los autores son cautelosos al valorar estos resultados, ya que : 1) se trata de un diseño abierto y no de doble ciego ; 2) evidente y frecuente apoyo por parte de los profesionales que intervinieron en el estudio ; y 3) el beneficio adicional de la terapia de prevención de la recaída. Esta cautela se justifica si además se considera, como citan los autores, que en estudios similares de doble ciego no se obtienen esos beneficios terapéuticos. También podríamos nosotros añadir como una limitación más del estudio la falta de un grupo de control.

Pero estas limitaciones del estudio, que reconocen los propios autores, ¿lo hacen menos científico que si se hubiera hecho un diseño con doble ciego y grupos control y placebo ? Yo entiendo que no, por todos los argumentos esgrimidos hasta ahora en este apartado. Veamos. Sin ánimo de entrar en detalles sobre el tema del efecto antiagresivo y anticraving de cocaína del metilfenidato, cuya cuestión no es en este momento de nuestro interés, hay que señalar que existe evidencia experimental de laboratorio con animales de la reducción de la agresividad tras la administración de metilfenidato (Allen y cols., 1975). Por otra parte, hay evidencia en el laboratorio con humanos adictos a la cocaína de que el metifenidato no aumenta ni el craving de la droga ni la agresividad (Roache, 2000). También hay evidencia de la reducción de la agresividad, la impulsividad y el consumo de drogas con metilfenidato en niños normales y en niños con síndrome de déficit de atención e hiperactividad. Así, si bien hay un volumen de evidencia experimental importante, faltaría más investigación básica para establecer con claridad la relación causal entre la aplicación del metilfenidato y la reducción de la impulsividad, agresividad y craving de la cocaína. Ahora bien, desde la investigación aplicada, el estudio de Levin y cols presenta una evidencia muy interesante en ambientes terapéuticos. Se demuestra que, en ambientes donde se generan altas expectativas de mejora con el metilfenidato a la vez que se combina con terapia psicológica de apoyo, se producen resultados terapéuticos deseables como los mostrados en el estudio. Aquí el propósito no tiene porque ser el esclarecimiento definitivo de la relación causal entre la administración del metilfenidato y el resultado terapéutico, sino el hecho de que, en las condiciones señaladas en un ambiente terapéutico, se consiguen los resultados reseñados. De hecho, las limitaciones del estudio a las que se refieren los autores son ventajas en un ambiente natural terapéutico. Pensemos por un momento en una institución de atención a drogodependientes en que no se generen expectativas de éxito de un determinado procedimiento, ni se combine la terapia farmacológica con terapia psicológica de apoyo. Controlar todo esto en un diseño aumentaría, sin duda, la validez interna, pero con un detrimento muy serio de la validez externa, entendida en este caso como la representatividad de los resultados en ambientes naturales, en este caso terapéuticos.

Es el conjunto de estudios desde la experimentación básica y aplicada con metilfenidato en el tratamiento de la impulsividad, agresividad y consumo de cocaína, donde debemos exigir la garantía de una elevada validez interna al tiempo que externa, pero de ningún modo debemos exigirlo para cada experimento por separado. Este experimento, con alta validez externa, es tan científico como cualquier experimento de laboratorio con control máximo de variables, en tanto en cuanto sus conclusiones se ajusten a los objetivos del mismo : estudiar la influencia terapéutica del metilfenidato sobre la impulsividad y consumo de cocaína en un centro de atención a drododependientes que funciona con profesionales motivados (y que motivan), que aplican simultáneamente todo tipo de técnicas terapéuticas que sean eficaces. En definitiva, un centro tal y como debe funcionar y como funciona en la realidad y no como propondría un investigador que quisiera convertir el centro en un laboratorio. Bien es cierto que, al no contar con un grupo placebo, no sabemos hasta qué punto influye el efecto placebo en los resultados del tratamiento con metilfenidato. Pero volvemos de nuevo al mismo argumento : nuestro objetivo no es aquí separar el efecto placebo del efecto farmacológico, sino más bien lo contrario. Si bien es legítimo y necesario especificar el efecto del metilfenidato sobre aspectos como la impulsividad y el craving de la droga mediante investigación básica, en investigación aplicada, más cercana a la vida real, el efecto placebo se mezcla con el de la sustancia, y esto no representa ningún problema de carácter metodológico. Para el objetivo de este estudio, tanto nos da que el efecto terapéutico sea debido sólo al fármaco o a la combinación de fármaco y placebo. Hasta qué punto el fármaco tiene un efecto específico, sería el objetivo de la investigación básica.

En resumen, no hay un tipo de investigación más científica que otra cuando nos referimos a la investigación básica vs aplicada, ni la investigación aplicada debe necesariamente asumir la metodología de la investigación básica (objetivo fundamental : conseguir la absoluta validez interna) por completo. Entender que la investigación aplicada del estilo que refleja el estudio que hemos elegido como ilustración es “menos científico” que un diseño doble ciego con grupo control y placebo, es lo mismo que considerar que la garantía de la mayor validez interna es lo que fundamenta un diseño científico, lo cual, por lo visto hasta ahora, no es cierto.

 

 

 

 

3. ¿Es necesario el grupo control ?

 

Un diseño experimental sin grupo de control se considera muy inadecuado, poco científico y riguroso, ya que es difícil establecer relaciones firmes de causalidad entre las variables dependientes e independientes. Esto es debido a que las amenazas a la validez interna son muy importantes. Así, el control de variables extrañas es muy deficiente. ¿Podemos decir entonces que, en general, los diseños con sólo grupo experimental, como el de Levin y cols sobre la influencia del metilfenidato sobre la impulsividad y el deseo y consumo de cocaína que antes hemos considerado, tienen poco valor científico ? Entiendo que no necesariamente, ya que la calidad científica va a depender, tal y como dijimos en el apartado anterior, del objetivo de la investigación.

Así, la investigación de Levin y cols no se propone evaluar la eficacia específica del metilfenidato, diferenciada de otras influencias, sobre determinadas conductas, sino una combinación de efectos (principio activo, placebo, terapia de apoyo) en relación a los resultados terapéuticos. Por otra parte, existe suficiente evidencia experimental que señala la gran dificultad en el tratamiento inicial de los cocainómanos. Si no hay motivos evidentes y tangibles que puedan interferir en el curso de la investigación (como la edad, campañas institucionales, etc.) no hay por qué sobreestimar la importancia de amenazas a la validez interna que implican el paso del tiempo, como la historia y maduración.

Si el propósito de una investigación es discriminar el efecto farmacológico del metilfenidato del placebo o bien controlar variables extrañas de las que hay evidencia que se pueden presentar a lo largo del estudio (la maduración en chicos consumidores de drogas de 15 ó 16 años, jóvenes que se inician en el consumo, coincidencia con una intensa campaña institucional de prevención de consumo de drogas, etc.), no es imprescindible la inclusión de un grupo control, ni la ausencia del mismo indica que el estudio sea “menos científico”.

En demasiadas ocasiones, la inclusión de un grupo de control en una institución (por ejemplo, un centro de atención a drogodependientes) genera innegables dificultades y problemas institucionales y metodológicos, distorsionando el proceder habitual de los profesionales y administrativos de la institución. De esta forma, la validez externa se reduce considerablemente. Este “mayor rigor” no aumenta, por tanto, el valor científico del experimento, sino al revés. En muchas ocasiones, cuando se insiste en la inclusión de un grupo de control, hay que recurrir a grupos no equivalentes, con lo que el principio científico de aleatorización se perjudica considerablemente.

Ahora bien, ¿podemos extraer conclusiones suficientemente fiables sobre la relación causal entre variables del estudio con un diseño sin grupo control ? Sí podemos si en el diseño incluimos medidas pre y post de la variable (s) dependiente (s). A partir de una prueba t de Student de diferencias de medias relacionadas podemos obtener resultados fiables. Veamos la fórmula :

 

 

Siendo sD2 la varianza poblacional estimada para la diferencia de puntuaciones y N el número de pares de sujetos.

En esta fórmula, las diferencias de medias de los valores pre y post de la variable dependiente de la muestra se compara con la hipótesis nula de la diferencia de medias de la población de valores pre y post.

Como es sabido, la hipótesis nula se formula :

 

H0 : m1 = m2    o    m1 - m2 = 0

 

De esta manera, la fórmula queda como :

 

 

En realidad, estamos considerando a la población como control y definimos que no hay diferencia de medias entre los valores de la población, ya que no hay evidencias objetivas para ello, en el lapso de tiempo que dura el experimento. Así, bajo ese supuesto y utilizando los procedimientos de la Estadística Inferencial, si el investigador obtiene una diferencia de medias poco probable, rechazará la hipótesis nula y aceptará la eficacia de su tratamiento.

                Este resultado será perfectamente correcto y con todo el valor científico si se reúnen las condiciones que hemos considerado y atendiendo al hecho de que hay que realizar más investigaciones para seguir progresando en el conocimiento científico, como comparar el procedimiento con otros, discriminarlo con el efecto placebo o bien, por qué no, con el no tratamiento.

 

 

4. Intervalo de confianza y el error de las decisiones

 

Tras obtener los resultados de un experimento, hay que decidir si son suficientemente importantes para aceptar o no nuestra hipótesis experimental. Veamos el siguiente cuadro que resume los riesgos de una decisión.

 

                      H0 es realmente cierta                       H0 es realmente falsa

 

Aceptar H0 :         Decisión correcta :                             Error tipo II :

                      La probabilidad de                            La probabilidad (riesgo)

                       aceptar H0 cierta                                de aceptar H0 falsa

                               es 1 - a                                                  es b

 

Rechazar H0 :      Error tipo I :                                         Decisión correcta :

                      La probabilidad (riesgo)                La probabilidad de rechazar

                        de rechazar H0 cierta                         H0 falsa (potencia)

                               es a                                                       es 1 - b

 

Al disminuir, para una muestra dada, la probabilidad de cometer error tipo I, aumenta la probabilidad del error tipo II necesariamente. Normalmente, las hipótesis científicas pretenden aceptar la H1.

El nivel de significación (región crítica o nivel de confianza) es el valor numérico especificado por la regla de decisión. Suele ser la regla del 0,05, nivel de significación del 5%, que define una probabilidad obtenida del 0,05 o menor como suficientemente improbable. Se expresa a = 0,05.

Siendo la H0 verdadera, si repitiéramos muchas veces el experimento, un promedio de una sobre 20 decisiones rechazarían (incorrectamente) la H0.

H0 será aceptada cuando la probabilidad de obtener la media muestral observada sea superior a 0,05, y H0 se rechazará si tal probabilidad no es mayor que 0,05.

Si la prueba estadística indica, por ejemplo, que para m = 35, una media muestral de 33,8 es “suficientemente improbable” (menos del 0,05), debería rechazarse la H0. Es decir, si H0 fuese verdadera y eligiéramos un gran número de muestras, cabe esperar que menos del 5% de las veces se obtendrían medias muestrales tan desviadas, o más, de 35. Se acepta la H1.

                Ya hemos dicho que el nivel de significación es arbitrario. Podríamos elegir un nivel más restrictivo, como el 1%. En este caso, sólo las medias muestrales muy extremas se consideran suficientemente improbables (p £ 0,01). Se reduce en gran medida el error tipo I (rechazar la H0 cuando es realmente cierta). Es por tanto un criterio más exigente y se considera, por lo general, riguroso y científico. Pero esto no tiene por qué ser así. Ya sabemos que la reducción de la probabilidad de cometer un error tipo I lleva aparejado necesariamente el aumento de la probabilidad de cometer un error tipo II y, por tanto, rechazar un procedimiento, posiblemente una nueva técnica terapéutica prometedora, siendo verdadera la hipótesis alternativa.

                Así, cuando elegimos un nivel de significación muy restrictivo como 0,01 ó incluso 0,001, consideramos que somos muy exigentes y rigurosos a la hora de valorar la eficacia de, por ejemplo, un nuevo tratamiento. Pero si en realidad el tratamiento es eficaz, será más difícil que podamos aceptarlo que en el caso de un nivel de significación del 0,05, y cometeríamos un error tipo II. Y esto no es un criterio científico en absoluto. Por tanto, hablaríamos más, en este caso, de una apariencia de rigor y “cientifismo” que de un verdadero criterio racional y científico de decisión.

 

5. Diseño experimental y control estadístico

 

                La disyuntiva establecida largo tiempo entre la investigación experimental y correlacional en Psicología sigue todavía teniendo consecuencias en el campo científico. Así, se sigue considerando que la investigación experimental establece relaciones de causa-efecto entre variables y es propia de los estudios de laboratorio, mientras la investigación correlacional se utiliza para describir relaciones ya existentes entre variables en la naturaleza.

Si bien autores como Cronbach y Cattell propusieron un acercamiento y complementación entre estas dos metodologías, se sigue aceptando que la investigación correlacional no es adecuada para establecer controles experimentales. Diríamos que “no es científico”.

Pero esto tampoco pienso que sea exactamente así. Por ejemplo, el análisis de covariación representa un ejemplo de control estadístico. Pero especialmente hay que reseñar que el análisis de regresión múltiple es, en cierta medida, un sustituto más sofisticado del análisis de varianza o de covarianza. Y esto es así porque el análisis de regresión múltiple es un método poderoso de control de la varianza, que ofrece estimaciones sobre la magnitud de influencia de determinadas variables independientes sobre la variable dependiente, y proporciona pruebas de la significación estadística del efecto combinado de las variables independientes sobre la dependiente y el efecto específico de cada una por separado.

La correspondencia entre el análisis de regresión múltiple y el análisis de varianza se observa claramente en la expresión :

 

 

La varianza debida a la regresión de la variable dependiente Y sobre las independientes X1, X2…Xk, contra la varianza de error o al azar en el caso del análisis de regresión múltiple, o la varianza experimental contra la varianza de error en el caso del análisis de varianza.

                Si en el análisis de regresión R2 representa la proporción de la varianza de Y explicada por X1, X2…Xk, y que a partir de suma de cuadrados es expresa :

 

donde sst es la suma total de cuadrados de Y, en el análisis de varianza obtenemos la razón de correlación E con la fórmula :

 

siendo ssb la suma de cuadrados entre grupos debida a la variable independiente.

                Además, las pruebas de significación estadísticas también encuentran una correspondencia entre el análisis de regresión múltiple y el análisis de varianza. La realidad es que unos sencillos cálculos pueden confirmar que se obtienen los mismos resultados tanto a partir del análisis de varianza como del análisis de regresión múltiple.

                Si consideramos un diseño cuasiexperimental con grupos no equivalentes, la utilización del análisis de regresión múltiple proporcionará un control estadístico excepcional que puede compensar, al menos en parte, la ausencia de asignación aleatoria de los sujetos a las condiciones experimentales. Esta conclusión rebate otro de los sesgos del investigador social que se refiere a que los diseños con grupos no equivalentes son inferiores científicamente a los diseños con aleatorización. Si además consideramos que los diseños de investigación con grupos no equivalentes son más propios de la investigación en el medio natural, se tratará pues de una condición que favorecerá la validez externa y, por tanto, aumentará el valor científico del experimento.

 

 

 

 

 

6.    Conclusiones

 

                La búsqueda del rigor y la calidad científica de la investigación social es un objetivo inalienable y de primera magnitud. Sobre eso no hay discusión. Ahora bien, ¿qué es lo científico en la investigación social ? ¿Es más riguroso y “científico” el diseño experimental que persigue la mayor validez interna, o que cuenta con grupos control, o que exige niveles de significación estadística muy restrictivos ? Por todo lo dicho a lo largo de este ensayo, hay que concluir que no necesariamente. Un experimento puede tener una gran calidad científica aunque no incluya grupos control o no cuente con una alta validez interna si el propósito del experimento no lo requiere o, incluso, lo desaconseja. Así, en los estudios en ambientes naturales, si el diseño cuenta con una elevada validez interna significa que necesariamente la validez externa es insuficiente. Precisamente la validez externa de los experimentos en el ámbito natural hace referencia a la cuestión de hasta qué punto los resultados obtenidos son representativos del comportamiento en ambientes naturales, más “reales” que el laboratorio. Por tanto, en este caso, lo “más científico” sería un diseño de investigación con alta validez externa, si bien este resultado debe complementarse con el de otras investigaciones que incluyan más control de variables en el contexto de la investigación básica. Ya dijimos en un apartado anterior que una alta validez interna junto con una alta validez externa solo pueden conseguirse en el contexto de un conjunto de experimentos que incluyan tanto investigación básica como aplicada sobre una misma área de conocimientos, y no con experimentos únicos o aislados.

                En realidad un diseño de investigación será más o menos riguroso en función de los objetivos que se proponga y no tanto por la aceptación de una serie de clichés o ideas a priori basadas, fundamentalmente, en la tradición experimental del control y el aislamiento, del laboratorio. Si se pretende estudiar el efecto de un fármaco como el metilfenidato en la reducción de la impulsividad y el consumo de cocaína en jóvenes drogodependientes que acuden a un centro de atención, el experimento debe imitar, precisamente, el ambiente natural y el estilo de trabajo habitual de los profesionales del centro y no deformar la realidad en aras de un rigor científico que, según hemos demostrado, no es tal. Con un control exhaustivo de variables en el centro de tratamiento aumentará la validez interna del experimento, pero a expensas de la validez externa, y esto con toda seguridad. La consecuencia es precisamente una disminución de la calidad científica del experimento y no al revés.

                Por tanto, en la experimentación social habrá que tener un especial cuidado no sólo en la detección de los sesgos del diseño de investigación, sino en los sesgos propios del investigador que, con la pretensión de un mayor rigor científico, está distorsionando el sentido y objetivo de la investigación y, por tanto, paradójicamente, reduciendo la calidad científica de la misma. Esta es la conclusión más importante de este ensayo.

                No han sido considerados en este ensayo otros aspectos importantes que conducen a confusiones en la concepción de lo científico en las ciencias sociales, como por ejemplo la disyuntiva entre la investigación con grupos vs la investigación con individuos, la importancia de la significación estadística frente a la importancia clínica y social de los resultados, etc., que serán tratados en ensayos posteriores. Tampoco se ha considerado la relevancia de las reflexiones que aquí se presentan para la investigación en ciencias consideradas naturales, como la física o química, o también en medicina y otras afines. Cabe señalar con brevedad que, en buena medida, las conclusiones de este ensayo son aplicables a estas ciencias. Pero esto quedará, igualmente, para un estudio posterior.

                La pretensión de este ensayo ha sido iniciar una serie de reflexiones sobre ciertas concepciones de lo científico en la investigación en ciencias sociales que, lejos de basarse en planteamientos objetivos y críticos, están plagadas de sesgos y falacias, de prejuicios y a prioris que, precisamente, restan calidad a lo que de científico hay y debe haber en la investigación social.

 

 

REFERENCIAS

 

Allen, R.P., Safer, D. Covi, L. (1975). Effect of psychoestimulants on aggression. The Journal of Nervous and Mental Disease, 160, 138-145.

 

Bernia, J. (1981). Psicología Experimental I. Valencia : Nau llibres.

 

Campbell, D.T. (1969). Reforms as experiments. American Psychologist, 24, 409-429.

 

Campbell, D.T. y Stanley, J.C. (1966). Experimental and Quasi-Experimental Designs for Research. Chicago, IL : Rand McNally. (Traducción española : Amorrortu, Buenos Aires, 1973).

 

Cook, T.D. y Campbell, D.T. (1976).  The design and conduct of quasiexperiments and true experiments in field setting. En M. Dunnette (Ed), Handbook of Industrial and Organizational Psychology. Skokie, IL : Rand McNally.

 

Cook, T.D. y Campbell, D.T. (1979). Quasi-experimentation : Design and Analysis Issues for Field Setting. Chicago, IL : Rand McNally.

 

Cook, T.D. y Campbell, D.T. (1986). The causal assumptions of quasi-experimental practice. Synthese, 68, 141-160.

 

Gómez, L. y Hombrados, I. (1993). Diseños de Intervención Comunitaria. En A. Martin, F. Chacón y M. Martínez (Eds), Psicología Comunitaria. Madrid : Visor Distribuciones.

 

Levin, F.R., Evans, S.M.,, McDowell, D.M. y Kleber, H.D. (1998). Methylphenidate Treatment for Cocaine Abusers With Adult Attention-Deficit/Hyperactivity Disorder : A Pilot Study. Journal of Clinical Psychiatry, 59, 300-305.

 

Roache, J.D. (2000). Laboratory measures of methylphenidate effects in cocaine-dependent patients receiving treatment. Journal of Clinical Psychopharmacology, 20, 61-68.




 Salvador.Amigo@uv.es


Última actualización: 07 de julio de 2016.