Evaluación adaptativa

La base del desarrollo de los Sistemas Integrados de Evaluación Informatizada (SIEI) se produce con la integración de las aportaciones de los modelos basados en la Teoría de Respuesta al Item (TRI) y los avances informáticos, permitiéndose la creación de tests informatizados basados en esta teoría.

La TRI tiene como objetivo obtener mediciones que no varíen en función del instrumento utilizado, disponer de instrumentos de medida que no dependen de los objetos medidos, es decir, que sean invariantes respecto a los sujetos evaluados y avances técnicos como funciones de información de los ítems y del test, errores típicos de medida diferentes para cada nivel de la variable medida y el establecimiento de bancos de ítems con parámetros estrictamente definidos. La TRI se centra en las propiedades particulares de cada ítem, mientras que la TCT se dirige a las propiedades de la puntuación global. Los supuestos de la TRI son:

La unidimensionalidad del rasgo latente. Es decir que los ítem que constituyen un test deben medir sólo una aptitud o rasgo.
La independencia. Es decir que las respuestas de un examinado a cualquier par de ítem son independientes y no existe relación entre las respuestas de un examinado a diferentes ítem.

Los modelos basados en la TRI relacionan a sujetos e ítems de modo interactivo lo que permite localizar al mismo tiempo en un continuo psicológico que representa a la variable a sujetos e ítems, el proceso de medición se puede representar como la localización de personas e ítems en una línea recta (Wright y Stone, 1979; Wright y Master, 1982). Así, la posición de las personas en la línea dependerá de sus respuestas a los ítems del test, del mismo modo los ítems tendrán distintas localizaciones dependiendo de su nivel de dificultad.

Ya que para llevar a la práctica el modelo de la Teoría de Respuesta al Item, se hace indispensable el uso del ordenador (Olea, Ponsoda y Prieto, 1999), puesto que se requiere ejecutar algoritmos matemáticos muy complejos para:

- los procedimientos de estimación de parámetros,
- comprobar en cada caso los supuestos de los diferentes modelos y el ajuste del modelo a los datos empíricos.
- Analizar la precisión de las estimaciones y la contribución de cada ítem a dicha precisión.

Los Sistemas Integrados de Evaluación Informatizada, son sistemas que pretenden realizar mediante el ordenador, las distintas tareas relacionadas con un sistema de evaluación, desde la creación del banco de ítems a partir del cual se realizará la construcción del test hasta la emisión de resultados y estimación de parámetros.

Estos sistemas parten del uso de bancos de ítems a partir de los cuales se extraen los ítems que conformarán la prueba. El banco de ítems es entendido dentro de un concepto dinámico, de modo que puede ser actualizado o renovado según las necesidades y resultados obtenidos en su aplicación. Como señalan Hambleton, Swaminathan y Rogers (1991) la invarianza de los parámetros de los ítems en los modelos TRI permite incorporar nuevos ítems sin necesidad de utilizar la misma muestra de sujetos que se ha utilizado previamente para los que ya se encuentran en el banco.

El banco de ítems es la base sobre la que se sustentan todas las demás tareas propias de los SIEI. Un banco de ítems es un conjunto amplio de ítems almacenados junto con sus características (métricas y de contenido), para que posteriormente puedan seleccionarse aquellos que se adapten a las condiciones deseadas para un determinado test.

La información métrica que deberá almacenarse va a depender del marco teórico seguido en la construcción del banco de ítems (TCT o TRI). Los desarrollos de la TRI han producido un verdadero auge de la utilización de bancos de ítems.

Barbero realiza un análisis de las diferentes descripciones de un banco de ítems, entresacando de las mismas tres características que lo definen:

"a) Consiste en una colección relativamente grande y estructurada de ítems que miden un rasgo o dominio de conocimiento bien definido.
b) Los ítems se encuentran almacenados en un ordenador junto con sus características tanto de contenido como métricas, entre las que se incluyen las estimaciones de sus parámetros obtenidas utilizando el mismo modelo de respuesta, por lo general un modelo de la TRI. No obstante, también se pueden construir desde la perspectiva de la teoría clásica de los tests (TCT).
c) Las estimaciones de los parámetros han sido transformadas a una escala común mediante un proceso de equiparación." (1999: 66)

Para Barbero, la construcción de un banco de ítems presenta una serie de fases o pasos a realizar:

Definición de la estructura.
- Para determinarla es necesario tener presente:
  - el rasgo o característica a medir,
  - el tipo de población sobre la que vamos a realizar la medición,
  - las formas de categorización necesarias para poder posteriormente seleccionar los ítems (áreas de contenido, procesos cognitivos, etc.).
  - la información métrica a almacenar en función del marco teórico que se va seguir (TCT o TRI).
Desarrollo y análisis cualitativo de los ítems.
- La creación de los ítems puede realizarse tanto manualmente como utilizando el ordenador para una generación automática de ítems. Para el desarrollo de ítems es conveniente tener presente una serie de reglas básicas: (Gronlund, 1985)
  - La relevancia del ítem viene marcada por su ajuste al objetivo o capacidad que pretende medir y por su nivel de representatividad del dominio a evaluar.
  - Es necesario evitar la ambigüedad en las formulaciones de los ítems.
  - Los enunciados de los ítems no deben ser excesivamente largos.
  - Se debe ajustar el vocabulario utilizado en la formulación de los ítems al nivel de los estudiantes.
  - No utilizar estructuras gramaticales excesivamente complejas.
  - Las instrucciones deben ser claras.
  - Evitar elementos o ilustraciones que puedan confundir al estudiante.
  - No realizar preguntas con sesgo racial, étnico o sexual.
- Posteriormente, se debe llevar a cabo un análisis cualitativo de los ítems con el fin de detectar posibles problemas en la forma o contenido de los mismos (ej. Juicio de expertos).
Elección del diseño de recogida de datos.
- Indicación del número de muestras necesarias en la administración y los ítems a aplicar en cada una de ellas
- Determinación del sistema de anclaje a utilizar:
  - Anclaje de ítems (los sujetos de todas las muestras responden a un conjunto de ítems).
  - Anclaje de sujetos (todos los ítems se aplican a un grupo de sujetos).
Administración de los ítems.
- Administración de los ítems, realizada generalmente sin el ordenador, ya que resulta muy costoso por el número de sujetos e ítems a responder.
- Procesamiento de las respuestas.
Ajuste de los datos a un modelo. Se puede utilizar tanto el marco teórico de la TCT como la TRI, aunque este último es el más adecuado puesto que sus modelos aportan estimaciones de los parámetros de los ítems independientes de la muestra de sujetos sobre la que se realiza la calibración.
Calibración. Mediante este proceso se obtendrá la información que se introducirá en el banco de ítems. Para ello es necesario realizar:
- La estimación de los parámetros de los ítems de acuerdo con el modelo ajustado.
- El análisis de la fiabilidad de las estimaciones.
- El proceso de equiparación para situar en una escala común las estimaciones de los parámetros.
Almacenamiento de la información de forma estructurada en un banco de ítems. Esta información puede ser de tres tipos:
- Información general. Se trata de incluir la categorización de todas aquellas informaciones que nos permitan posteriormente seleccionar el ítem (contenido, proceso cognitivo, etc), y también las informaciones que permitan su presentación (formato, etc.) y corrección (puntuación, respuesta correcta, etc.).
- Contenido. No solo se deberá almacenar el contenido del ítem, sino también otras informaciones adicionales a presentar e información sobre el feedback que se desea presentar.
- Estimaciones métricas del ítem. Como el índice de dificultad, discriminación, función de información del ítem, etc.

Como indican Molina, Sanmartin y Pareja (1999) el desarrollo, utilización y mantenimiento de bancos de ítems se facilita enormemente mediante el soporte informático que permite el almacenamiento, organización, proceso, recuperación y selección de su información de una forma rápida y eficaz. Al mismo tiempo, estos sistemas posibilitan un uso integrado de esta información, con otras tareas propias del proceso evaluativo. (Baker 1989).

De este modo, estos bancos de ítems serán el punto a partir del cual se construyan los test, que pueden ser en el SIEI aplicados y corregidos mediante el ordenador. Los bancos de ítems, además aseguran, si el proceso se realiza correctamente, que las pruebas evaluativas cumplan las propiedades métricas clásicas que debe cumplir todo test: unidimensionalidad de los ítems utilizados en cada estimación, fiabilidad o precisión de la medida, y validez en cuanto a que se mide lo que pretende medir.

TAIs

Un Test Adaptitativo Informatizado (TAI) "permite la aplicación de ítems diferentes a cada evaluando: aquellos que resultan más efectivos para estimar de forma precisa su nivel de habilidad, es decir, los que reducen un mayor grado de incertidumbre sobre el nivel de rasgo del evaluando" (Olea y Ponsoda, 1998:167). Este tipo de evaluación informatizada y adaptativa parte de los supuestos métricos que aporta la Teoría de Respuesta al Item, permitiendo calibrar el banco de ítems y obtener sus parámetros de dificultad, discriminación y pseudoazar.

Los TAIs permiten, además, la comparación entre diferentes tests, pues el resultados de sus mediciones se expresan en la misma métrica.

Para poder aplicar un TAI es necesario disponer de un banco de ítems, con sus correspondientes características métricas. De este banco se irán seleccionando los ítems a aplicar, de forma individual -uno a uno-, que mejor se ajustan al nivel mostrado por el sujeto en las respuestas previas, de modo que cada respuesta del sujeto a un ítem implica una nueva estimación de su nivel de habilidad aumentando progresivamente la precisión de la estimación. La finalización del test se produce cuando se cumple un determinado criterio de parada, generalmente vinculado a la obtención de un nivel de precisión adecuado. Como indican Muñiz y Hambleton "la gran ventaja de esta estrategia de adaptar la prueba al nivel de la persona examinada es que se mejora la precisión de la medida y se ahorra tiempo de aplicación al acortarse los tests". (1999: 27)

Diversos autores como (Millman, 1984; Renom 1997; Renom y Doval 1999; Muñiz y Hambleton, 1999) señalan ventajas e inconvenientes en el uso de los TAIs.

TESTS ADAPTATIVOS INFORMATIZADOS

Ventajas

Limitaciones

* Los TAIs son las pruebas que aportan mayor precisión en la estimación de la medida.
* Se reduce el número de ítems en la aplicación y en consecuencia el tiempo de aplicación.
* Permiten la incorporación de nuevos contenidos utilizando formatos de ítem multimedia.
* Se reduce el error típico de medida a lo largo del continuo de medida.

* No es posible revisar ni modificar las respuestas dadas.
* Se precisa disponer de grandes bancos de ítems para mantener la seguridad de los TAIs.
* Es difícil mantener la seguridad de los tests puesto que los ítems que más discriminan son aplicados con mayor frecuencia que los otros.
* La selección de los ítems se realiza a partir de sus propiedades estadísticas, siendo difícil realizarla atendiendo a la validez de contenido.
* Exigen un mayor esfuerzo en la construcción y aplicación que los tests convencionales.

En relación a la aceptación social de estos sistemas de evaluación es posible vislumbrar determinados problemas. Así, por ejemplo si se opta por la utilización de Test Adaptativos Informatizados en pruebas de Selectividad, ¿cómo se explicaría que es posible comparar los resultados obtenidos por dos personas que han sido evaluadas con pruebas diferentes?, ¿cómo se podría entender socialmente que una prueba con más aciertos, tuviera menor o igual puntuación a una prueba con menos aciertos?. Sin lugar a duda, este proceso de evaluación que choca las visiones más arraigadas en los procesos evaluativos, por ello, el profesor como agente evaluador debe poder responderse a estas preguntas a partir de los conocimientos de estos sistemas de evaluación y de las teorías y procedimientos métricos sobre los que se sustentan.

A pesar de las ventajas que presentan los TAIs su implantación en los procesos evaluativos educativos ha sido reducida, para algunos autores esto se debe principalmente a la complejidad que supone el desarrollo de Bancos de Items adecuados.

Test Óptimos

Los tests óptimos son aquellos que contienen los ítems más adecuados para un determinado objetivo. Su planteamiento teórico se basa en la TRI, y en la capacidad de esta teoría para obtener la Función de Información del ítem y el test en cada habilidad. Los tests óptimos parten de un banco de ítems calibrado que permite conocer la efectividad de cada ítem en la precisión de la medida para cada nivel de habilidad, pudiéndose de este modo seleccionar los más efectivos, logrando tests con niveles altos de precisión en la estimación de la medida, y al mismo tiempo con un número reducido de ítems.

Partiendo de los Bancos de Items es posible, además, seleccionar ítems que cumplan una serie de condiciones (Hambleton y cols, 1996) relativas al formato, contenidos, propiedades métricas, etc. en función de las necesidades y objetivos de la evaluación. Existe también la posibilidad de diseñar diferentes formas de un test que tengan funciones de información equivalentes.

TADIs

Los Tests Autoadaptados Informatizados (TADIs) son equivalentes a los TAIs con una diferencia importante entre ellos, a los sujetos se les permite elegir el nivel de dificultad de los ítems. En estos tests propuestos por Rocklin y O'Donnell (1987) el banco de ítems se agrupa en distintas categorías en función de su nivel de dificultad, de este modo en la aplicación del test, ítem a ítem, el sujeto puede elegir el nivel de dificultad de cada ítem, hasta responder un número concreto de ítems o alcanzar una determinada precisión en la estimación de la medida.

Como indica Wise (1999) se debería emplear el mayor número de categorías posible, con el máximo número de ítems que hicieran posible que un sujeto pudiera elegir todos los ítems de una misma categoría o nivel de dificultad.

En los TADIs al igual que ocurre con los TAIs, la propiedad de invarianza de la TRI permite la comparación de los resultados obtenidos por distintos sujetos, aunque los ítems aplicados a los mismos tengan diferente nivel de dificultad.

Diversas investigaciones (Rocklin et al., 1995; Vispoel et al., 1996; Roos et al., 1997; Wise et al., 1998) apuntan algunas ventajas y limitaciones del uso de TADIs con respecto a los TAIs.

Tests Autoadaptados Informatizados
Ventajas	Limitaciones
El uso de un Test Autoadaptado Informatizado (TADI) reduce la influencia de la ansiedad sobre el rendimiento, siendo más adecuado su empleo en sujetos con alta ansiedad y bajo autoconcepto que en sujetos que no desean un control de su rendimiento.	* Son menos precisos que los TAIs en la estimación del rendimiento, lo cual depende del ajuste entre el nivel de dificultad de las ítems seleccionados por el sujeto y su nivel de conocimiento. * Su tiempo de aplicación es mayor.

Tests MultiEtápicos

Tal como indica su nombre los tests multietápicos realizan el proceso de medición en varias etapas. La primera de ellas tiene por objeto realizar una estimación inicial del nivel del sujeto, aplicándose para ello un conjunto de ítems. A partir del nivel inicial estimado los sujetos realizarán en la segunda etapa el test que más se ajuste a él (fácil, medio o difícil).

Como podemos ver en la tabla siguiente, los tests multietápicos se encuentran situados entre los TIs y los TAIs en cuanto a la precisión en la estimación de la puntuación. Asimismo, con ellos es posible evitar algunas de las limitaciones que presentan los TAIs y que han sido analizadas en el apartado anterior.

TESTS MULTIETÁPICOS

Ventajas

Limitaciones

* Permite que los sujetos revisen y cambien las respuestas a los ítems en cada etapa.
* Es posible comparar las puntuaciones de los sujetos con una norma de grupo o con un estándar de ejecución, puesto que los ítems de las dos etapas están calibrados mediante los modelos TRI.
* Los constructores de los tests pueden revisar la validez de contenido de los tests utilizados.
* Es posible utilizar formas paralelas de los tests lo que incrementaría la seguridad de los mismos.
* No precisan disponer de bancos de ítems tan amplios como los TAIs.

* No proporcionan una precisión tan alta como los TAIs en la estimación de la medida.

Si bien las investigaciones han estado más centradas en los TAIs que en los tests multietápicos, actualmente se está produciendo un interés por conocer las características de las etapas, subtests e ítems para conseguir optimizar su utilización.