Reflexiones sobre evaluación a cargo de Juan G. Fernández

Si al hablar de Educación siempre hay que tener mucha cautela, lo mismo sucede al hablar de evaluación. Como es habitual en temas educativos, el escollo principal es que todos hemos sido objeto de la Educación.

Carmen Iglesias @carmeniglesiasbMiércoles, 20 de octubre de 2021

Juan G. Fernández es un docente que hace unos años empezó a leer libros de Educación. Se dio cuenta de que muchas veces no eran accesibles a sus compañeros porque estaban en inglés, así que decidió empezar a resumir y traducir los más significativos en un blog. Comenzó por los que eran utilizados como referencia en el mundo anglosajón. Poco a poco la lista de libros fue aumentando, sumándose artículos científicos y otros blogs de referencia. El blog creció y el número de lectores también. Para todos los docentes con ganas de investigar, y para todos los investigadores docentes, esta web incorpora todo lo leído, compartido y aprendido en esta aventura que continúa.

Nuestra experiencia de alumno condiciona nuestra visión de adulto. Por eso, al hablar de evaluación es imposible desconectar de esas veces que nos sentimos injustamente tratados, o en aquellas otras en las que se nos dijo algo que nos ayudó a creer más en nosotros mismos. Si algo he aprendido en los años que llevo leyendo sobre Educación para mi blog investigacióndocente.com es que lo que experimentamos tiene que ver con lo que recordamos. Es decir, que no experimentamos la realidad tal y como es; sino que experimentamos lo que queda tras pasar por el filtro de lo que ya teníamos en nuestra mente. Y yo no soy una excepción, así que lo que escribo aquí tiene que ver con lo que pienso en función de lo que he vivido y pensando antes. Esto no es ni una virtud ni un defecto, simplemente corresponde a la realidad.

Quiero pensar que esta es una buena razón de muchos desencuentros entre docentes. Nuestras vivencias pasadas y nuestras circunstancias presentes son tan diferentes que apostamos por planteamientos muy diferentes. No soy tan ingenuo como para pensar que esa es la única razón de los desencuentros: hay ideas contradictorias y diferencias de fondo. Pero, al final, a casi todos nos preocupa lo mismo: el aprendizaje de nuestros alumnos y alumnas. Por eso, tanto en esto como en tantas otras cosas, mi apuesta es intentar alejarme de lo que “a mí me ha funcionado” como alumno o como docente; y acercarme a lo que los mejores estudios dicen que “funciona en general”.

Evaluación Formativa

En este sentido, en las últimas décadas la investigación corrobora la eficacia de lo que se denomina la evaluación formativa. Como suele ser habitual, al final el nombre se toma a la ligera y se acaba llamando evaluación formativa a casi cualquier cosa. Por eso es necesario empezar clarificando en qué consiste exactamente.

La pareja de términos “evaluación formativa” fue acuñada por Michael Scriven en 1967 [1] para describir el papel que la evaluación podría jugar en la mejora del currículum. Dos años después, Bloom [2] aplicó el mismo concepto a la hora de calificar: “Es mucho más efectivo el uso de la evaluación formativa si es separada del proceso de calificación y usada primordialmente como ayuda a la enseñanza-aprendizaje”.

Quizás la fecha más importante fue 1998, cuando Dylan Wiliam y Paul Black [3] comienzan una revisión sistemática de todo lo que había sido publicado acerca de la evaluación formativa. Para ello, revisaron uno a uno todos los números publicados de 66 revistas científicas de Educación y psicología. De esa búsqueda localizaron 250 estudios relevantes y de condiciones muy variadas: edades, países, realidades socioculturales, etc. Las pruebas de que la evaluación formativa funcionaba en todos esos contextos la definían como una herramienta eficaz y robusta que merecía la pena desarrollar. La definición de evaluación formativa que Black y Wiliam dieron después de sus investigaciones es: «todas las actividades preparadas por los profesores y/o sus alumnos, que proveen información usada como feedback para modificar las actividades posteriores de enseñanza y aprendizaje que se lleven a cabo con esos alumnos”.

En resumen, una evaluación es formativa cuando los resultados de dicha evaluación condicionan los siguientes pasos que ocurren en el propio aula y en el proceso de aprendizaje. Se trata de pensar cómo puedo interactuar con los alumnos mientras están aprendiendo, con el objetivo de fortalecer ese aprendizaje.

Las implicaciones del párrafo anterior no son pequeñas: los instrumentos de evaluación no son formativos en sí mismos, depende de cómo los use. Un ejemplo habitual son las rúbricas: pueden usarse para calificar o para evaluar formativamente (un buen ejemplo de esto es la referencia número 6). La herramienta no garantiza el propósito formativo de la evaluación. Repartir stickers, bonos o hasta criptomonedas puede ser sustituir a los positivos, pero no convierte a una evaluación en formativa. La diferencia, y esto es importante, es si la información que aporta el instrumento de evaluación (sea cual sea) permite una acción inmediatamente posterior que cambia, por ejemplo, lo que vamos a trabajar en clase al día siguiente. Yo puedo pasar un test esta tarde, que me da información acerca de que el 40% de la clase no sabe qué pasa si riego una planta con agua salada. Así, decido volver a dedicar tiempo mañana a este caso práctico.

Otra conclusión importante es que la evaluación formativa no tiene nada que ver con la calificación. Puedo seguir calificando como hasta ahora mientras implemento este tipo de estrategias. Lo que pasa es que tiene poco sentido recoger información de cada día para tomar decisiones y no utilizarla también para evaluar los criterios de evaluación que recoge el currículum. Un ejemplo real de mi día a día enseñando biología a chicos y chicas de 3º ESO. Si una alumna me demuestra, en sucesivas recogidas de información formativa en días distintos, que “diferencia los distintos tipos celulares, describiendo la función de los orgánulos más importantes”, quizás no necesite más pruebas de que cumple con este criterio de evaluación recogido en el currículum oficial de mi comunidad autónoma.

Y llegamos aquí al núcleo de la problemática: ¿Qué pasa entonces con las notas?

Algunos estudios nos advierten del poder seductor de los números, de forma que al escribir una nota toda la atención de familias y alumnos se dirigen hacia ellas [4]. Si al dar una nota toda la atención se dirige a la nota, y además no aporta información de los siguientes pasos a seguir, podemos pensar, por tanto, que no es buena idea devolver una tarea sólo con una nota. Desde luego, no es formativa porque no dice nada de lo que se puede hacer después, más allá de “necesita trabajar más”. Esto es cierto, pero…¿en qué exactamente?

¿Cómo cambiará su forma de trabajar?

Incluso dos alumnos con una misma nota, un 6 por ejemplo, pueden necesitar cosas totalmente diferentes porque saben y saben hacer cosas totalmente diferentes.

En este nudo de problemas no podemos obviar otro muy importante: el número de alumnos a los que se puede aplicar una evaluación formativa de manera sostenible y continuada. De hecho, algunos estudios alertan del impacto de la cantidad de grupos y alumnos en aspectos como la evaluación [5]. Por eso, al hablar de evaluación salen a la superficie otros problemas del actual sistema educativo que exceden a las posibilidades de análisis de este artículo. Sí que me parece importante señalar que el problema de la evaluación, como tantos otros, está conectado a problemas estructurales que afectan a los recursos, la formación del profesorado y, en definitiva, a la posibilidad real de implementar cambios profundos en temas fundamentales como éste.

Ante este problema, una solución posible es abolir las notas. Sin embargo, y retomando los párrafos iniciales, soy prudente en nuestra capacidad de juzgar con objetividad. Una persona que sabe mucho, pero nos cae antipática, tal vez reciba una evaluación peor. Y otra persona con muy buena actitud, o con una situación familiar complicada, pero que ha aprendido muy poco, nos afectará de forma comprensible y tal vez nos haga “más relajados” en su evaluación por criterios.

Nos convertimos entonces en evaluadores de “situaciones vitales”, o de “personalidades”… No me preocupa el efecto de esto en algunos casos; pero sí me preocupa, y mucho, el efecto sobre dos cosas: el acceso a la universidad y la evaluación de nuestra propia labor docente.

Cada docente puede dar importancia a una cosa u otra, y depende del que te toque habrá un enorme conjunto de variables que influirán en que accedas o no a la universidad. Y toda esta subjetividad beneficiará, de hecho, a los alumnos con más posibilidades de influir en el juicio de sus docentes. Este hecho no es exclusivo de evaluar por criterios, también pasa con las calificaciones numéricas hacia las que mantengo también un cierto escepticismo. No necesito explicar las situaciones que ya se dan en este sentido.

Además de eso, si la evaluación se basa exclusivamente en nuestro criterio me parece fácil que queramos demostrar que nuestra metodología funciona. En el fondo, es parecido a afirmar que lo hemos hecho muy bien como docentes. Las evaluaciones serán todas magníficas, y cualquier metodología que usemos en el aula obtendrá una supuesta prueba de su eficacia. Por tanto, defiendo que necesitamos una evaluación objetiva como datos que orienten nuestra labor docente, y que no estén sometidos a sesgos porque, en el fondo, lo que evalúo tiene que ver también con lo bien que lo hago yo como maestro.

¿Cómo solucionar ambos problemas? En definitiva: ¿cómo combinar una evaluación formativa y por criterios como elemento ordinario, con momentos puntuales y externos que verifiquen y aseguren una mayor objetividad?

Me atrevo a proponer, aunque sea impopular, la posibilidad de establecer pruebas estandarizadas. Por un lado, pruebas diagnósticas para evaluar la situación de cada centro. Para evaluar su funcionamiento para poder destinar mayores inversiones allí donde haga falta. Para evaluar también la eficacia de programas y metodologías de una forma científica. Por cierto, metodologías que, algunas veces, nunca se han evaluado objetivamente [7].

Además de eso, las pruebas estandarizadas tendrían más sentido en los cursos previos al acceso a la universidad. Lo primero que conseguiríamos es que los docentes dispondríamos de muchísimo más tiempo para otras cosas, porque ya no tendríamos que calcular notas finales, ni negociar con propios y extraños en bachillerato qué número es el que mejor refleja la realidad del alumno. Si las pruebas están bien diseñadas, orientarían la labor docente (como de hecho ya lo hace la prueba de acceso a la universidad sin estar bien diseñada, en mi opinión).

El diseño de estas pruebas es una parte clave de esta propuesta. Yo apostaría por establecer colegios profesionales de docentes, que además se encargaran de la formación en didáctica específica por especialidades. Estos colegios serían además un lugar de encuentro entre docentes y especialistas universitarios y maestros y profesores de las etapas escolares. Me inspiran en este sentido organizaciones como el Chartered College of Teaching [8] o la Australian Professional Teachers Association [9]. Finalmente, fruto de esta colaboración serían pruebas de acceso bien diseñadas que se podrían establecer a nivel estatal y que además servirían para orientar el currículum de manera más efectiva.

Algunos obstáculos

Como cualquier propuesta de un tema complejo, mi idea tiene muchos límites y bastantes dificultades que habría que ir matizando en su puesta en práctica. Me parece oportuno resaltar algunos de los principales obstáculos que me han hecho llegar cuando he compartido esta idea con otros docentes. La primera es que las pruebas podrían dirigir excesivamente la docencia del día a día, lo que se ha denominado el “Teaching to the test” en USA y que puede acarrear efectos negativos. Otro obstáculo importante es la adaptación de estas pruebas a la diversidad que nos encontramos habitualmente en el aula, y por eso necesitaríamos versiones de las pruebas que pudieran acoger esta diversidad. Finalmente, un obstáculo obvio es que se puede caer en los mismos vicios y sesgos que he criticado a lo largo del artículo. Es evidente que un cambio en la evaluación no cambia la cultura docente, más bien al contrario: a través de un cambio en la cultura docente se puede producir un cambio en la evaluación. Esta idea ha sido muy bien señalada por Neus Sanmartí, por ejemplo en [10].

Otros problemas que me han propuesto me parecen más discutibles. Las pruebas estandarizadas, bien diseñadas, comprueban lo obtenido evaluando por criterios en el día a día.
Siguiendo el ejemplo del principio: si una persona ha logrado “diferenciar los distintos tipos celulares, describiendo la función de los orgánulos más importantes” en su día a día, pero luego no sabe diferenciar una célula eucariota de una procariota en una prueba, esto constituye una información muy valiosa. ¿Estoy enseñando para la memoria a largo plazo? ¿Constituyen los aprendizajes cambios significativos en la comprensión de ideas claves? Más que un defecto de mi propuesta, me parece uno de sus puntos más fuertes. En el mismo sentido, la prueba estandarizada genera estrés en quien duda de lo que supuestamente ha aprendido. La construcción de seguridad en lo aprendido, a base de una evaluación formativa y prácticas de evocación frecuente, mejora el desempeño en tests globales. Y de esto hay numerosas pruebas [11, 12].

La evaluación importa porque en ella nos jugamos el para qué de la educación. Tengo un buen amigo que dice que al educar siempre hay una meta, consciente o inconsciente. Al final del proceso de educar hay un ideal de ciudadano o de persona. Y si estamos logrando llegar a ese ideal o no, es lo que se juega en la evaluación. Merece la pena poner posibilidades encima de la mesa, que es lo que trato de hacer en este artículo. Como idea, no espero que se acepte, sino que se critique. Tal vez, a través de esta crítica, vislumbremos lo que de verdad es importante para nosotros cuando hablamos de evaluación.

1. Scriven, M. (1967). The methodology of evaluation (Vol. 1). Washington, DC: American
Educational Research Association.
2. Bloom, B. (1969). Some theoretical issues relating to education evaluation. Teachers College
Record, 70(10), 26-50.
3. Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education:
principles, policy & practice, 5(1), 7-74.
4. Butler, D. L., & Winne, P. H. (1995). Feedback and self-regulated learning: A theoretical
synthesis. Review of educational research, 65(3), 245-281.

5. Blatchford, P., & Russell, A. (2020). Rethinking Class Size: The complex story of impact on
teaching and learning. UCL Press.
6. Panadero, E., Alonso-Tapia, J., & Huertas, J. A. (2014). Rubrics vs. self-assessment scripts:
effects on first year university students’ self-regulation and performance/Rúbricas y guiones de
autoevaluación: efectos sobre la autorregulación y el rendimiento de estudiantes universitarios de
primer año. Infancia y Aprendizaje, 37(1), 149-183.
7. Ferrero, M., Vadillo, M. A., & León, S. P. (2021). A valid evaluation of the theory of multiple
intelligences is not yet possible: Problems of methodological quality for intervention studies.
Intelligence, 88, 101566. https://doi.org/https://doi.org/10.1016/j.intell.2021.101566
8. https://chartered.college
9. https://www.apta.edu.au
10. Charlas educativas de Ingrid Mosquera: https://www.youtube.com/watch?v=H9jxImSMi9o
11. Adesope, O. O., Trevisan, D. A., & Sundararajan, N. (2017). Rethinking the use of tests: A
meta-analysis of practice testing. Review of Educational Research, 87(3), 659-701.
12. Yang, C., Luo, L., Vadillo, M. A., Yu, R., & Shanks, D. R. (2021). Testing (quizzing) boosts
classroom learning: A systematic and meta-analytic review. Psychological Bulletin.