Informe PISA 2018: mucho ruido y pocas nueces

Tres meses después, la OCDE sigue sin aportar una explicación de qué sucedió en España en el ciclo 2018 y siguen sin publicarse los resultados de nuestro país en el dominio principal. El caso español, lejos de ser una anécdota, siembra importantes dudas sobre la consistencia de esta evaluación internacional tras los cambios metodológicos introducidos en 2015 y 2018.

Montserrat Gomendio

Profesora de Investigación del CSIC

18 de febrero de 2020

Más de dos meses después de la presentación oficial de los resultados del ciclo 2018 de PISA (“Programa Internacional para Evaluar a los Estudiantes”), aún no conocemos las causas que llevaron a la retirada por parte de la OCDE de los resultados para España en el dominio principal (Comprensión Lectora). Tampoco están claras las razones por las que sí se hicieron públicos los de Ciencia y Matemáticas, puesto que están claramente asociados a los de lectura. Durante esta larga espera, se ha escrito mucho sobre los problemas que podrían explicar esta decisión. Sorprendentemente se ha escrito más aún sobre los resultados de Ciencias y Matemáticas, a pesar de su poca fiabilidad. Mientras seguimos en “modo espera” considero importante poner el foco del debate en un aspecto que no ha recibido mucha atención: el coste de la innovación disruptiva.

Sorprendentemente se ha escrito mucho sobre los resultados de Ciencias y Matemáticas a pesar de su poca fiabilidad

Las evaluaciones internacionales a gran escala (International Large-Scale Assessments “ILSAs”) tienen un doble objetivo: comparar el rendimiento de alumnos en diferentes países con el fin de comprender el grado de eficacia y de equidad de diferentes modelos, y analizar las tendencias a lo largo del tiempo para entender el impacto de las políticas educativas implementadas.

Estos dos objetivos a menudo entran en conflicto. Por una parte, las evaluaciones han de adaptarse a lo largo del tiempo a los cambios experimentados en los sistemas educativos, si pretenden capturar dimensiones novedosas de los mismos que se consideren relevantes a la hora de comparar el rendimiento de los alumnos en diferentes países. Por otra, para poder detectar cambios en el tiempo es necesario mantener la vara de medir intacta (o al menos parte de ella).

Determinar cuál es el balance adecuado entre el grado de innovación y la preservación de la consistencia a lo largo del tiempo es un asunto complejo. Las diferentes evaluaciones internacionales han adoptado enfoques diferentes: mientras PISA ha apostado por la innovación, otras evaluaciones internacionales como PIRLS (“Progreso Internacional en Comprensión Lectora”) y TIMSS (“Tendencias Internacionales en Matemáticas y Ciencia”) han dado más peso a la consistencia. Una de las lecciones de PISA 2018, y en menor medida de ciclos anteriores, es que esta apuesta ha tenido consecuencias imprevisibles.

Mientras PISA ha apostado por la innovación, PIRLS y TIMSS han dado más peso a la consistencia

La cuestión clave es si la innovación por la que apuesta PISA, es decir la introducción de cambios metodológicos en diferentes ciclos, le resta la “sensibilidad” necesaria para medir los cambios a lo largo del tiempo. En el caso de España los resultados de PISA muestran un estancamiento en los tres dominios desde el año 2000, cuando comenzó la participación de nuestro país en el primer ciclo. No ha habido una mejora significativa ni en Comprensión Lectora (2000 vs 2015), ni en Matemáticas (2003 vs 2015), ni en Ciencia (2006 vs 2015) (OECD 2016).

Sin embargo, en 2015 TIMSS detecta una mejora en Ciencia y, en menor medida, en Matemáticas (Martin et al. 2016, Mullis et al. 2016). Un año después (2016), PIRLS detecta una mejora sustancial en Lectura (Mullis et al. 2017). Se podría argumentar que las diferencias se deben al impacto diferencial de la Lomce en Primaria y Secundaria en los años 2015 y 2016, pues la implementación había comenzado en primaria en el curso 2014/15. Pero este debate sería muy especulativo debido a la paralización que experimentó la implementación de esta reforma y, por tanto, no es el objetivo de este análisis. La cuestión más general, que sí es posible valorar con la información publicada hasta la fecha por la OCDE, es si PIRLS y TIMSS son capaces de detectar mejoras en mayor medida que PISA.

La cuestión es si PIRLS y TIMSS son capaces de detectar mejoras en mayor medida que PISA

Cuando se comparan los resultados de PISA con los de TIMSS para los países que han participado en ambos en la evaluación de alumnos de Secundaria, se observa que PISA tiene una capacidad muy inferior de detectar cambios en el tiempo, particularmente después de los profundos cambios metodológicos introducidos en 2015 y 2018. Los estudios que han comparado el rendimiento de alumnos de Secundaria según PISA y TIMSS encuentran que los valores de los diferentes países muestran una correlación muy elevada tanto en el 2003 (Wu 2010) como en el 2015 (Klieme 2016) (años en los que coincidieron los ciclos de ambas evaluaciones).

Sin embargo, cuando se analizan los cambios en el tiempo para aquellos países que han participado en ambas, se observa que desde 2015 PISA comenzó a detectar declives o estancamientos en el rendimiento de países que mostraron mejoras en TIMSS (Klieme 2016). La conclusión de este estudio es que la limitada capacidad de PISA de detectar cambios, y su tendencia a detectar empeoramientos en lugar de mejoras en algunos casos, se debe a los cambios metodológicos implementados en PISA 2015.

Desde 2015 PISA comenzó a detectar declives o estancamientos en el rendimiento de países que mostraron mejoras en TIMSS

Los resultados de PISA 2018 parecen apoyar esta hipótesis, pues de los países participantes sólo cuatro países mejoran en el dominio principal (Comprensión Lectora) entre 2015 y 2018, mientras que 13 empeoran y 46 permanecen estancados. Cuando se consideran períodos de tiempo más largos, sólo 7 países mejoran en los 3 dominios, 7 empeoran en todos, y 12 no muestran cambios en ninguno (OECD 2019). Finalmente, si sólo se consideran los países de la OCDE, PISA no detecta cambios sustanciales en este grupo entre el año 2000 y el 2018.

La OCDE concluye que el estancamiento observado en PISA se debe a que los países no han implementado las políticas adecuadas (OECD 2019). Sin embargo, el caso de España pone de relieve hasta qué punto los cambios metodológicos que PISA ha implementado a lo largo de los ciclos (particularmente en 2015 y en mayor medida en el 2018) han limitado la capacidad de PISA de detectar cambios entre ciclos sucesivos.

Repasemos la secuencia de eventos y la evidencia disponible. Después del verano de 2019, la OCDE envió los resultados para España y las Comunidades Autónomas en PISA 2018 dándolos por buenos.

Sin embargo, dados los cambios tan bruscos experimentados en algunas CCAA, algunas de ellas llevaron a cabo un análisis detallado de la base de datos que reveló irregularidades. Dichas CCAA informaron al Ministerio de Educación y a la OCDE de los problemas detectados y, sobre la base de la información aportada, la OCDE decidió retirar los datos para España en lectura. Es decir, los datos de España se enviaron en un primer lugar pues cumplían los “estándares de calidad de PISA”, pero fueron retirados a la vista de los problemas detectados por las CCAA. Cabe preguntarse cuáles son los “estándares de calidad de PISA” que no detectaron irregularidades tan graves como para justificar la retirada de los resultados para España.

Cabe preguntarse cuáles son los "estándares de calidad de PISA" que no detectaron irregularidades tan graves como para justificar la retirada de los resultados para España

La explicación que da la OCDE en sus publicaciones es la siguiente: “los datos de España cumplen con los estándares de PISA 2018. Sin embargo, algunos datos muestran un comportamiento de respuesta “implausible” (sic) (traducción propia: inverosímil) entre los estudiantes” (OECD 2019, Anexo A9).

El intento de transferir la responsabilidad a los estudiantes españoles tuvo al principio una buena acogida en los medios nacionales, pues encajaba bien en la tendencia tan arraigada a la autocrítica y dotaba de visos de oficialidad a la percepción de que los estudiantes en nuestro país tienden a portarse mal, una premisa tan generalizada como autodestructiva. Algunos se apresuraron a concluir que la OCDE había puesto de relieve que los estudiantes españoles son unos gamberros. Sin embargo, la falta de explicaciones más convincentes y el hecho de que los datos aún no se conozcan, ha dado lugar a reflexiones más profundas y análisis más detallados.

Tal y como identificaron las Comunidades Autónomas que dieron la señal de alarma, la raíz del problema radica en una sección nueva que se denomina “fluidez lectora”. La información que provee PISA indica (OECD 2019, pág. 270) que el grupo de expertos en Lectura recomendó incluir una nueva medida de fluidez lectora que permitiese evaluar y comprender mejor las competencias en Lectura de los estudiantes que tienen un nivel de rendimiento más bajo.

Es de suponer que esta recomendación está asociada al hecho de que el crecimiento en el número de países participantes en PISA se debe fundamentalmente a la incorporación de un número cada vez mayor de países con niveles de rendimiento bajos o muy bajos. Para ello, PISA incorporó un bloque de preguntas que se habían desarrollado inicialmente para otro programa denominado “PISA para el desarrollo” (OCDE 2017) cuyo objetivo era poder diferenciar entre chicos de 15 años (escolarizados o no) con niveles bajos o muy bajos de rendimiento en países en vías de desarrollo. Siempre de acuerdo a la información aportada por la OCDE, esta sección incluía por tanto las preguntas más fáciles de comprensión lectora de toda la prueba.

PISA incorporó un bloque de preguntas para diferenciar entre chicos de 15 años con niveles bajos o muy bajos de rendimiento en países en vías de desarrollo

El problema es que una sección denominada “fluidez lectora” en PISA 2018 en realidad estaba diseñada originalmente para evaluar si los chicos de 15 años de bajo/muy bajo rendimiento tienen las capacidades cognitivas necesarias para discernir frases con sentido de otras que no lo tienen.

Así pues, este primer bloque incluye frases como “los aviones están hechos de perros” (que no tiene sentido, pero es gramaticalmente correcta) junto a otras como “el coche rojo tenía una rueda pinchada” que podría tener sentido y que es gramaticalmente correcta (pero que el alumno no sabe si es correcta desde el punto de vista factual).

Simultáneamente, PISA introdujo en 2018 otro cambio de gran envergadura que implica que cualquier problema que hubiese podido surgir con este bloque nuevo de preguntas al inicio de la prueba tiene un impacto enorme sobre el resto de la prueba.

En este ciclo, PISA se diseñó por primera vez como un “test adaptativo” lo que significa que dependiendo de cómo contestasen a las preguntas del primer bloque en etapas posteriores a los estudiantes se les asignaba un test de mayor o menor dificultad. Este diseño es muy diferente al de PISA 2015 y los ciclos anteriores en los que los alumnos no se enfrentaban a preguntas de mayor o menor dificultad dependiendo de su nivel de rendimiento en las primeras fases de la prueba. Es importante resaltar que el “test adaptativo” sólo se puede realizar en ordenador y no en papel, pues sólo en ordenador es técnicamente posible que los alumnos se enfrenten a preguntas de diferente grado de dificultad según cómo contesten en las etapas iniciales. Por lo tanto, es de esperar que los errores cometidos en el primer bloque hubiesen tenido un impacto enorme sobre toda la prueba, pues habrían dado lugar a errores en la asignación de estudiantes a preguntas de mayor o menor dificultad en todo el resto de la evaluación.

PISA introdujo en 2018 otro cambio que implica que cualquier problema con este bloque tiene un impacto enorme sobre el resto de la prueba

Según la publicación de PISA 2018 un “elevado número” de estudiantes españoles respondieron a este bloque inicial de preguntas de forma que no era representativa de su verdadera competencia en Comprensión Lectora (OECD 2019, Anexo A9). Al parecer estos estudiantes dedicaron muy poco tiempo a este bloque de preguntas y siguieron un mismo patrón (respondiendo a todo con un “sí” o “no”), pero luego continuaron el test contestando a preguntas de mayor dificultad de acuerdo a su nivel de rendimiento.

Aunque en la publicación de la OCDE se afirma en la sección dedicada a España que este problema sólo se dio en nuestro país (OECD 2019, pág. 208), en una sección diferente se denomina a este comportamiento “straightlining” (lo que se podría traducir como “comportamiento lineal”) y se informa que más del 2% de los alumnos de alto rendimiento siguieron esta pauta en al menos otros siete países (incluyendo Corea del Sur, un país con unos niveles de rendimiento y de disciplina muy elevados) y con una incidencia aún mayor en países como Kazakhstan y la República Dominicana (OECD 2019, pág. 202). La OCDE no aporta datos sobre la prevalencia de este comportamiento de respuesta entre todos los estudiantes, pero reconoce que es posible que algunos estudiantes no leyeran las instrucciones con cuidado o que el “formato inusual de este bloque de fluidez lectora desencadenara una respuesta de desconexión”.

Este comportamiento lineal se dio en al menos otros siete países, incluyendo Corea del Sur, un país con unos niveles de rendimiento y de disciplina muy elevados

El caso de España ilustra de forma muy clara cómo los cambios metodológicos introducidos en los últimos ciclos de PISA han dado lugar a problemas metodológicos graves que parecen haber afectado a otros países. Se desconoce la magnitud del problema pues otros países se han fiado de la información recibida y no han realizado aún análisis independientes de los datos. Sin embargo, la falta de explicaciones por parte de la OCDE ha generado un nivel de desconfianza que urge restablecer para que la evidencia que provee PISA sobre las buenas prácticas a nivel internacional sea considerada a la hora de implementar políticas educativas en nuestro país.

Ello requiere que PISA y la OCDE rindan cuentas ante los países que deciden someterse a su “examen”. Participar en PISA no sólo requiere recursos públicos, también supone que los diferentes Gobiernos y políticas educativas se expongan a la aprobación o el escarnio público. A cambio es fundamental exigir mayor transparencia sobre la metodología y que los resultados que se publiquen sean robustos y fiables. Hay mucho en juego.

Sorprendentemente el tiempo de espera se alarga ….

Referencias

Klieme E. (2016) TIMSS 2015 and PISA 2015 How are they related on the country level? DIPF Working Paper, December 12 2016

LOMCE: Ley Orgánica 8/2013 para la mejora de la calidad educativa. BOE 295 (10 diciembre 2013): 12886

Martin M.O., Mullis I.V.S., Foy P. & Hooper M. (2016) TIMSS 2015 International results in science. Boston College.

Mullis I.V.S., Martin M.O., Foy P. & Hooper M. (2016) TIMSS 2015 International results in mathematics. Boston College.

Mullis I.V.S., Martin M.O., Foy P. & Hooper M. (2017) PIRLS 2016 International results in reading. Boston College.

OECD (2016a) PISA 2015 Results (Volume I): Excellence and equity in education. OECD Publishing, Paris.

OECD (2017) PISA for Development assessment and analytical framework: reading, mathematics and science. OECD Publishing, Paris.

OECD (2019) PISA 2018 results (Volume I): What students know and can do. OECD Publishing, Paris.

Wu, M. (2010). Comparing the similarities and differences of PISA 2003 and TIMSS. OECD Education Working Papers, No. 32. OECD Publishing, Paris. http://dx.doi.org/10.1787/5km4psnm13nx-en