Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
TEMA 1
LA EVALUACIÓN LINGÜÍSTICA: CONTEXTO, HISTORIA, TEMAS Y
TENDENCIAS
Tabla de contenido
1 INTRODUCCIÓN..........................................................................................................2
2 EL INTERÉS POR LA EVALUACIÓN........................................................................2
2.1 La naturaleza y la calidad de las pruebas................................................................3
2.2 Los efectos de la evaluación en los estudiantes.......................................................4
2.3 La justicia de las pruebas con las minorías..............................................................6
3 BREVE HISTORIA DE LA EVALUACIÓN LINGÜÍSTICA.....................................7
3.1 La tendencia precientífica........................................................................................7
3.2 La tendencia psicométrica-estructuralista...............................................................8
3.3 La tendencia integradora-sociolingüística.............................................................11
3.4 La tendencia comunicativa....................................................................................12
4 LOS AVANCES TECNOLÓGICOS EN LA EVALUACIÓN LINGÜÍSTICA.........13
5 REFERENCIAS BIBLIOGRÁFICAS.........................................................................14
2
1 INTRODUCCIÓN
Los resultados específicos del aprendizaje que el estudiante debe alcanzar al final de
este tema son:
A principios de los años 60, algunos autores, como Hoffman (1962, p. 22), sostuvieron
que los ítems de elecciones múltiples penalizaban a las personas más inteligentes,
originales o “excepcionales”. Hoffman (1962) apoyó sus afirmaciones en una revisión
de ítems de pruebas estandarizadas que mostraba que era probable que algunos
estudiantes muy creativos y con un grado elevado en la capacidad evaluada realizaran
interpretaciones que no habían sido previstas por los diseñadores de las pruebas1.
1
Davies et al. (1999, p. 187) definen una prueba estandarizada como sigue:
Una prueba que idealmente tiene las siguientes características, aunque las pruebas
lingüísticas llamadas estandarizadas no siempre poseen todas estas características:
Hoffman (1962, p. 17), por ejemplo, incluyó la siguiente carta, dirigida al director del
Times:
Estimado señor:
Entre las preguntas del tipo “marca el elemento diferente” que mi hijo tuvo que responder
en una prueba para entrar en un colegio estaba: “¿Cuál es el elemento diferente en cricket,
fútbol, billar y hockey?
Yo dije billar porque es el único juego que se realiza dentro de un edificio. Un compañero
dijo fútbol porque es el único en el que la pelota no es golpeada con un instrumento. Un
vecino dijo cricket porque en los demás juegos el objetivo es meter la pelota en una red; y
mi hijo, con la confianza que dan nueve primaveras, se decide por el hockey porque “es el
único juego de niñas”.
Aunque las críticas de Hoffman (1962) tuvieron bastante eco, Hoffman también animó a
que los autores de las pruebas añadieran un análisis lógico y cuidadoso de los ítems al
análisis estadístico de los ítems. Frederiksen (1984, p. 199) observó que los problemas
en las pruebas estandarizadas suelen estar bien estructurados, es decir, “están
expresados con claridad, toda la información necesaria para resolver el problema está
disponible en el problema o -presumiblemente- en la cabeza del estudiante, y existe un
algoritmo que garantiza una solución correcta si se aplica adecuadamente”. Sin
embargo, la mayoría de los problemas importantes a los que uno se enfrenta en la vida
están mal estructurados, es decir, son
Estas críticas han conducido a un mayor énfasis en las preguntas abiertas y en el diseño
de pruebas que utilizan simulaciones por ordenador.
Una gran parte de las malas interpretaciones y de los malos usos de las puntuaciones
de las pruebas se evitarían si el usuario de la prueba fuera consciente de la naturaleza
limitada de la información que una prueba proporciona. Un buen usuario de una prueba
tiene en cuenta el error que puede existir en las puntuaciones de la prueba y utiliza otras
informaciones, aparte de la puntuación en la prueba, a la hora de tomar su decisión.
Afirmar que se toman mejores decisiones sin las puntuaciones de las pruebas es afirmar
que se toman mejores decisiones cuando existe menos información. Las puntuaciones
de una prueba son ciertamente falibles, pero probablemente son menos falibles que la
mayoría de los otros tipos de información que se utilizan para tomar las decisiones
educativas.
Los críticos de la evaluación afirman que la evaluación tiene efectos indeseables en los
estudiantes. Algunos de las críticas más mencionadas al uso de las pruebas aparecen a
continuación, seguidas de unos breves comentarios.
No cabe duda de que la ansiedad aumenta durante la realización de una prueba. Para la
mayoría de los estudiantes, la evaluación los obliga a actuar mejor. Para unos pocos, la
ansiedad causada por la prueba puede ser tan elevada que interfiere en la actuación en la
prueba. Estos estudiantes suelen tener una ansiedad elevada y la prueba, simplemente,
aumenta su nivel de ansiedad. Se pueden utilizar diferentes procedimientos para reducir
la ansiedad causada por la prueba, como una preparación concienzuda antes de la
prueba, el ensayo de la prueba, y proporcionar el tiempo suficiente para que el
estudiante pueda realizar la prueba con una cierta tranquilidad. Afortunadamente, en los
últimos años los diseñadores de muchas pruebas también proporcionan versiones para
que el estudiante ensaye y se ha pasado de las pruebas de velocidad a las pruebas de
potencia. Esto debería ayudar, pero, aun así, resulta necesario observar cuidadosamente
a los estudiantes durante la realización de la prueba y reflexionar acerca de las
puntuaciones obtenidas por los estudiantes a los que la prueba les produce un elevado
nivel de ansiedad.
Existen profesores que a partir de las puntuaciones en las pruebas atribuyen estereotipos
a los estudiantes, que puede tener un efecto no deseado en el autoconcepto de los
estudiantes. También ocurre que el estudiante desarrolla un sentimiento general de
fracaso a partir de una puntuación baja. Los profesores debemos explicar a los
estudiantes que reciben una puntuación baja que las pruebas son medidas limitadas y
que nuestras competencias (y, por tanto, las puntuaciones) cambian. Además, se puede
6
Crítica 4: Las pruebas influyen en las expectativas de los profesores, que, a su vez,
influyen en las expectativas propias de los estudiantes
Aquéllos que utilizan esta crítica sostienen que cuando un profesor asigna una
puntuación a una prueba se produce el siguiente proceso:
1. Las puntuaciones en las pruebas crean expectativas en los profesores acerca del
aprendizaje de cada estudiante.
2. El profesor enseña a cada estudiante en función de estas expectativas.
3. Los estudiantes responden situándose en el nivel esperado.
Por tanto, aquéllos de quienes se espera que consigan más, consiguen más, y aquéllos de
quienes se espera que consigan menos, consiguen menos. Este efecto, llamado efecto
Pygmalion, fue estudiado por Rosenthal y Jacobsen (1968), aunque el estudio fue luego
cuestionado por otros investigadores (Elashoff y Snow, 1971; West y Anderson, 1976).
Está muy extendida la creencia de que las expectativas del profesor aumentan u
obstaculizan el aprovechamiento de un estudiante.
En resumen, existe algo de razón en las diferentes críticas acerca de los efectos
indeseables de las pruebas en los estudiantes. Pero en la mayoría de los casos estas
críticas deberían ser dirigidas a los usuarios de las pruebas, en lugar de a las pruebas
mismas. Es probable que las mismas personas que utilizan mal los resultados de una
prueba utilicen mal otras informaciones, que probablemente son menos precisas y
objetivas. Por tanto, la solución no es dejar de utilizar las pruebas, sino empezar a
utilizar las pruebas y otros datos con más efectividad. Cuando se utilizan las pruebas de
un modo positivo –es decir, para ayudar a que los estudiantes mejoren su aprendizaje–
es probable que las consecuencias sean beneficiosas.
1. La tendencia precientífica.
2. La tendencia psicométrica-estructuralista.
3. La tendencia integradora-sociolingüística.
Para Spolsky (1978, v), la tendencia precientífica, que aún prevalece en muchos lugares
del mundo, se puede caracterizar por una ausencia de preocupación por las cuestiones
estadísticas o por nociones como la objetividad y la fiabilidad:
1. Los evaluadores, es decir, los psicólogos responsables del desarrollo de las teorías y
las técnicas modernas de la medición en la educación, cuyo objetivo principal es
proporcionar medidas objetivas mediante la utilización de diferentes técnicas
estadísticas, que permiten que las puntuaciones sean fiables y que las
interpretaciones que realizamos a partir de las puntuaciones sean válidas:
Tabla 1 Puntuaciones asignadas por 10 profesores (instructors) a una muestra de 10 pruebas (papers)
finales de inglés del primer curso de la Universidad de Wisconsin (Starch, 1913, p. 630).
9
Los evaluadores educativos han desarrollado diferentes tipos de ítems, como los
ítems de elecciones múltiples, que permiten comprobar con relativa facilidad si las
puntuaciones son fiables, y una serie de técnicas cuyo objetivos son conseguir que
las puntuaciones que los diferentes correctores asignan sean más fiables. En esta
tendencia se considera que la cuantificación de la fiabilidad y de la validez en las
pruebas tiene la máxima importancia.
Spolsky (1978, p. vi) mencionó dos problemas que tienen las pruebas
lingüísticas desarrolladas exclusivamente por los evaluadores:
Se obtienen varias conclusiones. Estas conclusiones son (1) que existe un gran retraso
en la medición del inglés como lengua extranjera, (2) que el retraso está relacionado
con concepciones acientíficas de la lengua, (3) que la ciencia del lenguaje debería ser
utilizada en la definición de qué enseñar… El estudio proporciona procedimientos
para la aplicación de la lingüística al desarrollo de pruebas de lengua extranjera (Lado,
1950, cit. en Carroll, 1953, p. 195).
La autopista del cielo por encima de la cima del mundo se ha convertido en la piedra de toque de la
historia del viaje intercontinental, marcando el comienzo de una nueva edad en la aviación comercial
(Mapa de las Rutas de las Líneas Aéreas Escandinavas)
Este énfasis en un enfoque integrado convierte a Carroll, según Spolsky (1978, p. ix), en
el primer partidario de la tendencia integradora-sociolingüística, que es el objeto del
siguiente apartado.
Según Carroll (1961[1965], p. 370), el enfoque integrador poseía ciertas ventajas que no
tenía la tendencia psicométrica-estructuralista:
1. Los ítems o las tareas que constituyen una prueba diseñada según la tendencia
integradora-sociolingüística se seleccionan a partir de un conjunto que es más
amplio que el conjunto a partir del cual se seleccionan los ítems o las tareas de
una prueba psicométrica-estructuralista. Según Carroll, esto es una ventaja,
puesto que facilita la construcción de una prueba que es independiente de los
currículos que han seguido los examinandos que van a realizar la prueba.
2. Parece que es más sencillo relacionar las tareas de una prueba integradora-
sociolingüística con diferentes niveles de competencia.
2
Oller (1979, p. 37) definió una prueba de puntos discretos como una prueba “que intenta concentrar la
atención en un punto de la gramática cada vez”:
Posteriormente, Canale and Swain (1980, pp. 28-31) y Canale (1983, 338-342)
desarrollaron su concepto de competencia comunicativa, que ha sido muy
influyente en la evaluación lingüística.
3
En cursiva en el original.
13
• La capacidad de realizar las pruebas cuando el candidato lo solicita y cuando es conveniente para
el candidato.
• La posibilidad de crear preguntas que se pueden almacenar en “bancos de preguntas” y de
presentar estas preguntas aleatoriamente, reduciendo la evaluación “en serie”, es decir, la
necesidad de evaluar el mismo día a la misma hora a todos los candidatos.
• La desaparición de complejos problemas logísticos, como la distribución, el almacenamiento y el
seguimiento de los impresos de examen.
• Las pruebas pueden ser realizadas sin una conexión a Internet, por lo que se minimiza el riesgo
de fallos del sistema.
• Reducción del esfuerzo y del tiempo al corregir y presentar los informes de los resultados.
• Resultados instantáneos y retroalimentación diagnóstica inmediata, que indican los puntos
fuertes y las áreas que el candidato debe mejorar.
Aunque estas ventajas son importantes, los cambios más significativos importantes
han tenido lugar como consecuencia del hecho de que el ordenador puede hacer
14
fácilmente cosas que no resultan sencillas con una prueba de lápiz y papel. La
tecnología permite, por ejemplo, introducir grabaciones en vídeo o plantear problemas
que obligan a los estudiantes a utilizar Internet, lo cual añade todas las ventajas que
estas tecnologías pueden aportar durante los procesos de enseñanza y evaluación.
El cambio más ampliamente difundido en la evaluación lingüística ha sido el uso del
ordenador para realizar pruebas adaptativas, es decir, pruebas en las que la elección
del siguiente ítem está basado en las respuestas previas del examinando, como las
pruebas DIALANG. Las pruebas adaptativas pueden aumentar la calidad de la
información disponible y, por tanto, de las decisiones que se adoptan a partir de la
información disponible. Una prueba adaptativa normalmente comienza con la
presentación de un ítem que se cree que tiene una dificultad media para el examinando.
El segundo ítem y los siguientes están determinados por las respuestas previas del
examinando. En general, si un examinando responde un ítem correctamente, el
programa selecciona a continuación un ítem un poco más difícil. Y, al contrario, se
presenta un ítem un poco más fácil después de una respuesta incorrecta. La prueba
finaliza cuando las estimaciones de la actuación del examinando alcanzan un nivel
predeterminado de precisión o cuando se ha presentado un determinado número de
ítems. Se ha demostrado que la evaluación adaptativa puede aumentar la eficiencia y la
precisión de las medidas de ciertos tipos de conceptos, destrezas y habilidades. En
algunos casos, las pruebas adaptativas pueden alcanzar el mismo nivel de fiabilidad que
una prueba convencional de lápiz y papel, pero en la mitad de tiempo.
Sin embargo, no comprenderéis todo el potencial de la utilización de los
ordenadores durante el proceso de evaluación si sólo consideráis que los ordenadores
son herramientas para presentar los ítems más fácilmente: ¡el ordenador puede medir
competencias que no se miden adecuadamente en las pruebas convencionales de lápiz y
papel! Las grabaciones en video permiten presentar problemas que tienen un mayor
realismo que los problemas normalmente planteados en las pruebas de lápiz y papel. La
simulación de problemas presentada a través de un ordenador tienen varias ventajas
respecto a las pruebas de lápiz y papel en la enseñanza del español como segunda
lengua: la simulación puede obligar a que el examinando concentre su atención en el
uso de la información para resolver un problema y puede ayudar a evaluar no sólo el
producto del estudiante sino también el proceso que el estudiante utiliza para realizar la
actividad, incluyendo el modo en que la actividad es abordada, la calidad de la solución
y el número de sugerencias que pueden ser necesarias para resolver la actividad.
5 REFERENCIAS BIBLIOGRÁFICAS
CANALE, Michael. “On some dimensions of language proficiency”. En: OLLER, John
W. (ed.). Issues in language testing research. Rowley, Massachusetts: Newbury
House, pp. 333-342.
CANALE, Michael; SWAIN, Merrill. “Theoretical bases of communicative approaches
to second language teaching and testing”. Applied Linguistics. 1980, vol. 1, pp. 1-47.
CARROLL, John Bissell. The study of language: A survey of linguistics and related
disciplines in America. Cambridge: Harvard University Press, 1953.
CARROLL, John Bissell. “Fundamental considerations in testing for English language
proficiency of foreign students”. En: Testing the English proficiency of foreign
students. Washington, D.C.: Center for Applied Linguistics, 1961, pp. 30-40.
Reimpr. en: ALLEN, Harold B (ed.). Teaching English as a second language: A
book of readings. New York: McGraw-Hill, 1965, 364-372.
DAVIES, Alan; BROWN, Annie; ELDER, Cathie; HILL, Kathryn; LUMLEY, Tom;
McNamara, Tim F. Dictionary of language testing. Cambridge: Cambridge
University Press, 1999.
ELASHOFF, Janet D.; SNOW, Richard E. Pygmalion reconsidered; a case study in
statistical inference: reconsideration of the Rosenthal-Jacobson data on teacher
expectancy. Worthington, Ohio: Charles A. Jones, 1971.
ESPAÑA. Ley Orgánica 2/2006, de 3 de mayo, de Educación. Boletín Oficial del
Estado, 4 de mayo de 2006, núm. 106, pp. 17158-17207.
FREDERIKSEN, Norman. “The real test bias: Influences of testing on teaching and
learning”. American Psychologist. 1984, vol. 39, n.º 3, pp. 193-202.
FULCHER, Glenn. “Book Review: A history of foreign language testing in the United
States: from its beginnings to the present”. Language Testing. 1999, vol. 16, no. 3,
pp. 389-398.
HOFFMAN, Banesh. The tyranny of testing. New York: Crowell-Collier, 1962.
HYMES, D.H. “On communicative competence”. En: PRIDE, J.B.; HOLMES, Janet
(eds.). Sociolinguistics: selected readings. Hardmondsworth: Penguin, 1972, pp.
269-293.
INGRAM, Elisabeth. “Attainment and diagnostic test”. En: DAVIES, Alan (ed.).
Language testing symposium: a psycholinguistic approach. London: Oxford
University Press, 1968, pp. 70-97.
LADO, Robert. Measurement in English as a foreign language with special reference
to Spanish-speaking adults. Tesis doctoral. Ann Arbor, Michigan: University of
Michigan, 1950.
LINN, Robert L.; GRONLUND, Norman E. Measurement and assessment in teaching.
Saddle River, New Jersey: Prentice-Hall, 2000.
OLLER, John W. Language tests at schools. London: Longman, 1979.
ORGANIZACIÓN PARA LA COOPERACIÓN Y EL DESARROLLO
ECONÓMICOS. Organisation for Economic Co-operation and Development [en
línea]. Paris: Organisation for Economic Co-operation and Development, s.d. [ref.
de 14 de enero de 2007 5:06]. OECD Programme for International Student
Assessment (PISA): PISA en español. Disponible en World Wide Web:
<http://www.pisa.oecd.org/document/25/0,3343,en_32252351_32235731_39733465
_1_1_1_1,00.html>.
PEARSON DRIVING ASSESSMENT. Pearson VUE [en línea]. London: Pearson
VUE, 2007 [ref. de 27 de octubre de 2007 20:37]. Computer-based testing: benefits.
Disponible en World Wide Web:
<http://www.pearsonvue.co.uk/home/cbt/benefits/>.
16
PILLINER, Albert E.G. “Subjective and objective testing”. En: DAVIES, Alan (ed.).
Language testing symposium: a psycholinguistic approach. London: Oxford
University Press, 1968, pp. 19-35.
ROSENTHAL, Robert; JACOBSEN, Lenore. Pygmalion in the classroom: teacher
expectation and pupils’ intellectual development. New York: Holt, Rinehart and
Winston, 1969.
SHOHAMY, Elana. “Second language assessment”. En: TUCKER, G. Richard;
CORSON, David (eds.). Encyclopedia of language and education, vol. 4: second
language education. Dordrecht: Kluwer, 1997, pp. 141-149.
SPOLSKY, Bernard. “Introduction: linguists and language testers”. En: SPOLSKY,
Bernard (ed.). Approaches to language testing. Arlington, Virginia: Center for
Applied Linguistics, 1978, pp. v-x.
STARCH, Daniel. “Reliability and distribution of grades”. Science. 1913, vol. 38, no.
983, pp. 630-636.
STARCH, Daniel; ELLIOTT, Edward C. “Reliability of the grading of high-school
work in English”. The School Review. 1912, vol. 20, no. 7, pp. 442-457.
WEST, Charles K.; ANDERSON, Thomas H. “The question of teacher preponderant
causation in teacher expectancy research”. Review of Educational Research. 1976,
vol. 46, pp. 613-630.