Sei sulla pagina 1di 77
Araya Temas históricos y profesionales . Docente: Ps. José Luis Cortés
Araya Temas históricos y profesionales . Docente: Ps. José Luis Cortés
Araya Temas históricos y profesionales . Docente: Ps. José Luis Cortés

Araya

Araya Temas históricos y profesionales . Docente: Ps. José Luis Cortés

Temas históricos

y profesionales.

Docente: Ps. José Luis Cortés

Araya Temas históricos y profesionales . Docente: Ps. José Luis Cortés
Antecedentes Históricos y Profesionales.  Cualquiera que haya asistido a la escuela básica o a

Antecedentes Históricos y Profesionales.

Cualquiera que haya asistido a la escuela básica o a la universidad, ingresado al servicio militar o bien solicitado

algún empleo durante el último medio siglo, sin duda ha

completado una o más pruebas.

Hace casi 2,500 años, Platón y Aristóteles escribieron acerca de las diferencias individuales.

Año 2200 a. C., el entonces emperador chino instituyó un

sistema de exámenes en el servicio civil para determinar á

los funcionarios gubernamentales eran aptos para

desempeñar sus labores.

civil para determinar á los funcionarios gubernamentales eran aptos para desempeñar sus labores.  
civil para determinar á los funcionarios gubernamentales eran aptos para desempeñar sus labores.  

Ilustración y Renacimiento

Un mundo más progresista, menos doctrinario donde fue desarrollándose la idea de que las personas eran únicas y tenían derecho a afirmar sus dones naturales

y a mejorar su posición en la vida.

El interés por el aprendizaje y la creatividad resurgió y fue fomentado, constituyó también un renacimiento

del individualismo.

El espíritu de la libertad y el valor individual, que florecía gracias al estímulo político y económico que proporcionaban el capitalismo y la democracia,

encontró su expresión en el arte, la ciencia, la filosofía

y el gobierno.

el capitalismo y la democracia, encontró su expresión en el arte, la ciencia, la filosofía y
el capitalismo y la democracia, encontró su expresión en el arte, la ciencia, la filosofía y

S. XIX: La medición mental

científica

A principios del siglo XIX, los científicos solían considerar las diferencias en cuanto a

habilidades sensoriomotrices y mentales sobre

todo como un fastidio o una fuente de error.

Debido a que la búsqueda de leyes generales en la naturaleza es difícil cuando las

mediciones de fenómenos naturales son imprecisas y no confiables, los físicos dirigieron

su atención hacia la construcción de

instrumentos que fueran más precisos y

consistentes que la sola observación humana.

hacia la construcción de instrumentos que fueran más precisos y consistentes que la sola observación humana.
hacia la construcción de instrumentos que fueran más precisos y consistentes que la sola observación humana.

Charles Darwin y «El origen de las especies».

Al final del siglo XIX Gustav Fechner, Wilhelm Wundt, Hermann Ebbinghaus y otros psicólogos experimentales

demostraron que los fenómenos psicológicos podían ser

descritos en términos cuantitativos y racionales.

Francis Galton, primo del naturalista Charles Darwin, fue un caballero inglés que se interesó en las bases hereditarias de la inteligencia y en la medición de las

habilidades humanas. Galton dedicó su atención en

particular a la herencia del talento, pero también elaboró una serie de pruebas sensoriomotrices y diseñó

varias técnicas para investigar las diferencias

individuales en cuanto a aptitudes y temperamento. Entre sus contribuciones metodológicas figura la técnica de co-relaciones, que sigue siendo un método

popular para analizar calificaciones de pruebas.

figura la técnica de co-relaciones, que sigue siendo un método popular para analizar calificaciones de pruebas.
figura la técnica de co-relaciones, que sigue siendo un método popular para analizar calificaciones de pruebas.

S. XX: la estandarización y la Ciencia.

Alfred Binet, construir la primera prueba mental que contribuyó en forma

significativa a la predicción del

aprovechamiento académico. Aporte

significativo concepto «Edad Mental».

forma significativa a la predicción del aprovechamiento académico. Aporte significativo concepto «Edad Mental».
forma significativa a la predicción del aprovechamiento académico. Aporte significativo concepto «Edad Mental».

Clasificando tests

Las pruebas se pueden clasificar según su contenido, la forma en que se

elaboraron, el parámetro para cuya medición se diseñaron, el propósito

de su aplicación, e incluso de acuerdo con la manera en que se

su aplicación, e incluso de acuerdo con la manera en que se administran, califican e interpretan.
su aplicación, e incluso de acuerdo con la manera en que se administran, califican e interpretan.

administran, califican e interpretan.

Un criterio de clasificación sencillo es la dicotomía entre pruebas

estandarizadas contra no estandarizadas. Una prueba estandarizada,

elaborada por profesionales especialistas en desarrollar pruebas y que es

administrada a una muestra representativa de personas pertenecientes a

la población para la que se diseñó el instrumento, tiene procedimientos

establecidos de administración y calificación(normas) que son constantes

en los distintos examinandos. Así, todos ellos tienen la misma oportunidad

de responder los distintos reactivos de acuerdo con sus habilidades.


Así, todos ellos tienen la misma oportunidad de responder los distintos reactivos de acuerdo con sus

Otros criterios de clasificación

Individuales contra colectivas.

Velocidad contra potencia.

Pruebas objetivas contra no objetivas.

Verbales o de Ejecución.

Cognoscitivas contra afectivas.

Rendimiento(fluida) y

aprovechamiento(cristal).

Verbales o de Ejecución.  Cognoscitivas contra afectivas.  Rendimiento(fluida) y aprovechamiento(cristal).
Verbales o de Ejecución.  Cognoscitivas contra afectivas.  Rendimiento(fluida) y aprovechamiento(cristal).

Usos Comunes de los tests

Clasificar, colocar, conservar, despedir, promover y/o rotar a las personas en contextos educativos y laborales.

Asesorar y guiar a las personas con propósitos de asesoría

educativa, vocacional y personal.

Diagnosticar y prescribir tratamientos psicológicos y físicos

en clínicas y hospitales.

Evaluar cambios cognoscitivos, intra o interpersonales

relativos a programas educativos, psicoterapéuticos y otros de intervención en el comportamiento.

o interpersonales relativos a programas educativos, psicoterapéuticos y otros de intervención en el comportamiento.
o interpersonales relativos a programas educativos, psicoterapéuticos y otros de intervención en el comportamiento.

Ética y uso de los tests ¿Quien?, ¿Como? A quien?

¿para qué?

La preparación requerida para aplicar, evaluar e interpretar pruebas varía en cierta medida de acuerdo con el tipo de prueba en particular.

Preparación mayor para:

individuales que colectivas.

Inteligencia y personalidad que en rendimiento

y aptitudes especiales.

mayor para: individuales que colectivas. Inteligencia y personalidad que en rendimiento y aptitudes especiales.
mayor para: individuales que colectivas. Inteligencia y personalidad que en rendimiento y aptitudes especiales.

La evaluación y el diagnóstico deberían ser

realizados sólo en un contexto profesional y por

parte de especialistas capacitados y

competentes en las pruebas adecuadas.

También se pone énfasis en

1.

2.

3.

4.

La aplicación de procedimientos científicos para diseñar y seleccionar pruebas y técnicas

que sean apropiadas para poblaciones

específicas.

La interpretación juiciosa de los resultados de

las pruebas. El uso cuidadoso de las calificaciones de las pruebas y los servidos de interpretación. Explicaciones claras pero cuidadosas de los hallazgos de la evaluación.

de las pruebas y los servidos de interpretación. Explicaciones claras pero cuidadosas de los hallazgos de
de las pruebas y los servidos de interpretación. Explicaciones claras pero cuidadosas de los hallazgos de

Factores a considerar

Consentimiento Informado escrito y

firmado. Etiqueta menos estigmatizante”. Resultados son «información privilegiada» incluida en «secreto profesional».

menos estigmatizante ”. Resultados son «información privilegiada» incluida en «secreto profesional». 
menos estigmatizante ”. Resultados son «información privilegiada» incluida en «secreto profesional». 
Diseño y Elaboración de tests  La cantidad de esfuerzo invertido en la elaboración de

Diseño y Elaboración de tests

La cantidad de esfuerzo invertido en la elaboración de un test psicológico o educativo

varía con el tipo de prueba y con los propósitos

para los cuales se crea.

Cualquiera que sea el tipo de prueba o las metas de los usuarios, se necesita cierto grado de planeación incluyendo definiciones claras de las variables o constructos que van a medirse, descripciones de las personas que van a ser

examinadas, condiciones bajo las cuales se

administrará la prueba, e información concerniente a la calificación, interpretación de

las puntuaciones y uso que se dará a los

resultados.

información concerniente a la calificación, interpretación de las puntuaciones y uso que se dará a los
información concerniente a la calificación, interpretación de las puntuaciones y uso que se dará a los

Proceso de elaboración varia en cierto grado de acuerdo con el propósito que se pretenda

lograr.

De manera ideal, la elaboración de una prueba u otro instrumento psicométrico empieza con la

definición de las variables o constructos que van

a medirse y con el esbozo del contenido

propuesto.

empieza con la definición de las variables o constructos que van a medirse y con el
empieza con la definición de las variables o constructos que van a medirse y con el

Test de inteligencia: se reúne un conjunto de reactivos que supuestamente miden algún aspecto del constructo “inteligencia”. Esos

reactivos pueden ser elaborados de acuerdo

con una teoría específica de la conducta

inteligente o haciendo referencia sólo a los tipos

de tareas que la gente muy inteligente puede

realizar de manera más efectiva que las personas

menos inteligentes.

de tareas que la gente muy inteligente puede realizar de manera más efectiva que las personas
de tareas que la gente muy inteligente puede realizar de manera más efectiva que las personas

Inventarios y escalas de

personalidad

Se han empleado varios enfoques, algunos basados en el sentido común,

otros en las teorías de personalidad y

otros más en procedimientos estadísticos.

basados en el sentido común, otros en las teorías de personalidad y otros más en procedimientos
basados en el sentido común, otros en las teorías de personalidad y otros más en procedimientos

Pruebas de rendimiento

Se ha dedicado más atención a los procedimientos usados para elaborar pruebas de rendimiento

académico que a los de otras clases de pruebas.

Se aplican más pruebas de rendimiento que todos los otros tipos de pruebas combinados.

Pese a la actual cultura anti exámenes, debe considerárseles parte integral y formativa del proceso educativo: cuando se usan de manera

efectiva, los resultados de los exámenes no se limitan

a

si

la sola evaluación y motivación de los estudiantes, no que proporcionan información a los maestros, al

personal administrativo y a los padres, concerniente

a

educativos específicos.

la medida en que se han alcanzado los objetivos

y a los padres, concerniente a educativos específicos. la medida en que se han alcanzado los
y a los padres, concerniente a educativos específicos. la medida en que se han alcanzado los

Preguntas para las personas

que planifican los instrumentos

¿Cuáles son los temas y materiales sobre los que se examinará a los estudiantes?

¿Qué tipos de preguntas deben elaborarse?

¿Qué formatos o esquemas de reactivos y pruebas deben utilizarse?

¿Cuándo, dónde y cómo debe administrarse la prueba?

¿Cómo debe calificarse y evaluarse la prueba resuelta?

¿Cuándo, dónde y cómo debe administrarse la prueba? ¿Cómo debe calificarse y evaluarse la prueba resuelta?
¿Cuándo, dónde y cómo debe administrarse la prueba? ¿Cómo debe calificarse y evaluarse la prueba resuelta?

Taxonomías de objetivos

Taxonomías de objetivos cognoscitivos
cognoscitivos
cognoscitivos
Taxonomías de objetivos cognoscitivos
Taxonomías de objetivos cognoscitivos

Taxonomías de objetivos

cognoscitivos

Taxonomías de objetivos cognoscitivos
Taxonomías de objetivos cognoscitivos
Taxonomías de objetivos cognoscitivos
Taxonomías de objetivos cognoscitivos

PREPARACIÓN DE LOS

REACTIVOS DEL TEST

Ciertos tipos de reactivos de prueba son más apropiados

que otros para medir la obtención de objetivos específicos.

Prepare alrededor de 20% más de reactivos de los que en

3.

realidad se necesiten .

Tipos de Reactivos

Completamiento o llenado contra selección.

Recuerdo contra reconocimiento.

Construcción de respuesta contra identificación.

4. Ensayo contra objetivo.

  1. 2.
1.
2.
reconocimiento. Construcción de respuesta contra identificación. 4. Ensayo contra objetivo.   1. 2.

Reactivos de respuesta corta

Reactivos de verdadero y falso

Reactivos de aparejamiento

Reactivos de opción múltiple

de respuesta corta Reactivos de verdadero y falso Reactivos de aparejamiento Reactivos de opción múltiple
de respuesta corta Reactivos de verdadero y falso Reactivos de aparejamiento Reactivos de opción múltiple

FORMACIÓN Y

REPRODUCCIÓN DE UN TEST

Una vez que se han preparado los reactivos para una prueba, es aconsejable hacer que los revisen y editen personas conocedoras.

que se han preparado los reactivos para una prueba, es aconsejable hacer que los revisen y
que se han preparado los reactivos para una prueba, es aconsejable hacer que los revisen y

Tiempo!!: Límites en los tests

Un minuto = 1 reactivo de opción múltiple o de respuesta corta.

Un minuto = dos reactivos de verdadero y falso.

Ocho minutos = 1 pregunta de ensayo que requiere

respuesta de media página.

La extensión de la prueba y los límites de tiempo necesitarán ajustarse hacia abajo o hacia arriba cuando se examine a alumnos de escuela primaria o a estudiantes de universidad.

ajustarse hacia abajo o hacia arriba cuando se examine a alumnos de escuela primaria o a
ajustarse hacia abajo o hacia arriba cuando se examine a alumnos de escuela primaria o a

PRUEBAS DE DESEMPEÑO

Típicamente en Chile Evaluación por competencias. Se le conoce tambien

como evaluación auténtica o, para

enfatizar que son una opción a las

pruebas escritas, evaluación alternativa.

como evaluación auténtica o, para enfatizar que son una opción a las pruebas escritas, evaluación alternativa.
como evaluación auténtica o, para enfatizar que son una opción a las pruebas escritas, evaluación alternativa.
ADMINISTRACION, APLICACION Y CALIFICACIÓN DE LOS TESTS  Sin importar qué tan cuidadosamente se elabore

ADMINISTRACION,

APLICACION Y CALIFICACIÓN

DE LOS TESTS

Sin importar qué tan cuidadosamente se elabore una prueba, los resultados no

tienen ningún valor si no se administra y

califica ésta en forma adecuada.

se elabore una prueba, los resultados no tienen ningún valor si no se administra y califica
se elabore una prueba, los resultados no tienen ningún valor si no se administra y califica

El procedimiento que debe seguirse para aplicar una prueba o cualquier otro instrumento psicométrico

1.

depende de:

Tipo de instrumento (individual o colectiva, con tiempo

predeterminado o sin éste, cognoscitiva o afectiva).

2.

3.

Evaluado(edad cronológica, la educación, los antecedentes culturales y el estado físico y mental y

especialmente de la disposición y motivación.

Evaluador (apariencia, comportamiento y conocimiento de la técnica, entre otros)

de la disposición y motivación. Evaluador (apariencia, comportamiento y conocimiento de la técnica, entre otros)
de la disposición y motivación. Evaluador (apariencia, comportamiento y conocimiento de la técnica, entre otros)

Deberes del examinador

antes de la prueba

Programación.

Consentimiento informado.

Familiarizarse con la prueba.

Garantizar condiciones de evaluación

satisfactorias.

Reducir los fraudes.

  Familiarizarse con la prueba. Garantizar condiciones de evaluación satisfactorias. Reducir los fraudes.
  Familiarizarse con la prueba. Garantizar condiciones de evaluación satisfactorias. Reducir los fraudes.

Deberes del examinador

durante la prueba

Seguir las instrucciones de la prueba.

Permanecer alerta .

Establecer una relación interpersonal.

Prepararse para manejar problemas

especiales.

Flexibilidad,

    
una relación interpersonal. Prepararse para manejar problemas especiales. Flexibilidad,     

Deberes del examinador

después de la prueba

Tras la administración de una prueba colectiva de grupo, el examinador tiene

que recoger los materiales pertinentes.

Tras la administración de una prueba colectiva de grupo, el examinador tiene que recoger los materiales
Tras la administración de una prueba colectiva de grupo, el examinador tiene que recoger los materiales

Pruebas adaptativas

En pruebas adaptativas o a la medida,

los reactivos específicos aplicados a una

persona en particular dependen de su capacidad calculada a partir de sus respuestas a reactivos previos. Debido a que las pruebas son más precisas para

medir la habilidad de las personas si la

dificultad de los reactivos corresponde a su propio nivel de habilidad .

para medir la habilidad de las personas si la dificultad de los reactivos corresponde a su
para medir la habilidad de las personas si la dificultad de los reactivos corresponde a su

CALIFICACIÓN DE LOS TESTS

Cuando esta diseñando el instrumento, el evaluador

debe decidir si quiere obtener calificaciones separadas

de las diversas partes, así como un resultado general de

la prueba en su conjunto.

También debe decidirse si se restará una corrección por adivinar, si se asignarán distintos pesos a la calificación

de los diversos reactivos o secciones y si se entregarán

los resultados en forma directa o convertidos a otras

escalas numéricas.

Para pruebas estandarizadas, el maestro de aula no necesita tomar todas estas decisiones.

escalas numéricas.  Para pruebas estandarizadas, el maestro de aula no necesita tomar todas estas decisiones.
escalas numéricas.  Para pruebas estandarizadas, el maestro de aula no necesita tomar todas estas decisiones.
Corrección por adivinación.     R es la cantidad de reactivos que el

Corrección por adivinación.

Corrección por adivinación.     R es la cantidad de reactivos que el examinado

R es la cantidad de reactivos que el examinado acierta. W la cantidad de reactivos en que el examinado se equivoca. k la cantidad de opciones por reactivo. S la calificación corregida

de reactivos en que el examinado se equivoca. k la cantidad de opciones por reactivo. S
de reactivos en que el examinado se equivoca. k la cantidad de opciones por reactivo. S
ANALISIS DE REACTIVOS Y ESTANDARIZACIÓN DE PRUEBAS  Análisis de reactivos se centra en el

ANALISIS DE REACTIVOS Y

ESTANDARIZACIÓN DE

PRUEBAS

Análisis de reactivos se centra en el funcionamiento de reactivos individuales, mientras que la

estandarización de pruebas se ocupa de la interpretación normativa de los resultados de la prueba en su conjunto o de algunas de las partes o subpruebas que la integran.

normativa de los resultados de la prueba en su conjunto o de algunas de las partes
normativa de los resultados de la prueba en su conjunto o de algunas de las partes

Se deben analizar las respuestas de esa muestra

piloto para determinar si los reactivos están funcionando de manera adecuada. Cualquiera que sea el tipo de prueba, estandarizada o elaborada por el maestro, de habilidad o de personalidad, un análisis post mortem o post hoc de los resultados es necesario.

por el maestro, de habilidad o de personalidad, un análisis post mortem o post hoc de
por el maestro, de habilidad o de personalidad, un análisis post mortem o post hoc de

Validez de reactivo

A fin de evaluar la utilidad de un reactivo como medida de las diferencias individuales en cuanto

a las características de habilidad o de

personalidad, se requiere un criterio externo de

medida de dicho rasgo.

La validez de un reactivo para predecir una posición con base en un criterio externo puede

determinarse al correlacionar las calificaciones

de un reactivo (0 para los errores y 1 para los

aciertos) con las calificaciones de la medida de

criterio.

de un reactivo (0 para los errores y 1 para los aciertos) con las calificaciones de
de un reactivo (0 para los errores y 1 para los aciertos) con las calificaciones de

Se han usado distintos tipos de coeficientes de correlación para este propósito; el más común

de correlación para este propósito; el más común es el coeficiente biserial puntual, nt = la

es el coeficiente biserial puntual,

el más común es el coeficiente biserial puntual, nt = la cantidad total de examinados. np

nt = la cantidad total de examinados.

np = la cantidad de examinados que resuelven correctamente el

reactivo Yp = la media de las calificaciones de criterio de quienes pasan el

reactivo,

Y = la media de todas las calificaciones de criterio, s, = la desviación estándar de todas las calificaciones de criterio.

la media de todas las calificaciones de criterio, s, = la desviación estándar de todas las
la media de todas las calificaciones de criterio, s, = la desviación estándar de todas las

Conclusión de «peso» en

evaluación.

Mayor correlación entre reactivo y criterio= más

preciso será el reactivo como predictor del

criterio. Coef. de .20 o menores pueden contribuir a

predecir el criterio, se prefieren coeficientes más

elevados.

No solo correlación entre reactivo y criterio, sino

también de la correlación del reactivo con otros reactivos de la prueba.

Son mejores los reactivos que tienen correlaciones elevadas con el criterio, pero bajas con otros

reactivos, porque representan una contribución

más independiente a la predicción de calificaciones de criterio.

reactivos , porque representan una contribución más independiente a la predicción de calificaciones de criterio.
reactivos , porque representan una contribución más independiente a la predicción de calificaciones de criterio.

No hay un criterio externo fácilmente disponible contra el cual validar los reactivos de las pruebas

de aprovechamiento en el aula: entonces

usamos «consistencia interna».

El procedimiento más breve consiste en dividir a los examinandos en tres grupos según sus

calificaciones en la prueba como un todo: un grupo superior formado por el 27% que obtuvo las calificaciones más altas, un grupo inferior compuesto por el 27% que tuvo las calificaciones

más bajas, y el restante 46% incluido en un grupo

intermedio, luego se realiza el siguiente cálculo.

calificaciones más bajas, y el restante 46% incluido en un grupo intermedio, luego se realiza el
calificaciones más bajas, y el restante 46% incluido en un grupo intermedio, luego se realiza el
 Up y Lp son la cantidad de individuos que hay en los grupos superior
 Up y Lp son la cantidad de individuos que hay en los grupos superior

Up y Lp son la cantidad de individuos que hay en los grupos superior e inferior, respectivamente, y que

aciertan en el reactivo; U y L son el número total de

personas en los grupos superior e inferior (obsérvese

que U = L), respectivamente. Al valor de p se le

conoce como índice de dificultad del reactivo y al

de D como índice de discriminación del reactivo.

p se le conoce como índice de dificultad del reactivo y al de D como índice
p se le conoce como índice de dificultad del reactivo y al de D como índice

Sólo porque la forma como se responde un reactivo varía de grupo a grupo no quiere decir necesariamente

que un reactivo esté sesgado en contra de alguno de

los grupos. Técnicamente, un reactivo se considera sesgado sólo cuando mide algo distinto una característica o rasgo diferenteen un grupo con respecto a otro.

A pesar de sus desventajas, los índices de dificultad y de

discriminación de reactivos proporcionan información

útil sobre el funcionamiento de los reactivos individuales. En general, se ha descubierto que el análisis de reactivos

produce mejoras considerables en la eficacia de las pruebas. En particular, el índice de discriminación de

reactivos es una medida bastante adecuada de la

calidad del reactivo.

En particular, el índice de discriminación de reactivos es una medida bastante adecuada de la calidad
En particular, el índice de discriminación de reactivos es una medida bastante adecuada de la calidad

ESTANDARIZACIÓN Y NORMAS

DE LAS PRUEBAS.

Los datos sobre el desempeño de un grupo numeroso de individuos, como aquellos en quienes se basa el diseño de un instrumento, son útiles para propósitos de interpretación de calificaciones.

La estandarización también incluye aplicar la prueba a una muestra grande de personas (la muestra de

estandarización) aleccionada como representante de

la población meta a la que está destinada la prueba.

Toda prueba estandarizada tiene instrucciones estándar de aplicación y calificación que deben

seguirse estrictamente, sin dejar lugar a la

interpretación personal o al sesgo.

y calificación que deben seguirse estrictamente, sin dejar lugar a la interpretación personal o al sesgo.
y calificación que deben seguirse estrictamente, sin dejar lugar a la interpretación personal o al sesgo.

El principal propósito de estandarizar una prueba es determinar la distribución de puntuaciones eradas en la muestra de estandarización (grupo norma). Las calificaciones crudas obtenidas se transforman entonces en alguna forma de

calificaciones derivadas o normas.

Los principales tipos de normas son equivalentes de edad, de grado, rangos de percentilares y

calificaciones estándar.

Los principales tipos de normas son equivalentes de edad, de grado, rangos de percentilares y calificaciones
Los principales tipos de normas son equivalentes de edad, de grado, rangos de percentilares y calificaciones

Este método de interpretación con referencias a normas, las normas obtenidas no funcionan como estándares del desempeño deseado, sino

simplemente como un marco de referencia para

interpretar calificaciones.

Normas indican la posición de una persona en la prueba con respecto a la distribución de las

calificaciones obtenidas por personas de la misma

edad cronológica, grado, sexo u otras

características demográficas.

obtenidas por personas de la misma edad cronológica, grado, sexo u otras características demográficas.
obtenidas por personas de la misma edad cronológica, grado, sexo u otras características demográficas.

Selección de una muestra de

estandarización

Muestreo aleatorio sencillo, cada uno de los miembros de la población meta tiene la misma oportunidad de ser seleccionado, pero aleatoriedad no garantiza que haya representatividad.

Muestreo aleatorio estratificado, se reduce la

probabilidad de elegir una muestra atípica o sesgada,

categorizar, o estratificar, la población de una serie de

variables demográficas (sexo, edad, nivel

socioeconómico, región geográfica y similares) que

presumiblemente están relacionadas con las

calificaciones de la prueba. Entonces la cantidad de

individuos seleccionados al azar de cada categoría o

estrato es proporcional al número total de personas de la población que caen en ese estrato.

azar de cada categoría o estrato es proporcional al número total de personas de la población
azar de cada categoría o estrato es proporcional al número total de personas de la población

El muestreo por grupos: dividir una región geográfica designada o alguna otra

entidad relevante en bloques o grupos

luego elige al azar un porcentaje

especificado de los grupos y dentro de

cada uno se selecciona aleatoriamente una cantidad determinada de subunidades (escuelas, residencias, etc.).

y dentro de cada uno se selecciona aleatoriamente una cantidad determinada de subunidades (escuelas, residencias, etc.).
y dentro de cada uno se selecciona aleatoriamente una cantidad determinada de subunidades (escuelas, residencias, etc.).

Normas de calificación

estándar

A diferencia de los rangos percentilares, las calificaciones estándar representan la

medición en una escala de intervalos.

Las normas de calificación estándar son puntuaciones convertidas que tienen

cualesquier media y desviación estándar

deseadas.

calificación estándar son puntuaciones convertidas que tienen cualesquier media y desviación estándar deseadas.
calificación estándar son puntuaciones convertidas que tienen cualesquier media y desviación estándar deseadas.

Calificaciones z

Calificaciones z X es una puntuación cruda dada, X es la media aritmética, y s es
Calificaciones z X es una puntuación cruda dada, X es la media aritmética, y s es

X es una puntuación cruda dada, X es la media

aritmética, y s es la desviación estándar de las

puntuaciones crudas.

Transformar puntuaciones crudas en calificaciones z

produce una distribución de calificaciones con la

misma forma, pero con una media y desviación estándar distintas a la distribución de la puntuación

cruda (X).

Media de las calificaciones z es 0, y la desviación estándar es 1.

 
de la puntuación cruda (X).  Media de las calificaciones z es 0, y la desviación

Calificaciones Wechsler.

Las puntuaciones crudas en las subpruebas de las

escalas de inteligencia de Wechsler se transformaron

para tener una media de 10 y desviación estándar de 3. No obstante, las puntuaciones verbales, de

ejecución y de escala total (CIs de desviación) en las

pruebas de Wechsler se convirtieron a una distribución

con una media de 100 y desviación estándar de 15

(vea las últimas dos líneas de la figura 4.3).

una distribución con una media de 100 y desviación estándar de 15 (vea las últimas dos
una distribución con una media de 100 y desviación estándar de 15 (vea las últimas dos

Otra escala de calificación es la calificación

estanina (nueve estándar).

En esta escala estándar normalizada, que tiene

una media de 5 y desviación estándar de

aproximadamente 2, hay nueve rangos distintos, o

estaninas. Calificación estanina no es una verdadera escala de calificaciones estándar, porque la primera y la novena estanina están abiertas. Equilibrar la tendencia a considerar las calificaciones de pruebas como medidas precisas, invariables, de las diferencias individuales.

tendencia a considerar las calificaciones de pruebas como medidas precisas, invariables, de las diferencias individuales.
tendencia a considerar las calificaciones de pruebas como medidas precisas, invariables, de las diferencias individuales.

Otro procedimiento que tiene el mismo efecto es registrar no sólo el rango percentilar o la

calificación estándar correspondiente a una

puntuación cruda dada, sino también un rango percentilar o un intervalo de calificación estándar dentro de los cuales pueda esperarse razonablemente que caiga la verdadera

posición.

de calificación estándar dentro de los cuales pueda esperarse razonablemente que caiga la verdadera posición.
de calificación estándar dentro de los cuales pueda esperarse razonablemente que caiga la verdadera posición.
CONFIABILIDAD Y VALIDEZ  CONFIABILIDAD: para medir lo que fue diseñada para medir.  Teoría

CONFIABILIDAD Y VALIDEZ

CONFIABILIDAD: para medir lo que fue diseñada para medir.

Teoría clásica de la confiabilidad

La calificación observada de una persona en una prueba está compuesta por una puntuación

“real” más algún error no sistemático de medición.

Puntuación real de una persona = promedio de

las puntuaciones de infinitas aplicaciones.

de medición.  Puntuación real de una persona = promedio de las puntuaciones de infinitas aplicaciones.
de medición.  Puntuación real de una persona = promedio de las puntuaciones de infinitas aplicaciones.

La varianza de las puntuaciones observadas (s2obs) de un grupo de personas es igual a la

varianza de sus puntuaciones reales (s2rea) más la

a la varianza de sus puntuaciones reales (s2rea) más la varianza debida a los errores no

varianza debida a los errores no sistemáticos de

medición (s2err):

debida a los errores no sistemáticos de medición ( s2err):  Entonces la confiabilidad (rn)= proporción
debida a los errores no sistemáticos de medición ( s2err):  Entonces la confiabilidad (rn)= proporción

Entonces la confiabilidad (rn)= proporción de la varianza observada que es explicada por la

varianza real.

s2err):  Entonces la confiabilidad (rn)= proporción de la varianza observada que es explicada por la
 Entonces la confiabilidad (rn)= proporción de la varianza observada que es explicada por la varianza
 Entonces la confiabilidad (rn)= proporción de la varianza observada que es explicada por la varianza

La confiabilidad de un conjunto de calificaciones en una prueba se expresa

como un número decimal positivo que

fluctúa entre .00 y 1.00. Una r de 1.00

indica una confiabilidad perfecta, y una r

de .00 indica una falta absoluta de confiabilidad de la medic.ón

r de 1.00 indica una confiabilidad perfecta, y una r de .00 indica una falta absoluta
r de 1.00 indica una confiabilidad perfecta, y una r de .00 indica una falta absoluta

Coeficiente test-retest: coeficiente de estabilidad.

Coeficiente de formas paralelas.

 Coeficiente test-retest: coeficiente de estabilidad.  Coeficiente de formas paralelas.
 Coeficiente test-retest: coeficiente de estabilidad.  Coeficiente de formas paralelas.

Coeficientes de consistencia

interna

Mitades de Spearman: Enfoque simplificado de la consistencia interna

una sola prueba se considera compuesta

por dos partes (formas paralelas) que

miden la misma cosa. Kuder-Richardson: Una prueba puede

dividirse de muchas formas diferentes en

dos mitades que contengan igual número de reactivos.

: Una prueba puede dividirse de muchas formas diferentes en dos mitades que contengan igual número
: Una prueba puede dividirse de muchas formas diferentes en dos mitades que contengan igual número

Alfa de Cronbach

Alfa de Cronbach  k es el número de reactivos, s2i la varianza de las calificaciones

k es el número de reactivos, s2i la varianza de las calificaciones en el reactivo i, y s2t la varianza de

las calificaciones totales de la prueba.

s2t la varianza de las calificaciones totales de la prueba.  Kuder-Richanison sólo son aplicables cuando

Kuder-Richanison sólo son aplicables cuando los

reactivos de la prueba se califican con 0 o 1, pero el

coeficiente alfa es una fórmula general para estimar la confiabilidad de una prueba que consta de

reactivos en los cuales pueden asignarse

calificaciones de distinto peso a respuestas diferentes.

prueba que consta de reactivos en los cuales pueden asignarse calificaciones de distinto peso a respuestas
prueba que consta de reactivos en los cuales pueden asignarse calificaciones de distinto peso a respuestas

Confiabilidad entre

calificadores

Importante conocer el grado en que diferentes

calificadores están de acuerdo en las calificaciones y otros valores numéricos dados a las respuestas de diferentes examinados y

reactivos.

1.

2.

Los personas califican las respuestas de un

número considerable de examinados y calcular

luego la correlación entre los dos conjuntos de calificaciones.

muchas personas califiquen las respuestas de un

examinado

3. Muchas personas califiquen las respuestas de

varios examinados.

califiquen las respuestas de un examinado 3. Muchas personas califiquen las respuestas de varios examinados.
califiquen las respuestas de un examinado 3. Muchas personas califiquen las respuestas de varios examinados.

Interpretación de los

coeficientes de confiabilidad

¿Qué tan alto debe ser un coeficiente de confiabilidad para que una prueba u otro instrumento psicométrico sean útiles? La respuesta depende de lo que planeemos hacer con las puntuaciones de la prueba:

1.

2.

Determinar si las calificaciones promedio de dos

grupos de personas son significativamente diferentes :

.60 a .70

Comparar la calificación de una persona con la de otra, o la calificación de una persona en una prueba con su calificación en otro instrumento: .85+ .

persona con la de otra, o la calificación de una persona en una prueba con su
persona con la de otra, o la calificación de una persona en una prueba con su

agregar reactivos que miden algo

diferente de lo que miden los reactivos

originales puede dar lugar a una

reducción en la confiabilidad.

miden algo diferente de lo que miden los reactivos originales puede dar lugar a una reducción
miden algo diferente de lo que miden los reactivos originales puede dar lugar a una reducción

Variabilidad y extensión de la

prueba.

Coeficientes de confiabilidad tienden a ser más altos cuando la varianza de las puntuaciones de la prueba, las puntuaciones del reactivo, las calificaciones u otras variables que son evaluadas,

es grande que cuando es pequeña.

La varianza de la calificación de la prueba se

relaciona con la extensión de ésta.

Mayor extensión de la prueba =mayor

confiabilidad.

de la prueba se relaciona con la extensión de ésta. Mayor extensión de la prueba =mayor
de la prueba se relaciona con la extensión de ésta. Mayor extensión de la prueba =mayor

Fórmula general de Spearman-Brown es una expresión del efecto que tiene sobre la confiabilidad el alargar una prueba incluyendo más reactivos del mismo tipo general.

una prueba incluyendo más reactivos del mismo tipo general. m es el factor por el cual
una prueba incluyendo más reactivos del mismo tipo general. m es el factor por el cual

m es el factor por el cual se alarga la prueba

rll la confiabilidad de la prueba original no alargada rmm la confiabilidad estimada de la prueba

alargada.

  rll la confiabilidad de la prueba original no alargada rmm la confiabilidad estimada de
  rll la confiabilidad de la prueba original no alargada rmm la confiabilidad estimada de

Aplicación de Spearman

Brown.

Puede utilizarse para determinar el incremento necesario en la longitud de la prueba y, en consecuencia, el número de reactivos que

deben agregarse para incrementar la

confiabilidad de un valor desde rll hasta rmm

el número de reactivos que deben agregarse para incrementar la confiabilidad de un valor desde rll
el número de reactivos que deben agregarse para incrementar la confiabilidad de un valor desde rll
el número de reactivos que deben agregarse para incrementar la confiabilidad de un valor desde rll
el número de reactivos que deben agregarse para incrementar la confiabilidad de un valor desde rll

Varianza y confiabilidad.

Además de depender del número de reactivos, la varianza y la confiabilidad de una prueba son afectadas por la heterogeneidad de la muestra

de personas que la presentan.

Entre mayor sea el rango de diferencias individuales en cierta característica, mayor será la

varianza de las calificaciones en una medida de

esa característica.

en cierta característica, mayor será la varianza de las calificaciones en una medida de esa característica.
en cierta característica, mayor será la varianza de las calificaciones en una medida de esa característica.
desviación
desviación

Error estándar de medición

Error estándar de medición es la estándar de las calificaciones observadas de la prueba “ rll

es

la

estándar

de

las

calificaciones

observadas de la prueba rll” el coeficiente de confiabilidad test-retest.

Para ilustrar el cálculo y el significado del error estándar de

medición, suponga que la desviación estándar de una prueba es

6.63 y el coeficiente de confiabilidad test-retest es .85; entonces Serr” = 6.63√1-.85 “= 2.57. Si la calificación de una persona en la prueba es 40, puede concluirse, con 68% de confianza, que forma

parte de un grupo de personas que tienen calificaciones

observadas de 40 cuyas calificaciones reales en la prueba caen entre 37.43(40 - 2.57)y 42.57(40 + 2.57).

 “S obs”  
 “S
obs”
de 40 cuyas calificaciones reales en la prueba caen entre 37.43(40 - 2.57)y 42.57(40 + 2.57).

Confiabilidad de las pruebas

referidas a criterio

Un grupo consta de personas cuyas puntuaciones igualan o exceden el nivel de criterio (de

dominio) en la habilidad que se está evaluando; el otro grupo consta de personas cuyas puntuaciones no alcanzan el nivel de criterio.

la habilidad que se está evaluando; el otro grupo consta de personas cuyas puntuaciones no alcanzan
la habilidad que se está evaluando; el otro grupo consta de personas cuyas puntuaciones no alcanzan

VALIDEZ

El grado en que una prueba mide lo que está diseñada para medir. Metodos: (1) analizar el contenido de la prueba, (2) calcular la correlación entre las calificaciones en la

prueba y las calificaciones en el criterio de interés y

(3) investigar las características psicológicas

particulares o constructos medidos por la prueba.

A diferencia de la confiabilidad, la cual es influida sólo por los errores no sistemáticos de medición, la

validez de una prueba es afectada tanto por los errores no sistemáticos como por los sistemáticos (constantes).

la validez de una prueba es afectada tanto por los errores no sistemáticos como por los
la validez de una prueba es afectada tanto por los errores no sistemáticos como por los

Validez de contenido

Atañe a si la prueba produce un rango de respuestas que son representativas del dominio

entero o universo de habilidades, entendimientos y otras conductas que supuestamente debe

medir la prueba. A menudo en conexión con las pruebas de

aprovechamiento, las cuales por lo general no

existe un criterio externo especificado.

Si expertos en la materia coinciden en que una prueba parece y actúa como un instrumento

diseñado para medir lo que se supone debe

medir, entonces se dice que posee validez de contenido.

como un instrumento diseñado para medir lo que se supone debe medir, entonces se dice que
como un instrumento diseñado para medir lo que se supone debe medir, entonces se dice que

Validez con relación a criterio

Procedimientos en los cuales las calificaciones en la prueba de un grupo de personas se comparan

con las puntuaciones, clasificaciones u otras

medidas de desempeño. Siempre que se dispone de una medida de criterio en el momento de la prueba puede determinarse la validez concurrente del instrumento. Cuando las

calificaciones en el criterio no están disponibles sino

hasta cierto tiempo después de que se aplicó la

prueba, se enfatiza la validez predictiva de la

prueba. Validez predictiva es del mayor interés en la selección y ubicación en un contexto ocupacional o educativo.

prueba. Validez predictiva es del mayor interés en la selección y ubicación en un contexto ocupacional
prueba. Validez predictiva es del mayor interés en la selección y ubicación en un contexto ocupacional

Validez de constructo

Grado en que el instrumento mide un constructo particular, o concepto psicológico .

El tipo más general de validez, no se determina de una sola manera o por una investigación, mas bien involucra una red de investigaciones y otros

procedimientos diseñados para determinar si un

instrumento de evaluación que supuestamente

mide una determinada variable de personalidad

en realidad lo hace.

un instrumento de evaluación que supuestamente mide una determinada variable de personalidad en realidad lo hace.
un instrumento de evaluación que supuestamente mide una determinada variable de personalidad en realidad lo hace.

Evidencia a favor de la validez

de constructo.

Los juicios de expertos en contenido.

Análisis de la consistencia interna.

Estudios, tanto en grupos formados de manera

experimental como en grupos que se presentan de

manera natural, de las relaciones entre las puntuaciones de la prueba y otras variables en las

cuales difieren los grupos.

Correlaciones de las puntuaciones en la prueba con las puntuaciones en otras pruebas y variables con las

cuales se espera que tengan cierta relación, seguidas

por un análisis factorial de esas correlaciones. Interrogar con detalle a los examinados o a los

calificadores acerca de sus respuestas a una prueba

o escala de calificación para revelar los procesos mentales específicos implicados al dar respuesta a los

reactivos.

 
de calificación para revelar los procesos mentales específicos implicados al dar respuesta a los reactivos. 

Validación convergente y discriminante. Un instrumento con validez de constructo debe tener correlaciones altas con otras medidas o métodos de medición del mismo constructo (validez convergente), pero correlaciones bajas con las

medidas de constructos diferentes (validez

discriminante)

Cuando las correlaciones entre el mismo

constructo medidas por el mismo y por diferentes

métodos son significativamente mayores que las

correlaciones entre diferentes constructos

medidas por los mismos o por diferentes métodos.

mayores que las correlaciones entre diferentes constructos medidas por los mismos o por diferentes métodos.
mayores que las correlaciones entre diferentes constructos medidas por los mismos o por diferentes métodos.

Bibliografía

AIKEN, Cap 1, Temas históricos y profesionales

AIKEN, Cap 2, Diseño y elaboración de tests

AIKEN, Cap 4, Análisis de reactivos y

estandarización de pruebas.

AIKEN, Cap 5, Confiablidad y Validez.

AIKEN, Cap 4, Análisis de reactivos y estandarización de pruebas.  AIKEN, Cap 5, Confiablidad y
AIKEN, Cap 4, Análisis de reactivos y estandarización de pruebas.  AIKEN, Cap 5, Confiablidad y