Sei sulla pagina 1di 18

Curso básico de psicometría.

Capítulo 1: Psicometría, evaluación psicológica y ámbitos de aplicación.

La evaluación psicológica: concepto y caracterización

Evaluación psicológica: El objeto de esta área es el estudio, análisis, y valoración de las características de un sujeto y de
sus formas de acción, reacción e interacción con los demás y con la realidad y sus procesos de cambio. Es una tarea de la
psicología dirigida a la solución de problemas personales, grupales, institucionales, comunitarios, sociales o ambientales,
basado en un modelo teórico.

Las tareas implicadas en la evaluación psicológica son: la categorización, comparación, análisis y contrastación de datos
que se están analizando. Puede ser a partir de modelos:

 Centrados en el sujeto: psicoanalítico, médico-psiquiátrico o fenomenología. Estudia rasgos o atributos.


 Centrados en variables situacionales: conductismo radical. Estudia mediaciones o variables intervinientes.
 Centrados en la interacción sujeto-contexto: Estructuralismo cognitivista. Condicionamiento / interacciones.

Proceso de toma de decisiones  No es el psicólogo quien realiza la decisión, es una instancia consultiva, no decisoria,
pero que a la larga implicará la puesta en práctica de una decisión tomada. Se puede desarrollar en los ámbitos:

 Forense: puntos de pericia (juez determina una acción a seguir a partir de las recomendaciones del psicólogo)
 Educativo: Pueden pedirlo los padres o la institución. Puede ser por múltiples causas. El PS da sugerencia.
 Laboral: Selección de candidatos  es la empresa quien tendrá la decisión final
 Clínico: Similar al psicodiagnóstico  El evaluador recogerá toda la información vinculada al tema de consulta,
pudiendo dar indicaciones de cómo mejorar la situación del paciente.
 Evaluación de programa: debe determinar la eficacia de una intervención de tratamiento o programa

Ámbito de aplicación de la evaluación psicológica: aquellos contextos en donde puede desempeñarse el psicólogo
aplicando conocimientos técnicos que derivan de teorías o investigaciones a la resolución de situaciones o problemas
concretos.

Ámbito de investigación: Contexto en el que la psicología se desarrolla como disciplina científica, generando nuevos
conocimientos en forma permanente; que serán transmitidos al ámbito de aplicación.

Para llevar a cabo su tarea de evaluación, el psicólogo dispone de:

 Técnicas psicométricas
 Técnicas proyectivas
 Entrevistas: elemento técnico irremplazable en la toma de contacto directo con el entrevistado y sus aspectos
particulares. Permite acceder fácilmente a la problemática o características de la misma, asi como despejar dudas o
puntos oscuros para corroborar o refutar diferentes hipótesis  Diferentes tipos

Evaluación psicológica y psicometría

La evaluación psicológica puede desarrollarse en los ámbitos de aplicación, donde el psicólogo asume el rol de usuario.
También en el ámbito de la investigación donde su objetivo es la generación de nuevos conocimientos; o puede
especializarse en el diseño, construcción o adaptación de las técnicas de evaluación psicológica; eso significa que se
especializará en el área de la psicometría.

Psicometría: es la disciplina que tiene por finalidad el desarrollo de modelos preferentemente cuantitativos que
permitan transformar codificar los fenómenos o hechos en datos, diseñando métodos adecuados para la aplicación de
tales modelos con el fin de determinar las diferencias individuales de los sujetos en cuanto a sus atributos, propiedades o
rasgos.

Rol del psicólogo especialista en psicometría según su ámbito de trabajo

Medición: proceso de asignación de números o símbolos a atributos de los objetos o sujetos, como en el caso de la
psicometría, siguiendo una serie de reglas dirigidas a representar la presencia o ausencia del atributo medido, su
cualidad, jerarquía o cantidad.
Escala: Se define como un conjunto de números o símbolos cuyas propiedades modelan propiedades empíricas de los
sujetos a los que esos números o símbolos son asignados. Tipos de escala:

Cuantitativa:

 Intervalar: Supone igualdad de intervalos entre números. No existe un cero absoluto. Ej.: Temperatura o CI
 Cocientes o razones: Posee todas las características anteriores; pero además posee un cero absoluto. Ej.: años

Semicuantitativa  Ordinal o jerárquico: Cuando se asignan números de forma que reflejen un ordenamiento,
resultante de algún criterio de clasificación. No se conoce la cantidad del atributo, sino que solamente se puede
establecer qué sujetos se ubican en la misma categoría, y que otros en categorías superiores o inferiores. Ej.: clasificar
una patología en leve, moderada o grave; escala de actitudes o intereses

Hay establecimiento de orden y uso de intervalos. Pero la diferencia está en que en el orden de los intervalos no son
necesariamente iguales ni suponen una única unidad de medida.

Cualitativa  Nominal: Aludimos a la presencia ausencia de un atributo. Cualifica.

El hecho que se trabaje con uno u otro nivel de medición depende del evaluador, de las características de la variable y
del tipo de escala que el test es capaz de llegar

Los instrumentos psicométricos

Una técnica, prueba, test, escala o instrumento psicométrico es un dispositivo o procedimiento en el que se obtiene una
muestra de comportamiento de un examinado en un dominio específico, subsiguientemente evaluado y puntuado
usando procedimientos estandarizados de evaluación y puntuación y que cuenta con evidencia empírica sobre su validez
y confiabilidad.

Estandarizado: Significa que se ha tipificado de manera explícita, puntualizando específicamente un dispositivo o


método de trabajo. Cualquier cambio que se introduzca impedirá la comparación de resultados y desempeños. Si se
mantiene constante el modo de administración y puntuación, entonces se podrá inferir que cualquier variación estará
dada por la diferencias entre sujetos.

Rapport: Esfuerzos puestos en juego del evaluador para generar en el evaluado una buena actitud general de
cooperación, despertar su interés y motivación y estimularlo a responder los test y entrevistas de la mejor manera
posible. El trabajo con técnicas debe ir siempre acompañado del establecimiento de un buen rapport que facilite la
tarea y que implique una actitud de respeto hacia el evaluado.

Siempre puede aparecer como respuesta a ser evaluado temor o ansiedad  Por ello el evaluador debe mantener un
clima de trabajo cómodo y distendido. Esto se debe a dos motivos: Primero porque de esta forma dará un mejor
rendimiento y segundo porque tiene que ver con una actitud ética; porque como sabemos que despierta ansiedades y
temores, tenemos la obligación personal y humana de hacer esta situación lo más fácil y relajada posible.

“Que brinde una muestra sobre un dominio específico”: Significa que el sujeto recibe una consigna que le indica qué
se espera de él y al responder dichas instrucciones generará un conjunto de comportamientos que el evaluador
registrará cuidadosamente, los cuales son muestra de un universo de comportamientos posibles del individuo que se
han dado bajo determinadas condiciones y que pueden generalizarse a algunas otras situaciones. A su vez, dichos
comportamientos están circunscritos a dominios específicos.

Esto implica que un test no evalúa todo el comportamiento de una persona, sino una muestra de todos sus
comportamientos posibles, reducidos a un área específica. La restricción está dada por dos razones: Qué se quiere
evaluar en concreto y desde qué marco teórico se hará dicha interpretación.

Técnicas proyectivas: Deben su nombre a que se basan en el principio de la proyección (supone un “poner afuera”
contenidos icc). Para que este mecanismo se dé, es necesario que exista una situación con poca estructuración, en
consignas y estímulos. Todas comparten también el mismo marco teórico, que es el psicoanálisis.

Las TPsc cuentan con consignas, estímulos y alternativas de respuesta altamente estructurados, a la vez que pueden
estar fundamentadas por diferentes marcos teóricos. También, como no se sustenta en mecanismos proyectivos, evita
plantear circunstancias poco estructuradas, para acotar el rango de respuestas posibles y facilitar la puntuación y
elaboración de las mismas según criterios estrictos.

Otra diferencia, entre las técnicas Pry/Psc es que las primeras proponen la evaluación de la personalidad como un todo,
en tanto que las segundas aíslan atributos diversos, valorándolos de a uno a la vez.

Los tests como operalizaciones de constructos teóricos

Todo test se basa en un modelo dado. Ese marco teórico que fundamenta la técnica apela a diversos conceptos o
constructos, que son construcciones ideales, formuladas por la mente humana para explicar determinados aspectos o
fenómenos de la realidad (ej.: la ansiedad en si misma no es observable, como concepto no tiene existencia real, sino
ideal).

Una vez que se ha definido y descripto ese concepto desde un modelo teórico, se procede a operacionalizarlo; lo que
implica “bajar” su definición abstracta a la empírea mediante la identificación de indicadores observables que den
cuenta de la ocurrencia de este fenómeno en la realidad. De este modo, todo constructo teórico implicaría una
definición:

 Teórica: la cual se encargará de examinar distinciones reales a la luz del modelo desde que se define el concepto, en
interjuego con otros conceptos pertenecientes a la misma teoría
 Operacional: Implica elaborar un listado de indicadores u observables que den cuenta de la presencia/ausencia de
dicho fenómeno.

Mediante esa prueba empírica la teoría se corrobora o no con la realidad  Podemos entender a los instrumentos
psicométricos como un conjunto de indicadores observables; estos son los ítems, elementos o reactivos del test: Son la
mínima unidad distinguible en él, consiste en cada una de las pequeñas tareas que el individuo debe realizar para
responder la consigna.

Noción de escalamiento

Una prueba psicométrica, desde el punto de vista metodológico, supone una colección de indicadores relativos a un
dominio de comportamiento precisamente definido; lo que implica

 Medición de un rasgo o atributo que se ha operacionalizado desde el modelo teórico


 La noción de escalamiento: Significa la posibilidad de convertir o traducir las respuestas brindadas a una
puntuación. Esas respuestas quedarán registradas en protocolos. Más tarde, el examinador codificará esas
contestaciones según el sistema tipificado en el manual; para obtener una puntuación global que es un índice; es
decir una puntuación construida que nos servirá para resumir la serie de respuestas dadas por el sujeto.
 Capacidad para discriminar: que pueda diferenciar adecuadamente que sujetos poseen ese atributo analizado en
gran medida de quienes lo poseen menos o no lo tienen. Significa que el instrumento debe ser capaz de captar
diferencias individuales.
 Validez y confiabilidad verificadas
 Estabilidad temporal: debe existir un mínimo de ella para que la evaluación tenga sentido. Ej.: no se puede evaluar
estado de ánimo.
 Determinados atributos formales: ej.: materiales empleados, forma de administración, uso del tiempo, etc.
 Estar enmarcado dentro del área de la evaluación psicológica.

Objetivo de la pesquisa:

 Test de diagnóstico: Intentan brindar al usuario una evaluación detallada y pormenorizada de una situación, o
atributo de un estado o rasgo
 Test de screening: detectan riesgos. Son breves y altamente sensibles ya que deben reaccionar fácilmente ante los
mínimos indicadores de riesgo potencial

Forma de administración: Administración individual (requieren mediación de un examinador) o autoadministrables.

Objeto de la evaluación: depende del constructo que se quiere evaluar. Materiales y medios empleados.
Tipo de respuesta:

 Dicotómica: respuesta entre opciones polares


Linkert: Ordenamiento de opciones según una gradiente: rechazo/aceptación o frecuencia
 Diferencial semántico: Forma de respuesta que prevé una escala, generalmente de 7 o 9 puntos, en cuyos extremos
se ubican dos adjetivo contrapuestos
 Test de resolución de tareas específicas: Se pide al sujeto que realice una producción determinada

Según su formato:

 Inventarios: Listados de afirmaciones que el sujeto tiene que leer y responder


 Cuestionario: Listado de preguntas que debe responder según este preestablecido
 Escalas: tarea que debe realizar el sujeto para reflejar algún conocimiento o destreza  Todos los instrumentos
psicométricos son escalas (según la noción de escalamiento)
 Encuestas: Se utilizan para recolectar opiniones o actitudes sobre un tema en particular
 Entrevistas dirigidas: Listados de pregustas preestablecidas que se hacen oralmente al sujeto, con la posibilidad de
ampliar contestaciones, para la codificación de las mismas se utiliza un protocolo preimpreso

Uso del tiempo: Algunas técnicas no fijan tiempo límite; otras establecen un límite preciso que después del cual se
suspende la tarea; u otra opción son en aquellas que se toma nota del tiempo para valorarlo luego

Base en que se comparan las respuestas:

 Test normativos: Se rigen por baremos o normas estadísticas. Comparan el rendimiento o respuestas de una
persona individual con el promedio registrado por una muestra normativo; es decir por un grupo de individuos
homogéneo al examinado según edad, sexo, hábitat y otras condiciones que pudieran afectar a la variable evaluada.
El baremo es un cuadro de doble entrada donde se ubica el promedio de las puntuaciones obtenidas por esa
muestra de sujetos y su desviación típica.
 De criterio o dominio: No emplean normas para comprar el desempeño del individuo, sino que las valora según un
criterio previamente establecido. Ej.: test para discriminar la presencia de síntomas depresivos

Capítulo 2: validez y los instrumentos psicométricos

Validez de un instrumento refiere a que esa herramienta sirva para medir aquello que intenta medir (García Cueto).

Actualmente, ya no se habla de discriminación, confiabilidad y validez como atributos inherentes al test; sino que se
habla de confiabilidad y validez de los resultados arrojados por el test, como también de la capacidad de discriminación
de sus ítems. Esto significa que:

 La validez y la confiabilidad no viene dada con el instrumento, sino que se hayan sujetas a ciertas condiciones,
referidas a la variabilidad de la muestra: nos indica si los valores obtenidos por distintos sujetos que componen la
muestra están muy próximos o no.
 Tales atributos vinculados a los resultados arrojados por el instrumento deben ser empíricamente determinados
mediante investigaciones científicas meticulosamente planificadas.

En la actualidad, específicamente se habla de evidencias de validez de x tipo, aportadas por x investigación desarrollada
sobre x sujetos. Lo que significa:

La validez no es un atributo estático de la escala, sino que es consecuencia de una investigación científica

Al diferenciarse varios tipos de validez de las puntuaciones obtenidas, no se puede concluir si una escala es válida o no,
sino que debe afirmarse que se han obtenido evidencias de validez X en las puntuaciones derivadas del test X

Un investigador responsable debería trabajar sobre todos, o sobre la mayor cantidad posible, de aspectos de validez.
Tipos de validez

1) Contenido
2) Criterio o empíria
3) Constructo
4) Facies o aparente
5) Ecológica  No está en el texto

1) Validez vinculada al contenido del test

Refiere a la verificación de que la muestra de ítems incluida en el test cubra efectivamente todos los aspectos o
dimensiones relevantes de las variables en estudio a ser medidas.

Para comprender este concepto, debemos pensar que los reactivos que se han ideado para formar parte del test son
solo una muestra de todos los ítems posibles destinados a medir esa variable. Esos seleccionados, deben ser
representativos: No solo deben ser claros y de buena calidad psicométrica sino que no deben haber descuidado
ninguna de las dimensiones de la variable a medir.

Esta tarea debe ser desempeñada por los diseñadores originales del instrumento y posteriormente controlada por un
juicio experto; que es un procedimiento mediante el que los autores del test convocan a un pequeño grupo de expertos
en el teman que se quiere evaluar mediante esa nueva escala, ayudados por una lista detallada de especificaciones que
los autores le facilitarán; en la cual revisarán el contenido y redacción de cada ítem y adecuación con respecto a cada
dimensión prevista por la teoría. Cada experto trabajará en forma independiente y hará llegar su evaluación a los
autores.

2) Aspectos empíricos de la validez. Validez vinculada al criterio

Validez empírica remite a un tipo de evidencia que se vincula con el uso práctico que puede darse en el test, en base a
los resultados que arroja; en base a qué mide y cómo lo mide.

Un estudio orientado a aportar evidencias de validación empírica de los resultados arrojados, deberá contar con un
criterio externo, que es una medida de la misma variable que el instrumento intenta medir, pero obtenida en forma
independiente a él. Será esa medición externa a la prueba, la que nos permita verificar empíricamente si la escala nos
brinda una información semejante a la obtenida mediante esa medición independiente.

La validez empírica, es también conocida como validez de criterio, ya que necesariamente implica el uso de un criterio
externo, una medida independiente, que mida la misma variable que quiere medirse.

Validez concurrente.

Esta actividad es llevada a cabo por investigadores: el investigador deberá administrar el test a una muestra de sujetos
que reúna las características que se han detallado en el test. Luego, la misma muestra será objeto de una observación
sumamente minuciosa y detallada, que funcionará como criterio externo.

Se empleará en coeficiente de correlación para valorar el grado en que ambos caminos de la evaluación, se hallan
asociados. El grado de asociación será mayor, cuanto más se acerque el coeficiente a 1; será menor cuanto más cerca de
cero se ubique. Una correlación perfecta significa que ambas variables aumentan y disminuyen juntas.

En el caso de validez concurrente, si este coeficiente es positivo y elevado, estará indicando que ambas mediciones,
arrojan resultados similares.

La validez predictiva

Se basa en la idea de intentar verificar que el instrumento, administrado en el presente, resulte un buen predictor de
otra variable, relacionada con la que se ha medido, pero distinta, cuyo comportamiento futuro interesa estimar. Ej.:
predecir el rendimiento de alumnos.

Para que la correlación sea elevada y positiva, los resultados obtenidos en la técnica deberán coincidir con el criterio
externo (ej.: rendimiento de los alumnos en clase y calificaciones)
Dado que usa un criterio externo en su procedimiento, comparte con la validez concurrente la validez de criterio: la
diferencia es que en la validez predictiva se predice otra variable que la que se mide en el test. En la concurrente, el
criterio se mide en el mismo momento en que se administra la prueba y es la misma variable evaluada por el
instrumento, pero obtenida por una medición independiente.

Validez retrospectiva

Es la correlación verificada entre los resultados de un test administrado en un momento de terminado y un criterio
externo medido antes de la aplicación del instrumento psicométrico. Ej.: en el ámbito de prevención de psicopatologías,
salud pública o clínica individual

Grupos contrastados

El objetivo consiste en demostrar que las puntuaciones arrojadas adquieren valores predecibles en función de la
pertenencia de los individuos a un grupo dado. Ej.: tener un grupo donde ya se estableció un X diagnóstico  ese grupo
debería puntuar significativamente más alto que otro grupo de no-pacientes. Si la escala esta midiendo correctamente
el constructo que se ha propuesto, debería ser capaz de discriminar fácilmente quienes son aquellas personas que
presentan ese diagnóstico y quiénes no.

3) Aspectos de la validez vinculados al modelo teórico que sustenta la prueba (constructo)

Toda escala psicométrica es la operacionalización de un constructo. El tipo principal de evidencia de validez teórica/de
constructo, se dedicará a responder a la pregunta de si esta técnica mide efectivamente aquello que dice medir; y por lo
tanto, si es una adecuada operacionalización de un constructo teórico dado.

Se define como un proceso continuo por medio del que se realizan múltiples investigaciones con el fin de poner a
prueba diferentes hipótesis sobre la estructura interna del constructo, así como de sus relaciones con otras variables.

Implica la acumulación gradual de diversas fuentes de información, por lo que no es posible considerarla como un
proceso terminado, sino que necesariamente requerirá de constante actualización e investigación.

Todo uso empírico se vincula con el modelo teórico  Toda validez empírica se vincula con la validez de constructo y
viceversa

Procesos más frecuentes

a) Estudios evolutivos: Si la teoría y/o resultados empíricos de diferentes investigaciones postulan que, por ejemplo, a
medida que un niño crece y madura, se acrecienta su capacidad para efectuar alguna actividad, un test que intente
medir esa capacidad, debería corroborar eso, mediante sobre sus resultados.

b) Estudios clínicos: Depende si el constructo a evaluar implica algún tipo de patología: Los resultados aportados por el
instrumento en pacientes patológicos deberían ser significativamente distintos a aquellos obtenidos por sujetos sanos.

c) Análisis factorial: método de reducción de datos, por el que es posible disminuir la cantidad de datos a ser analizados
o tenidos en cuenta. Si la cantidad de factores aislados o identificados y sus contenidos coinciden con la cantidad e
identificación de las dimensiones previstas en la teoría, entonces, podrá decirse que el test es una adecuada
operacionalización de la variable según la teoría X.

d) Validez convergente y discriminante: En todo proceso de validación de constructo, interesa conocer si se han podido
recoger evidencias de validez convergente y discriminante: evidencias del constructo medido por el instrumento
converge en el mismo sentido que otra evidencia relacionada por similitud, y a la vez, que aparece evidencia
discriminante, que se distingue teóricamente del concepto medido.

Evidencias de validez convergente: Son aquellas que se recogen cuando los resultados de un estudio de validez de
constructo convergen en un mismo sentido, verificando la relación entre constructos vinculados teóricamente, ej.:
ansiedad e insomnio  Si el índice de correlación es cercano a 1, indicará elevada asociación entre ambas dimensiones
teóricas y si era relación ha sido prevista por el modelo, reforzará las afirmaciones postuladas por la teoría y por ende su
capacidad explicativa
Evidencias de validez discriminante: Cuando se obtiene valores de correlación bajos, por ejemplo depresión y manía en
el mismo período temporal.

e) Meta-análisis: Investigaciones en las que se analizan diversos aspectos de estudios realizados por otros
investigadores sobre un instrumento en particular. Ello implica que toda evidencia aportada sobre validez teórica de un
test es minuciosamente revisada y puesta bajo lupa muy crítica, con el fin de rescatar los aspectos positivos y
prevenirse de los negativos

f) Estudios de evidencia de cambio pretest-postest: Si las puntuaciones obtenidas por una muestra de sujetos
experimenta cambios por efecto de la aparición de cierto evento, entrenamiento o experiencia entre la administración
del primer y segundo test. Estas variaciones, si son significativas, pueden convertirse en validez de constructo

g) Matices multi-método/multi-rasgo: Exigen la medición del mismo constructo en una muestra de individuos por medio
de al menos dos vías, seleccionándose así mismo, otros constructos diferentes pero relacionados con el que resulta de
interés. Entonces la misma muestra de sujetos se le administra todos los test destinados a medir el constructo central y
todos los otros relacionados. De esta manera, se obtiene evidencia empírica que apunta a las relaciones del constructo
con otros, así como a su potencialidad de ser medido por medio de diversos métodos. Por ello se denomina multi-
método, porque son varios test que miden el constructo que interesa y otros relacionados; y multi-rasgo, por todos los
constructos: el de interés y los relacionados.

4) Validez de facies o aparente

Tiene que ver con que el instrumento resulte válido a los ojos del examinado, ya que los materiales, la consigna, el estilo
de respuesta o las condiciones de respuesta para el examen dejan de parecer “serias” o adecuadas a su edad. A causa
de ello, la actitud de los sujetos se puede ver afectada, produciendo un efecto contrario al deseado en aras del logro de
un buen rapport.

Error y sesgo sistemático

Sesgo: un error constante o sistemático, que impide la medición precisa e imparcial del constructo a evaluarse. Por
acción de ese sesgo, la probabilidad de éxito no es independiente al subgrupo poblacional al que pertenece el
examinado. Ello significa que, aunque el instrumento haya sido estandarizado, un subgrupo dentro de ese grupo mayor
generará respuestas atípicas o no exitosas, por la pertenencia a ese subgrupo.

Este error sistemático se da siempre de la misma manera y en el mismo sentido toda vez que el instrumento se
administra a algún integrante del subgrupo.

Capítulo 3: Las puntuaciones de los test

Si la medición se la definió como la asignación de números o símbolos a objetos o fenómenos siguiendo ciertas reglas;
entonces los elementos de medición psicológica o sea, las pruebas psicométricas, quedaron caracterizadas como
aquellas que permiten relevar y/o procesar información en números o numerales

Numerales: Son los símbolos numéricos

Números: Es la cantidad que los símbolos representan

Los numerales pueden representar cualidades o cantidades, pudiéndose disinguir:

 Numerales nominales: Solo sirven para nombrar diferentes modalidades de la variable. Medición cualitativa = ≠
 Numerales ordinales: Las variables pueden tomar un orden. Medición semi-cuatitativa = ≠ <>
 Numerales cardinales: Se pueden cuantificar las modalidades de la variable. Medición cuantitativa y a partir de ellos
quedan definidos los niveles de razones e intervalar

Tipos de mediciones psicológicas

 Directas: Son aquellas donde el fenómeno a medir puede observarse a través de los sentidos, no hace falta ninguna
interferencia
 Indirectas: Se hace necesario el uso de un instrumento para cuantificarlo
- Tangibles: Variables físicas o psicofísicas
- Intangibles: se infiere la existencia de indicadores en la operacionalización de la variable
Los puntajes brutos

Variable: Fenómeno que puede ser medido por más de una modalidad, es decir que posee más de un estado posible.

Variable psicológica: Los fenómenos de interés de la psicología  Si se las puede contar, el resultado es una medida del
fenómeno

Escala de medición psicológica: Es un conjunto de números asignados inequívocamente a una variable psicológica. Para
ello deben cumplir con dos propiedades:

 Exclusivos: Que cada una de las modalidades sólo pueda ser representada por un numeral
 Exhaustivos: Que todas las modalidades posibles tengan asignado un numeral

Para poder realizar operaciones matemáticas con las variables, deben cumplir con los siguientes requisitos:

 Que cuantifiquen o semi-cuantifiquen la misma variable


 Que lo hagan bajo las mismas reglas
 Que los números asignados representen valoraciones isomórficas de la variable  Estadarización y validación

Puntaje bruto: Es un número que representa una cuantificación de la variable o constructo a medir. Es un nuevo número
que sintetiza y representa cantidad/cualidad/frecuencia de la variable y que ha sido el resultado de un X proceso de
medición

Nivel de medición del puntaje bruto

Gran parte de los puntajes brutos se obtiene como resultado de la sumple suma de números asignados a las respuestas;
no obstante, no es la única alternativa.

 Si los numerales asignados son de nivel nominal, no se pueden realizar operaciones matemáticas
 El valor resultante de una combinación de ítems suele mejorar el nivel de medición que el ítem aislado  el n°
resultante de agrupar ítems suele tener, al menos el nivel de medición de los ítems o lo supera ej.: si indica
presencia/ausencia, si se los suma, puede indicar intensidad

Valoración del puntaje bruto

El puntaje bruto, por sí mismo no ofrece suficiente información con respecto a la magnitud de la medida obtenida. Se
requiere un sistema de referencia externo, que permitan contextualizarlo. Los valores más frecuentes son: la media y
desvío estándar.

Puntajes transformados: Cuando se utiliza valores como la media, para convertir los puntajes brutos en otros. Esta
reconversión ya no es una medición, ahora se trata de un número que realmente cuantifica al constructo, que es más
útil para interpretar. Pueden clasificarse en: medidas de posición o puntaje estándar

- Medidas de posición

Organización de los puntajes: frecuencia

Una vez que se ha seleccionado la muestra, se administra el instrumento y se calculan los resultados; con esos puntajes
se calculan los estadísticos y se estiman los parámetros. Estos valores son presentados en los manuales para el uso del
evaluador en forma de tablas que permiten la conversión de los puntajes brutos a puntajes transformados; que son los
llamados baremos o normas estadísticas.

Frecuencia/Frecuencia absoluta: Cantidad de casos correspondiente a cada uno de los puntajes. Frecuencia = n; puntaje
= x; Cantidad total = N

Frecuencia relativa: Frecuencia absoluta dividida la cantidad total de datos; expresa que proporción hay de
determinado puntaje. P = n/N  Frecuencia relativa porcentual: Se la multiplica por 100

Distribución de frecuencias. Mediana


Frecuencia acumulada: La frecuencia que tiene un determinado puntaje más la frecuencia que tienen todos los
resultados menores a él. La frecuencia acumulada de 50%, es decir que deja por debajo a la mitad de las puntuaciones
se llama mediana

Todos los puntajes transformados llamados medidas de posición se basan en las frecuencias acumuladas porcentuales.
Ejemplos:

Percentil

La mediana divide al conjunto de los datos en dos mitades con la misma cantidad de datos. En los puntajes que dividen
la distribución en 100 partes con el 1% de los casos, cada uno de ellos se llama percentil; expresa qué porcentaje de
mediciones de la muestra tiene por debajo o en el mismo valor cada puntaje bruto.

El rango percentilar indica el porcentaje de sujetos que en la muestra ha sido superado por el percentil, pero no
necesariamente el complemento de 100 de ese número lo supera (un percentil 90, superó al 90% de la muestra, pero no
necesariamente es superado por el 10%  Está entre el 10% de los sujetos los que han superado el 90%)

Ventajas:

 Claro y fácil de interpretar, ya que su n° indica el porcentaje de sujetos de la muestra que obtuvieron el mismo valor
o menor a la variable medida
 No es complejo hacer un listado de puntajes brutos y asignarle un percentil que corresponda

Desventajas:

 Dentro de un mismo rango percentilar hay más de un valor: no asignar un valor en forma unívoca a cada estado
medido, hacen que este tipo de medida pierdan el carácter de escala.
 Los puntajes brutos pasados a percentiles pueden producir una pérdida del rango de amplitud del instrumento, lo
cual puede llevar a errores de lectura

Déciles: son puntajes, pero en lugar de tener un rango de 99 posiciones, tiene uno de 9; los cuales dividen a los datos en
10 conjuntos de igual cantidad, y se obtiene también de la frecuencia acumulada.

Cuartil: No se usa en psicología porque da resultados muy gruesos, ya que divide a los datos en 4 agrupamientos

- Puntaje estándar.

Se obtienen mediante un cálculo matemático por el que se logra comparar el puntaje bruto elevado en un sujeto con el
valor medio y desvío estándar, previamente calculados en una muestra.

Los PE se obtienen con una fórmula matemática aplicada a los PB, y a cada uno de ellos les corresponde un único PE;
quiere decir que los puntajes transformados mantienen el aspecto unívoco que caracteriza a las escalas de medición.

Puntaje diferencial. Uso de la media.

Para obtener la media o promedio (x con rayita), es necesario primero administrar el instrumento a una muestra de
sujetos y obtener los puntajes de cada uno de los instrumentos que la componen.

Puntaje diferencial: Si al puntaje bruto se le resta el valor de la media  indica cuan apartado está el valor promedio
del puntaje bruto en cuestión. Tiene la propiedad de que cuanto más grande es su valor, mayor distancia habrá respecto
al valor promedio. Pd = PB-Xmedia

Si un puntaje bruto de un sujeto es por encima de la media, dara un PD positivo; si es menor, será negativo; si es igual a
la media el PD es 0.

 Ventaja: Informa si la medida está por arriba o por debajo de la media con solo ver el signo, e indica qué tan lejos se
esta del valor promedio
 Desventaja: dificultad para valorar la magnitud  Puede dar el mismo puntaje diferencial, puede observarse que en
una media de a) 10, 18 puntos está lejos de la media; pero en b) una media de 100, 108 puntos está cerca. ¿En cuál
hay mayor variación  cual está más cerca de la media?
Puntaje diferencial relativo: El puntaje se divide por un valor conocido; la media

Puntaje diferencial relativo porcentual: A lo anterior se lo multiplica por 100

Ej PD% = ((PB-Xmedia)/Xmedia) 100  a) ((18-10)/10)100 = 80% b) 8%

La variación de 8 puntos respecto a 10, representa una variación del 80%; en cambio una variación de 8 puntos en 100,
significa un 8% de variación

Puntaje Z

El puntaje diferencial da mayor información que el puntaje bruto; pero no nos ofrece información en cuan dispersos
están esos valores con respecto a la media. (Es decir, n=1/2 Xm=10 – n=9/11 Xm=10 ¿Cuál está mas disperso?)

Para ello se realiza un promedio de los PD es lo que se denomina desvío estándar o típico: Que es la raíz cuadrada del
promedio de los puntajes diferenciales elevados al cuadrado. Es una medida que varía de acuerdo a cuan dispersos
estén los puntajes brutos respecto a la media.

Puntaje Z: Si se divide los puntajes diferenciales por el desvío estándar. Es un puntaje transformado que puede
calcularse cuando se conoce la media y el desvío estándar e indica cuan cercano o lejano esta al valor promedio de la
muestra ese puntaje bruto.

 Media: 0
 Desvío estándar: 1
 Si Z es positivo, es porque es mayo a la media, si es negativo, es porque es menor.
 Si el valor es muy pequeño (cercano a 0), significa que la muestra se ubica agrupada alrededor de la media.
 Cuando Z=1 se corresponde con un puntaje bruto ubicado el valor de un desvío estándar por encima de la media.
 Por convención, se considera que Z = 1,5 es indudablemente alto y Z = -1,5 indudablemente bajo

Puntaje T

Es una variante del puntaje Z, el cual se lo multiplica por 100

 Media: 50
 Desvío Estándar: 10

Puntaje CI

Las Escalas de Wechsler de inteligencia, expresan sus resultados principales en puntajes transformados, también
derivados de Z, llamados Coeficiente Intelectual y Puntaje Índice. Todos ellos comparten las mísmas características:

 Media: 100
 Desvío estándar: 15

Con el objetivo de facilitar la lectura, las EW proponen rangos o intervalos de interpretación, que se seleccionan
teniendo en cuenta la frecuencia con que los sujetos pueden tener distintos valores de CI:

< 69 70 -79 80 – 89 90 - 109 110 - 119 120 – 129 > 130


Deficiente Limítrofe Media baja Promedio Media alta Superior Muy superior

Puntaje equivalente

En las EW, se obtienen los valores de CI y PE a partir de sub tests. Como resultado de cada uno de ellos se obtienen los
correspondientes puntajes brutos que han de convertir en un puntaje transformado que permita su comparación. Cada
uno de estos puntajes transformados, también son variantes de Z, que se denominan puntajes equivalentes.

 Media: 10
 Desvío estándar: 3

Un valor por encima de la media, en un desvío estándar o más se lo considera elevado o “fortaleza”; mientras que un
valor por debajo se lo denomina “debilidad”
Puntajes y distribución normal

Distribución normal: Cuando hay una cantidad de frecuencias que se eleva cada vez más cuanto más próximo a la
media se encuentra y al mismo tiempo, van disminuyendo hacia los extremos. Algunas características:

 La media y mediana coinciden


 Curva asintótica: nunca llega a cero
 Valor central arbitrario 0  50% por debajo (media) y por arriba (media)
 Área que se encuentra por debajo de la curva, que están por debajo de 1 DE representan el 16% del total del
área; y por encima queda un 84% aproximadamente
 El área que se encuentra entre 1 DE por debajo de la media y 1 DE por encima de la media es del 68%
 El área que se encuentra comprendida entre 2 DE por encima y por debajo de la Xm es del 95%, y de 3; 99%

Si una variable psicológica se distribuye de modo lo suficientemente parecido a la curva normal, es posible trabajarla
como si lo fuera  Es decir muchos casos cerca de la media y menos en los extremos  Ej.: casos de medidas en
situaciones de “salud”: Memoria

Los percentiles que corresponden a casos de patologías, NO CORRESPONDEN a una variable distribuida en forma
normal.

Capítulo 4: Confiabilidad y error de medición

Confiabilidad

La confiabilidad es un índice de la calidad de la técnica de evaluación, su indagación está a cargo de quien elabora o
adapta el instrumento en cuestión. Se la estudia en un modo técnico y cuantitativo.

Toda medición científica se halla fundamentada en una teoría de la medición, la cual tiene como objetivo mejorar su
utilidad y precisión. Las mediciones en psicología se analizan desde la teoría clásica de los test (TCT). La cual, es una
teoría útil para describir la influencia de los errores de medida en las puntiaciones observadas u obtenidas a través de
instrumentos y sus relaciones con puntaciones verdaderas. Si se acepta la posibilidad de medir en psicología, es
necesario asumir dos supuestos:

 Existen puntajes verdaderos, que miden sin error  Supuesto ideal. Se los llama puntajes verdaderos
 Siempre que se realizan mediciones, pueden cometerse errores  Se los llama puntajes obtenidos

Uno de los objetivos más importantes de la psicometría es detenerminar la puntuación verdadera; que es la que se
define como lo que queda de la puntuación obtenida a través de los test, una vez eliminados los errores de la media.

En las mediciones indirectas de fenómenos intangibles, el puntaje verdadero no puede ser concretamente calculado.

Tipos de error

Una medición realizada a través de un instrumento psicométrico, puede estar influida por infinitas fuentes de error;
pero se las puede dividir en dos categorías según el tipo de error que generan

- Error sistemático

Son aquellas que desplazan las puntuaciones en cierta dirección, generando una puntación sistemáticamente elevada o
baja. Pero a pesar de introducir diferencias en el resultado de la medición, no cambia la variabilidad, o sea, la
distribución de las puntuaciones. Son errores que pueden ser detectados en el análisis de validez del instrumento. Ej.:
una balanza que pesa 1 kg de más.

- Error no sistemático

Son aquellos en los que no hay posibilidad de control, son impredecibles o aleatorios ya que son causados por
variaciones azarosas. Dichas fuentes de error pueden haber sido generadas en la etapa de construcción de una técnica,
en la administración, en la puntuación y en la interpretación de los resultados
 Las fuentes que pueden generar errores durante la etapa de construcción del instrumento, una es la del muestreo
de contenido: es la variación de los resultados obtenidos dependiendo de los ítems de la técnica ej.: que un niño de
más alto en un test de vocabulario porque conocía las palabras
 Las fuentes de error durante la administración son:
- Aquellas que tienen que ver con la motivación del evaluado
- Variables de las condiciones ambientales
- Variables del examinador

Confiabilidad de las puntuaciones.

Requena: Estudiar la confiabilidad implica analizar el grado de la determinación de la precisión con la que se realiza una
medida. Es un concepto análogo al utilizado en la ciencia bajo el nombre de precisión.

Anastasi y Urbina: Confiabilidad refiere a la consistencia de las puntuaciones obtenidas por las mismas personas cuando
se las examina en distintas ocasiones con el mismo test. Fundamenta el cálculo del error de medición, con el que
podemos predecir la probable fluctuación en la calificación de un solo individuo debido a factores aleatorios irrelevantes
o desconocidos.

Existen diferentes grados de confiabilidad: el denominado coeficiente de confiabilidad es el que informa el grado de
precisión del instrumento.

Conceptos estadísticos relacionados

Varianza: (S2) Mide la dispersión de los datos con respecto a la media. Siempre que un instrumento es aplicado a un
grupo de individuos, se obtiene una distribución resultante; esa variabilidad se expresa como su varianza. Con
frecuencia es necesario descomponer la varianza en varianza verdadera (S2v) y la varianza debida al error (S2e).

La medida de confiabilidad de una técnica depende de la variabilidad de las puntuaciones. El desafío: maximizar la S2v y
minimizar la S2e

Coeficiente de correlación: (rxy) Expresa el grado de correspondencia o asociación entre dos conjuntos de
puntuaciones; siempre y cuando las mismas sean medidas en un nivel de intervalos o de razón. Cuando la correlación
entre dos variables es perfecta, el coeficiente de correlación es igual a 1, cuando no hay es 0 y cuando la asociación es
indirecta es -1.

Coeficiente de confiabilidad (Cxx)

Es la forma técnica de expresión de que si una técnica es confiable. Su forma natural de obtenerlo es calculando la
proporción entre la varianza verdadera (S2v) y la varianza total (S2) = (S2v+ S2e). Es un número cuyo valor mínimo es 0, lo
cual indica que no hay varianza verdadera, ya que es todo error, y un valor máximo de 1, que indica que es todo
varianza verdadera. Cuanto más cercano a 1 sea Cxx, más confiable será el instrumento.

La dificultad para calcular la confiabilidad es que el único dato que se puede obtener de los resultados de la medición
corresponde a la varianza total (S2), mientras que S2v y S2e son incónitas. Por lo tanto, se la denomina forma teórica y al
coeficiente obtenido coeficiente de confiabilidad teórico.

Procedimientos empíricos para estimar el Cxx

Si en dos ocasiones se administra una técnica a un mismo grupo de sujetos, pocas veces se obtendrá el mismo
resultado, debido a la incidencia de factores aleatorios y ello demuestra falta de confiabilidad.

Si se realizan dos mediciones al mismo sujeto y el constructo a evaluar no varió: el conjunto de discrepancias a formar el
S2e y las consistencias S2v. Hay diferentes formas de calcularlo, cada uno de ellos depende de las características del
diseño, y permite delimitar de manera adecuada algún aspecto de la confiabilidad. Se dividen en dos grandes grupos:

Métodos que requieren una aplicación Métodos que requieren más de una aplicación
-División por mitades -Test-retest
-Fórmulas paralelas (sin intervalo) -Fórmulas paralelas (con intervalo)
-Coeficiente alfa de Cronbach
-Confiabilidad entre evaluadores
En todos los procedimientos es necesario disponer al menos dos conjuntos de medidas paralelas de los mismos sujetos,
para luego calcular el coeficiente de confiabilidad. Se utiliza el coeficiente de correlación entre datos de una misma
variable. Pero existe una diferencia, en lugar de asumir valores entre -1 y +1; el coeficiente de confiabilidad asume
valores entre 0 y +1.

Métodos basados en medidas repetidas

Una forma de estimar la confiabilidad de un instrumento de medición consiste en usar el mismo instrumento en una
muestra de sujetos, en dos momentos diferentes. Esto permite medir la estabilidad de las puntuaciones obtenidas por
la técnica de evaluación bajo estudio.

Test – retest

El objetivo de este método es medir la estabilidad de las puntuaciones sabiendo que conforme con que trascurre el
tiempo las personas cambian. Es fundamental la determinación de la extensión del intervalo de tiempo entre una
administración y otra, ambas realizadas en una misma muestra de sujetos; ya que solo así podrá interpretarse el Cxx.
Cuanto mayor tiempo pase entre las administraciones, menor sea el Cxx y cuanto más breve sea el intervalo, la
estabilidad temporal de los puntajes será de menor alcance. Ej.: Elizabeth Koppitz en el libro de TGVpNdBender,
presenta sus estudios de confiabilidad con esta técnica.

Formas paralelas o alternativas (con intervalo)

La evaluación de la variable no conserva las mismas características cuando un test es administrado en una segunda
oportunidad, ya que las respuestas de algunos ítems puede verse afectada por factores tales como la experiencia previa,
falta de novedad o falta de motivación.

El procedimiento de las formas paralelas con intervalo de tiempo es utilizado cuando se necesita minimizar el efecto de
la memoria del contenido de otra prueba aplicada con anterioridad. Entonces se procede a realizar dos test
equivalentes que serán tomados al mismo grupo de sujetos, luego de un lapso de tiempo también expresamente
tipificado.

Ambas versiones deben partir de un fundamento común; tener un contenido y un grado de dificultad similar, sin ser
iguales; también deben ser equivalentes tanto las medias y las varianzas, como los índices de dificultad y la
discriminación de los ítems

Métodos basados en una sola aplicación de los test

División por mitades

El autor o adaptador de una técnica psicométrica que utiliza este método, tiene como objetivo el escrutinio de los ítems
que conforman la prueba y el análisis de las relaciones entre ellos. Aporta información para estimar el grado de
consistencia interna del instrumento. Es condición que la técnica en estudio sea homogénea, que evalúe un único
atributo o factor.

Requiere sólo una aplicación del test, que luego se divide en mitades homogéneas, apareadas en contenido y dificultad;
además de ser similares en formato, n° de ítems y estadísticos. Luego se calcula la correlación entre los puntajes de cada
una de las mitades que han sido aplicadas a la misma muestra. Por último se debe interpretar el confiabilidad del
instrumento.

Formas paralelas o alternativas (sin intervalo)

Este método es similar al de formas paralelas con intervalo, pero esta vez, no hay ese lapso de tiempo. Controla si las
razones azarosas en la selección de los ítems en cada una de las formas han influido en la muestra de tal manera que
contesten mejor en una forma del test que de otra. (Se debe tener en cuenta la posible presencia de fatiga y/o falta de
motivación por parte de los sujetos)

Fórmulas Kuder – Richardson. KR – 20

Se trata de índices útiles para evaluar la homogeneidad del test, ya que permiten calcular el grado de correlación entre
todos los ítems de la escala (variante del coeficiente de correlación de Pearson). Determina la consistencia entre ítems
dicotómicos.
Coeficiente alfa de Cronbach

Puede ser utilizado en reactivos no dicotómicos, o sea que incluyan diferentes alternativas y además en los que haya
créditos parciales. Primero se aplica la prueba y luego se calcula el Calfa entre las puntuaciones obtenidas en los
diferentes ítems.

Confiabilidad entre evaluadores.

Una técnica confiable debe arrojar los mismos resultados independientemente de quien lleve a cabo la evaluación; ya
que la medición es estandarizada e implica uniformidad tanto en las condiciones de administración como en las de
evaluación. El evaluador debe analizar si la técnica cumple con este requisito de objetividad y este método identifica las
fluctuaciones en las puntuaciones según el evaluador: Administra la técnica a una muestra de sujetos, luego se evalúan
las técnicas administradas por los diferentes evaluadores y se calcula el coeficiente de correlación.

Cuando el elaborador o adaptador calcula un índice bajo de confiabilididad con este método, deberá volver a revisar los
criterios de puntuación e incluir otros que resulten más claros y que permitan un coeficiente mayor.

Utilidad del coeficiente de confiabilidad:

 Para conocer las propiedades psicométricas de una técnica


 Para valorarla
 Para tener criterios de selección de instrumentos

Error típico de medida.

El administrador de un test debe conocer el error que comete al realizar una medida y el coeficiente de confiabilidad
permite ese cálculo; es decir que la confiabilidad es importante a la hora de interpretar puntuaciones individuales:

En sentido amplio, el error refiere al componente de la puntuación obtenida por un sujeto en una técnica psicométrica,
que no está en relación con la evaluación del atributo en cuestión

Desvío estándar del error de medición / error estándar: permite calcular el desvío típico de error. Estas variables se
distribuyen de acuerdo a la curva normal.

Niveles de significación e intervalo de confianza

Ya se ha dicho que no es posible calcular el error de una determinada medición; sin embargo, calculando el desvío
estándar de los errores, se puede determinar que se encuentre entre dos determinados valores  A estos valores y sus
correspondientes probabilidades se los conocen como intervalos de confianza; lo cual permite estimar la probabilidad
de entre que puntajes está el valor verdadero.

Capítulo 5: Construcción y adaptación de técnicas psicométricas.

Pasos para la construcción de una técnica psicométrica.

Diseño Construcción
Delinean aspectos iniciales y basales del instrumento Materializa el instrumento
1. Definir la finalidad de la técnica 4.Preparación y análisis de ítems
2. Definición de marco teórico 5. Estudio de la calidad psicométrica
3. Aspectos de diseño 6. Normas 7. Publicación

1. Definir la finalidad de la técnica.

Definir la finalidad de la técnica implica identificar las variables a medir y la población a cual se dirige la evaluación.
Permite establecer el propósito del test. Puede ser:

 Un test que se elabora respondiendo a necesidades concretas de un ámbito de aplicación particular.


 Que se elabore en el marco de desarrollos teóricos.

Aparecen preguntas, entre otras: Objetivo de la prueba; Qué es lo que va a medir; Si hay otras pruebas que evalúen lo
mismo; Quien la usará, quien podrá aplicarla.
El profesional tiene que atender y profundizar el marco teórico y la definición de la variable que fundamente su
construcción, ya que solo con esta información puede valorar el tipo de decisiones que podrá tomar con las
puntuaciones obtenidas.

2. Marco teórico. Definición del constructo

La elaboración de un instrumento científico implica la perspectiva de un marco conceptual que aporta información para
la interpretación de las puntuaciones. Dicho marco no puede quedar reducido a un conjunto de definiciones de
conceptos, sino que tiene que abordar las relaciones lógicas de estos con un marco teórico o una corriente psicológica
más amplia.

La definición de la variable a medir evitará la omisión de aspectos importantes del atributo o la inclusión de otros poco
relevantes.

3. Aspectos de diseño preliminares

Tiene como objetivo especificar, a priori, las principales restricciones con las que deberá operar el instrumento, tales
como:

 Tipo y formato de test


 Tipo de respuesta
 El tiempo de administración
 Los materiales a emplear
 Tipo de exigencia; grado o dificultad

4. Preparación y análisis de ítems

A partir de esta fase comienza la construcción del instrumento, es decir que la definición teórica del constructo debe
derivar en una operacional. El constructor tiene que exponer claramente las relaciones existentes entre la variable y sus
manifestaciones observables.

Identificados los indicadores prácticos del constructo a medir, a través de las definiciones operacionales, se hace
necesario generar los estímulos que los fomenten  ítems cuya respuesta sea manifestación observable de la variable.

Las tareas implicadas en esta etapa son variadas y complejas. Entre estas etapas del proceso, existe un orden lógico, por
lo que la información obtenida en cualquiera de ellos puede ocasionar cambios en el plan original

a) Confección de los ítems, consignas y formato de respuesta


b) Estudio pre-piloto
c) Administración y evaluación preliminar en una muestra piloto de sujetos
d) Construcción de la forma definitiva del instrumento

En los tres últimos pasos de la etapa, los ítems se ponen a prueba a través de administraciones de la técnica a los
sujetos. Por el contrario, el primero es un paso que implica conocimiento de índole tanto teórica como técnico-
metodológica.

Paso a: Planeamiento y confección de ítems

Sin una idea precisa sobre el propósito de la prueba, sin un adecuado ajuste a un marco teórico y una clara definición de
la variable, no es posible abordar científicamente la construcción de un instrumento de evaluación.

La construcción propiamente dicha de un test comienza al diseñar un conjunto numeroso de ítems, generalmente
mucho mayor que la longitud prevista de la técnica. Este proceso implica determinar las posibles manifestaciones de la
variable y debe ser realizado por experto, ya que supone una discusión teórica.

El constructor de la técnica debe especificar un plan para el desarrollo de esta etapa en su conjunto y explicar los
criterios con los que llevará a cabo la selección y/o diseño de los ítems que serán incluidos en el instrumento. Luego
debe identificar los observables representativos del constructo, del atributo de interés, y si este tiene varios, deberá
establecer las proporciones de ítems que evaluarán cada uno de ellos. Es importante que la magnitud de los ítems
guarde correspondencia con la relevancia dentro del mismo.

En los casos en que el constructo fuera multi-dimensional, debe informarse qué dimensiones tiene la variable y qué
conjuntos de ítems componen cada una de ellas, además de especificar si la técnica arrojará un puntaje único y/o varios.
En el caso de que ofreciera un puntaje único, producto de la combinación de varios, es necesario fundamentar cómo es
que se integran los puntajes para lograrlo.

Las decisiones sobre la naturaleza de los materiales estímulo y las posibilidades de respuesta del examinado deben
fundamentarse y justificarse en virtud de los objetivos de la evaluación.

Determinar los dominios que tendrá el instrumento, es decir: los niveles y rangos de medición y de población, los
objetivos de la evaluación, deberán diseñar los procedimientos de puntuación implicados.

Antes de inventar un gran número de ítems debe seleccionarse el formato y el método de escalamiento que se usará en
las respuestas; para ello hay que tener en cuenta, que hay test que miden:

 Inteligencia o aptitudes: tiene como objetivo evaluar el rendimiento de los sujetos y para ello poseen técnicas de
recolección muy variadas
 Aspectos de personalidad, intereses o actitudes: utiliza frecuentemente el formato de cuestionario e inventarios
que evalúan valoraciones de los sujetos respecto a las características o conductas personales, ideas o creencias con
las que se describen. Los ítems se caracterizan porque suelen realizarse comenzando con una breve descripción de
alguna de dichas variaciones y luego presentan dos o más alternativas, solicitando que el sujeto las categorice

Respecto al escalamiento de las respuestas, es de particular importancia la selección del nivel de medición, tanto de los
ítems como de la variable, ya que esto define las posibilidades que tendrá el tratamiento posterior de los resultados. En
general los instrumentos que miden variables de inteligencia y aptitudes tienen facilitado el proceso de cuantificación
 cada opción no tiene el nivel de subjetividad que tienen los que evalúan personalidad, intereses o actitudes.

Teniendo ya definido el tipo de ítem y su formato, se procede a generar gran cantidad de ellos; a lo que le sigue la tarea
que implica someterlos a un minucioso análisis crítico y/o a un sistema de jueces.  Comienza a ser evaluada la validez
conceptual, de contenido y aparente. Solo aquellos ítems que pasen la aprobación de los jueces (suelen ser impares),
integrarán el instrumento. En este momento, también se evalúa la consigna general y/o particular si las hubiese.

Además de los ítems que evalúan el constructo, se pueden agregar al instrumento otros con distintos fines, como por
ejemplo ítems que evalúen el falseamiento de respuestas  Como no son ítems específicos del constructo a medir, no
es necesario que lo hagan expertos en el tema, con psicometristas basta.

Paso b. Estudio prepiloto

Se trata de un ensayo, generalmente realizado en pequeños grupos de sujetos similares a los que está destinada la
técnica y que tiene con objetivo identificar ítems débiles defectuosos, elementos con significado ambiguo, así como de
estimar la adecuación del lenguaje y las dificultades de comprensión. Con frecuencia se anexa un cuestionario donde se
solicita a los sujetos que realicen comentarios sobre el test y sobre su comportamiento frente a los reactivos.

Paso c. Muestra piloto de los sujetos / Ítems preseleccionados

El diseño de esta actividad implica una estimación previa del tamaño y de la delimitación de las precisas características
de la población a la cual está dirigida la técnica, como los criterios de decisión sobre el número y composición de la
muestra. También requiere de una versión piloto del instrumento.

Básicamente se trata de administrar la versión piloto a la muestra representativa de la población a la que va dirigida el
instrumento, de forma tal de evaluar el funcionamiento del mismo y obtener un conjunto de resultados concretos que
permitan cuantificar y cualificar las características de los ítems. A partir de esos resultados, se pueden tomar decisiones
ya fundamentadas en la práctica, que incluyen las modificaciones de las consignas. EL conjunto de procedimientos
formales para hallar esta información se conoce como análisis de ítems; a partir de ella se pueden obtener numerosos
índices que faciliten la visualización de las propiedades de los ítems. Entre los más usuales se destacan:
 Poder discriminativo del ítem:
- Si capta las diferencias entre sujetos
- Si la diferencia medida se debe a diferencias reales en el constructo a evaluar.

Para poder hallar el poder discriminativo del ítem se suele recurrir a los índices correlaciónales de discriminación, que se
basan en la correlación que existe entre la puntuación alcanzada por el sujeto en el ítem y la puntuación total en el
criterio.

 Sesgo de los ítems: Se considera que un ítem esta sesgado cuando arroja puntuaciones significativamente diferentes
en grupos específicos de examinados que teóricamente forman parte de la misma población. La existencia de sesgo
se establece determinando si los parámetros de los ítems varían o no a través del tiempo.
 Dificultad del ítem: en el caso de pruebas donde interesa evaluar aptitudes, los ítems han de elegirse teniendo en
cuenta su dificultad para ser respondidos adecuadamente
 Confiabilidad y validez de los ítems: Es factible calcular la confiabilidad y la validez de cada uno de los ítems
aplicando coeficientes de correlaciona adecuados a las características de la prueba piloto y de los ítems en cuestión.
En virtud de ello se seleccionan los elementos con mayor nivel de calidad, ya que serán los que maximizarán la
validez y confiabilidad del instrumento.
 Relación entre los ítems: el análisis factorial permite determinar el nivel de relación que existe entre las respuestas a
los ítems. Este tipo de análisis permite encontrar evidencia empírica de hipótesis teóricas del funcionamiento de los
ítems y depurar aquellos que tienen bajo peo en el factor correspondiente.

Paso d. Versión definitiva de la técnica

Una vez seleccionado los ítems que se consideran idóneos para la formación del test, se estudian las características de
éste y se aplican técnicas para su estandarización definitiva, que incluirá el formato, las consignas, qué reactivos la
conformarán y en qué orden, las normas y los estudios de calidad psicométrica.

Con las normas nos referimos a aquellos valores que deberán calcularse para que el usuario final pueda lograr una
correcta valoración e interpretación de los resultados. Para obtenerlo, el instrumento es aplicado a una muestra
representativa de aquella población a que va dirigida, que se denomina grupo normativo.

5. Estudio de la calidad psicométrica

Las dos cualidades del instrumento psicométrico en las que el investigador y el usuario deben interesarse son la
confiabilidad y la validez.

Adaptación de los test.

La adaptación un instrumento, son los estudios que deben realizarse para ajustar una prueba origina proveniente de un
determinado medio sociocultural y adaptarlo a otro. Cuando un investigador adecúa una técnica desde el punto de vista
cultural, realiza una adaptación, y cuando lo actualiza se denomina revisión.

Como no es posible lograr un test libre de influencias culturales, lo deseable es que sea culturalmente justo, es decir que
haya posibilidades entre todos los grupos.

Émico y ético.

Marín invita a reflexionar sobre el hecho de tener en cuenta la necesidad de evitar la falsa suposición de que los
métodos e ideas desarrolladas en una cultura son igualmente válidos en otra. Esas consideraciones implican la
compensación adecuada entre los aspectos introducidos por Pike:

 Denomina éticos a aquellos constructos o aspectos de los mismos, ideas e instrumentos que tienen y han
demostrado características universales
 Émicos son aquellos vinculados o utilizables en sólo uno o en pocos grupos culturales

Cuanta mayor valoración ética tiene un constructo, más universal es, pero es muy poco probable que no tenga algún
componente émico en su justa medida. Quien adapta una técnica, debe ser ante todo un “medidador” entre culturas.
Marín propone 3 tipos de equivalencias a tener en cuenta a la hora de adaptación de un constructo:
 Conceptuales: Se refiere a si el constructo existe en la cultura donde se desea utilizar la técnica en cuestión, y en tal
caso, si la forma de valorarlo es la misma que en la cultura de origen. Esta equivalencia nos lleva a preguntarnos por
la validez cultural del constructo y del instrumento que lo mide.
 Lingüística: Refiere a la redacción de los ítems y las consignas, a su traducción y al empleo de términos que tengan
significados iguales o lo más parecido posible a los originarios. Para realizarla, se suele recurrir a las traducciones
por consenso, a personas bilingües y luego se realizan las pruebas piloto necesarias para garantizar la correcta
equivalencia.
 Métricas: Se refiere al calibrado, tanto al valor con que se pondera cada ítem (si se mantiene o se debe cambiar),
como la adecuación de las normas, la revaluación de los estudios de confiabilidad y validez y a la revisión de la
cantidad de factores que componen el instrumento entre otros.
 Formato: (Agregada por el libro) Refiere a los aspectos formales del instrumento que pueden afectar a la forma de
responder de los sujetos. Ej.: utilización del tiempo o el tipo de formato de respuestas.

En resumen: se quiere establecer la validez cultural del constructo, la validez lingüística y/o gráfica de su expresión, la
validez del formato seleccionado la validez métrica. Esta no es una tarea simple, ya que siempre existe la presencia de
cierto sesgo  EL problema del sesgo apunta a la cuestión de si las diferencias entre grupos encontradas en los
resultados de los test reflejan diferencias erales en la variable medida entre los grupos o si estas son causadas por
fuentes sistemáticas de variación ajenas al constructo que mide el test.

Potrebbero piacerti anche