6 Evidencias de Validez

Validez
Grado en que la evidencia y la teora apoyan la

interpretacin de las puntuaciones de los test, para el
propsito con el que stos son usados.
(AERA, APA, NCME, 1999, p. 09)
Evolucin histrica
La validez hace referencia al grado en que se mide aquello

que se pretende medir, pudindose diferenciar entre
validez de contenido, de criterio y de constructo
(Standards for educational and psychological tests and manuals,
APA, AERA, NCME, 1966, 1985).
La visin tripartita de la validez.
Evolucin histrica
Messick (1989), amplia el concepto:
Abre el concepto de medida no limitndolo a las

puntuaciones del test, incluye las puntuaciones obtenidas en
cualquier otro instrumento de evaluacin;
Destaca la importancia de considerar la utilidad de las
decisiones y consecuencias derivadas del procedimiento de
medida, apareciendo el concepto de validez consecuencial; y
Propone un enfoque integrador del macroconcepto de
validez en torno a la validez de constructo.
Evolucin histrica
la validez unificada integra consideraciones de
contenido, criterio y consecuencias en un marco de
referencia de constructo para la evaluacin emprica de
hiptesis racionales acerca del significado de las
puntuaciones y de relaciones relevantes desde el punto de
vista terico, incluyendo las de naturaleza cientfica y
aplicada
(Messick, 1989, pg. 741)
Evolucin histrica
Principal aportacin de Messick (1994)
Ruptura con la visin tripartita de la validez.

La validez de constructo asume la relevancia y
representatividad de los aspectos medidos (v. contenido) as
como las relaciones con otros criterios externos de inters (v.
criterio).
Validez
En Teora de Tests, la validez hace referencia a la adecuacin

de las inferencias realizadas a partir de las puntuaciones
del test
Validacin: Es entonces el proceso mediante el cual el

constructor, o el usuario de los tests, recoge la evidencia
emprica necesaria para apoyar las inferencias que se van a
realizar; entendiendo por evidencia tanto los datos,
observaciones y hechos, como los argumentos que permitan
apoyar y sustentar esos hechos.
Validez
Segn los estndares (1999), vamos a entender:
La validez como un concepto unitario

La validacin como un proceso continuo que permitir
recoger evidencias sobre la adecuacin de las inferencias
Distintos tipos de validez, se sustituye por distintas

estrategias para obtener evidencias de validez
Evidencias de validez
DE CONTENIDO DEL TEST
DEL PROCESO DE PREGUNTA RESPUESTA
DE LA ESTRUCTURA INTERNA DEL TEST
CONVERGENTE /DISCRIMINANTE
EN RELACIN CON CRITERIOS EXTERNOS
DE LAS CONSENCUENCIAS DE LA APLICACIN
de contenido
Evidencias de validez de
contenido
Evidencias que informan hasta qu punto los elementos de

un test son:
1.
Relevantes: cuenta con una exhaustiva especificacin de

todas las posibles conductas o dominios del constructo a
medir.
2.
Representativos: que todas las posibles conductas estn

recogidas en el test.
En el momento en que se definen los dominios a medir,

estaremos delimitando tambin el constructo.
Estrategia para la
validacin del contenido
1.
Definicin del dominio del constructo definir claramente

cada una de las dimensiones.
2.
Elaboracin de las especificaciones del test el dominio y

objetivos que va a cubrir el test.
3.
Seleccin de un panel de expertos en el dominio.
4.
Establecimiento de un marco estructurado para cuantificar

el grado de acuerdo entre los distintos jueces.
Importancia de la validez
de contenido
La validez de contenido es importante para cualquier

proceso de construccin de test, pero es absolutamente
necesaria en tests de rendimiento educativo y ocupacional
porque permite responder preguntas tales como:
1.
Est el contenido del test libre de variables irrelevantes?
2.
Cubre una muestra representativa de destrezas especficas,

para algn puesto de trabajo, por ejemplo?
Validez de contenido frente

a la validez aparente
Los tests tienen que aparentar que estn midiendo

aquello que se propone. De tal forma que si el
contenido del test parece poco relevante, sin sentido o
infantil, podra desmotivar a los sujetos.
sobre el proceso de
respuesta
Validez del proceso

pregunta respuesta
Evidencias que informan hasta que punto los sujetos estn

realizando las operaciones necesarias para que los
investigadores puedan inferir la presencia, ausencia o nivel
del constructo que estn midiendo.
Son los procesos cognitivos implicados en la resolucin del

tem aquellos que el test pretende medir?
Estrategia
Por lo general, esta evidencia se obtiene consultando

directamente a los sujetos, mediante entrevistas
cualitativas, protocolos de pruebas cognitivas o cualquier
otro procedimiento para evaluar las estrategias de respuesta
a los reactivos (Cortada de Kohen, 2005; Embretson & Gorin,
2001).
Por ejemplo: Entrevista Cognitiva, Pensar en Voz Alta,

Latencias, Movimientos oculares o Diseos experimentales
constructo: Estructura interna del
test y relaciones con otras variables
(Convergente y discriminante)
constructo
La medida en que el test refleja la teora psicolgica a partir

de la que se ha construido, y permite interpretar las
puntuaciones dndoles un significado terico (APA,
AERA, NCME, 1999).
Mide realmente el test la variable que intenta medir?

Existe en realidad dicha variable?
La estructura o dimensionalidad de los reactivos es la misma
que indica la teora?
Cmo deben relacionarse las puntuaciones del test con
puntuaciones de otros constructos y variables?
Validez de constructo
Las puntuaciones del tests no son el constructo.
El constructo puede manifestarse a travs de mltiples

indicadores.
Mediante las evidencias de validez de constructo se

acumula informacin que apoya la idea de que las
puntuaciones del test son en efecto una de sus posibles
manifestaciones.
Otras nomenclaturas
Evidencias de validez de estructura factorial (Se agrupan

los reactivos del test tal y como la teora lo predice?)
Evidencias de validez convergente (qu tanto converge mi

test con otro test que mide lo mismo?)
Evidencias de validez discriminante (qu tanto discrimina

mi test lo que no quiero medir?)
Estrategias para la validez de

constructo
1.
Definir el constructo a medir a partir de teoras existentes y

antecedentes empricos y derivar hiptesis sobre:
La relacin entre V. Latentes y V. Observadas (validez del rasgo)
La relacin con otras V. Latentes (validez nomolgica).
2.
Disear instrumento de medida que contengan elementos

representativos y relevantes del constructo a medir
3.
Incluir en el instrumento medidas de las otros constructos y

variables de validacin de acuerdo a la red nomolgica.
4.
Obtener datos empricos, y evidencias sobre las relaciones

previamente hipotetizadas.
5.
Establecer la estructura interna del test y sus relaciones con otras

medidas de constructos relevantes.
Tcnicas
Correlaciones con otro test previamente validado, en la

medida en que la correlacin sea alta mayor ser la relacin
del test con el constructo que trata de medir.
Correlaciones con medidas de constructos distintos al que se

quiere medir.
Anlisis de Factores.
Matrices multimtodo-multirrasgo (Campbell y Fiske, 1959).
Anlisis factorial
Es una de las tcnicas ms utilizadas para determinar la

estructura interna del test en relacin con el constructo.
El objetivo es explicar un conjunto de variables observadas

(tems de un test, por ejemplo) mediante un nmero menor
de variables latentes inobservables denominadas factores
(dimensiones tericas).
Son estos factores los que permiten dar una interpretacin

terica mediante la forma en que se agrupan los tems en
funcin de su contenido, que deberan coincidir con las
dimensiones tericas utilizadas en la construccin de la
escala.
Anlisis de factores
Anlisis de factores exploratorio (AFE): No se tiene

absoluta certeza de la dimensionalidad de la escala. Tras
ejecutar un AFE, obtenemos una solucin sobre el nmero
de factores o dimensiones en las que se puede resumir las
variables observadas.
Anlisis de Factores Confirmatorio (AFC): tenemos ciertas

hiptesis sobre el nmero de dimensiones y la forma en
que se agrupan los tems. Reporta ndices de ajuste que nos
ayudan a decidir si dicha estructura se reproduce en los
datos.
Matrices
Multimtodo-Multirrasgo
Se mide un mismo constructo mediante distintos

procedimientos y distintos constructos mediante el mismo
mtodo.
Se obtienen tres tipos de correlaciones:
Coeficientes de fiabilidad: son las correlaciones entre el

mismo constructo medido con el mismo mtodo.
Validez convergente (mono-rasgo/hetero-mtodo): son las
correlaciones del mismo constructo medido mediante distintos
procedimientos.
Validez discriminante (hetero-rasgo/mono-mtodo): son las
correlaciones de distintos constructos medidos con el mismo
procedimiento.
Se quieren medir tres constructos: Razonamiento Numrico (RN),

Factor Espacial (FE) y Razonamiento Abstracto (RA), y se miden con
pruebas de distinto formato: Verdadero-Falso (V-F); y Eleccin mltiple
(E-M). En la tabla se presenta las correlaciones obtenidas entre los
distintos constructos medidos con ambos mtodos
mtodo 1 (V-F)
Num.
Espa.
mtodo 2 (EM)
Abstr. Num.
Espa.
Abstr.
Mtodo 1 (V-F)
Numrico
.95
Espacial
.20
.90
Abstracto
.30
.28
.92
Numrico
.90
.31
.40
.93
Espacial
.26
.87
.33
.37
.94
Abstracto
.43
.20
.84
.26
.37
Mtodo 2 (EM)
.88

Mt. 1 (V-F)
RN
FE
RA
Mt. 2 (EM)
FN FE RA
Mt. 1(V-F)
RN
.95
FE
.20 .90
RA
.30 .28 .92
Mt. 2 (EM)
RN
.90 .31 .40 .93
FE
.26 .87 .33 .37 .94
RA
.43 .20 .84 .26 .37 .88
1. La fiabilidad hace
referencia al mismo
constructo medido con
el mismo mtodo
(diagonal). As por
ejemplo, la fiabilidad de
razonamiento numrico
medido con el mtodo 1
es de .95, mientras que
con el mtodo 2 es de .93

Mt. 1 (V-F)
RN
FE
RA
Mt. 2 (EM)
FN FE RA
Mt. 1(V-F)
RN
.95
FE
.20 .90
RA
.30 .28 .92
Mt. 2 (EM)
RN
.90 .31 .40 .93
FE
.26 .87 .33 .37 .94
RA
.43 .20 .84 .26 .37 .88
2. La validez
convergente o
coeficiente mono-rasgo/
hetero-mtodo, hace
referencia a que se
midiera el mismo
constructo pero con
distinto mtodo. En
teora estas correlaciones
deberan ser altas y
significativas.

Mt. 1 (V-F)
RN
FE
RA
Mt. 2 (EM)
FN FE RA
Mt. 1(V-F)
RN
.95
FE
.20 .90
RA
.30 .28 .92
Mt. 2 (EM)
RN
.90 .31 .40 .93
FE
.26 .87 .33 .37 .94
RA
.43 .20 .84 .26 .37 .88
3. la validez
discriminante o heterorasgo/mono-mtodo,
hace referencia a las
correlaciones entre
distintos rasgos con el
mismo mtodo . En
teora estas han de ser
bajas, y menores que la
fiabilidad y la validez
convergente.
Matrices
Multimtodo - Multirasgo
Un problema es que no hay criterio estadstico para

determinar si existe o no validez convergente y
discriminante.
Actualmente, se suele investigar este aspecto mediante

procedimientos derivados del Anlisis Factorial
Confirmatorio.
referidas a criterios
(externos)
referidas a criterios
Evidencias que informan sobre el grado en que las

puntuaciones obtenidas en el test, pueden utilizarse
eficazmente para hacer inferencias sobre el
comportamiento real del sujeto en un criterio que no
se puede medir directamente.
Evidencia basada en la relacin con otras variables
(APA, 1999).
Posibles Diseos en funcin del momento en

que se recogen los datos del test y de los
criterios
Validez predictiva: el criterio se mide despus de haber
aplicado el test.
Validez concurrente: test y criterio se miden al mismo

tiempo.
Objetivo: predecir las puntuaciones futuras en el criterio a

partir de las obtenidas en el test.
Ejemplo: Tendr el sujeto un trastorno depresivo? Uso
predictivo del test
Ejemplo: Tiene el sujeto, actualmente, un trastorno depresivo?

Uso diagnstico del test
Validez Retrospectiva: el criterio se mide antes de
administrar el test.
Estrategias para la validez

de criterio
1.
Definir claramente el criterio que se quiere medir.
2.
Identificar el indicador o indicadores a utilizar como

medidas del criterio.
3.
Seleccionar una muestra de sujetos representativa.
4.
Aplicar el test y obtener una puntuacin para cada sujeto.
5.
Obtener una medida de cada sujeto en el criterio.
6.
Determinar el grado de relacin entre las puntuaciones

obtenidas.
criterio
Un problema importante es la forma en que vamos a definir

y delimitar el criterio:
Criterio o indicador simple de fcil delimitacin: Un test de

seleccin de vendedores de enciclopedias (criterio de xito =
cantidad de enciclopedias vendidas).
Criterio o indicador complejo (delimitacin ms

complicada): Seleccin de profesor de Psicometra (criterio de
xito = conocimiento materia?Habilidades sociales?
publicaciones?, grado acadmico?... ...?).
Todos los indicadores son parciales y no ofrecen una

comprensin completa del criterio
Seleccin de criterios
Para la seleccin del criterio Thorndike y Hagen (1989)

recomiendan indicadores:
a.
b.
c.
d.
Relevantes: que estn relacionados con el criterio, sin

embargo, no existen tests estadsticos que nos permitan
concluir en este sentido -> recurrir a jueces expertos
Libres de sesgo: variables que afectan de manera diferencial
entre grupos.
Fiables: se han de utilizar indicadores estables en el tiempo.
Accesibles
Coeficiente de validez
La relacin entre las puntuaciones del test y un criterio se

expresa como una correlacin llamada coeficiente de
validez.
Expresa el grado en el que la prueba es vlida para hacer

afirmaciones sobre el criterio.
Los coeficientes estn entre 0.30 y 0.40 se consideran altos

(significancia al 0.05).
Coeficiente de validez
1.
Un predictor y un criterio. Anlisis de correlacin; y

regresin simple.
2.
Varios predictores y un criterio. Anlisis de correlacin y

regresin mltiple, anlisis discriminante (criterios
cualitativos), regresin logstica (criterio dicotmico).
3.
Varios predictores y varios criterios. Anlisis de regresin

multivariante, anlisis de correlacin cannica, anlisis de
ruta, modelos de ecuaciones estructurales.
Situaciones que afectan el

coeficiente de validez
Fiabilidad del predictor y del criterio: bajos coeficientes de

fiabilidad del test y criterio rebajan los valores del
coeficiente de validez.
Restriccin del rango: el coeficiente de validez puede verse

reducido debido a restricciones en la variabilidad de la
muestra (seleccin de personal ya que se seleccionan a
sujetos con puntuaciones altas).
Dicotomizacin en el test, criterio o ambas: reducen los

valores del coeficiente de validez.
ndice para interpretar las

evidencias de validez de criterio
Coeficiente de Determinacin: equivale al coef. de validez

al cuadrado. Representa la proporcin de varianza de las
puntuaciones de los sujetos en el criterio que se puede
pronosticar a partir del test.
2
S
y
C.D = rxy2 = 2
Sy
El C.D est acotado en el intervalo [0 - 1]
Cuando la varianza error es pequea, implica que los

valores pronosticados de Y estn prximos a los reales; -> el
error tpico de estimacin ser pequeo y por tanto el C.D
tomar valores prximos a uno.
Diferencias entre grupos
Variables categricas externas, como el sexo o la pertenencia

a grupos especficos (esquizofrnicos vs. no
esquizofrnicos), tambin permiten a los investigadores
estimar la validez de las medidas si al comparar las
puntuaciones del test los grupos difieren
significativamente entre ellos y de la manera en que la
teora plantea que deberan hacerlo.
Pruebas de hiptesis sobre 2 promedios, ANOVA,

ANCOVA, MANOVA Y MANCOVA.
Evidencias de validez de las

consecuencias
Las evidencias de la validez de las consecuencias hace

referencia a la necesidad de examinar los potenciales
efectos colaterales no anticipados de los usos legtimos del
test, derivados de fuentes de invalidez del instrumento
(Messick, 1995).
Por ejemplo, si existen evidencias de que un instrumento

favorece a un grupo de aplicantes sobre otro, el test pierde
una importante parte de su validez, pues no cumple con su
finalidad en el marco de los principios de justicia en la
medicin.
Anlisis diferencial del tem

(DIF)
En una prueba de razonamiento matemtico, por ejemplo,

un reactivo presenta DIF (differential item functioning)
cuando examinados que poseen el mismo nivel en el rasgo
medido (razonamiento matemtico) presentan diferentes
probabilidades de acertar el reactivo solo por pertenecer a
distintos grupos (ser mujer, por ejemplo) y no porque
difieren en el nivel de constructo medido.
Las diferentes probabilidades se calculan comparando las

frecuencias de aciertos y errores en un tem en los sujetos
que, perteneciendo a distintas poblaciones, muestran el
mismo nivel de puntuacin en la prueba (Morerira, 2008)
Sntesis
EVIDENCIAS
TCNICAS (ejemplos)
CONTENIDO
Acuerdo entre jueves, kappa, correlacin

intra-clase
ESTRUCTURA
Anlisis de factores exploratorios y

confirmatorios
PROCESO PREGUNTA
RESPUESTA
Entrevista cognitiva, grupo de expertos.
CONVERGENTE
DISCRIMINANTE
Correlacione bivariadas, Multirasgomultimtodo
EN RELACIN A
CRITERIOS EXTERNOS
Regresin mltiple, pruebas de hiptesis sobre

2 promedios, ANOVAS, etc.
CONSECUENCIAS DE
APLIACIN
Anlisis de funcionamiento diferencial del

tem (DIF)
IDEAS CENTRALES
La validez no es una caracterstica inherente al instrumento, sino una

propiedad del significado que podemos darle a las puntuaciones
obtenidas mediante este y las consecuencias de las interpretaciones de
tales puntuaciones derivadas de l (Messick, 1989, 1995).
Estimar la validez de las interpretaciones es un problema que requiere de

un esfuerzo cientfico igual al que se exige para examinar cualquier
hiptesis de investigacin, en otras palabras, en el campo de la medicin
psicolgica es imprescindible proporcionar evidencias empricas que
apoyen o refuten cualquier inferencia (Cronbach & Meehl, 1955).
La validez no existe en trminos absolutos, es decir, no podemos decir

que un instrumento sea vlido o invlido. La validez de las inferencias
aumenta o disminuye, es relativamente robusta o frgil, dependiendo de
las evidencias empricas (Smith-Castro & Molina, 2010).

6 Evidencias de Validez

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

6 Evidencias de Validez

Caricato da

Copyright:

Formati disponibili

Validez

Grado en que la evidencia y la teora apoyan la

La validez hace referencia al grado en que se mide aquello

La visin tripartita de la validez.

Messick (1989), amplia el concepto:

Abre el concepto de medida no limitndolo a las

Principal aportacin de Messick (1994)

Ruptura con la visin tripartita de la validez.

En Teora de Tests, la validez hace referencia a la adecuacin

Validacin: Es entonces el proceso mediante el cual el

Segn los estndares (1999), vamos a entender:

La validez como un concepto unitario

Distintos tipos de validez, se sustituye por distintas

DE CONTENIDO DEL TEST

DEL PROCESO DE PREGUNTA RESPUESTA

DE LA ESTRUCTURA INTERNA DEL TEST

EN RELACIN CON CRITERIOS EXTERNOS

DE LAS CONSENCUENCIAS DE LA APLICACIN

Evidencias que informan hasta qu punto los elementos de

Relevantes: cuenta con una exhaustiva especificacin de

Representativos: que todas las posibles conductas estn

En el momento en que se definen los dominios a medir,

Definicin del dominio del constructo definir claramente

Elaboracin de las especificaciones del test el dominio y

Seleccin de un panel de expertos en el dominio.

Establecimiento de un marco estructurado para cuantificar

La validez de contenido es importante para cualquier

Est el contenido del test libre de variables irrelevantes?

Cubre una muestra representativa de destrezas especficas,

Validez de contenido frente

Los tests tienen que aparentar que estn midiendo

Validez del proceso

Evidencias que informan hasta que punto los sujetos estn

Son los procesos cognitivos implicados en la resolucin del

Por lo general, esta evidencia se obtiene consultando

Por ejemplo: Entrevista Cognitiva, Pensar en Voz Alta,

La medida en que el test refleja la teora psicolgica a partir

Mide realmente el test la variable que intenta medir?

Las puntuaciones del tests no son el constructo.

El constructo puede manifestarse a travs de mltiples

Mediante las evidencias de validez de constructo se

Evidencias de validez de estructura factorial (Se agrupan

Evidencias de validez convergente (qu tanto converge mi

Evidencias de validez discriminante (qu tanto discrimina

Estrategias para la validez de

Definir el constructo a medir a partir de teoras existentes y

La relacin entre V. Latentes y V. Observadas (validez del rasgo)

La relacin con otras V. Latentes (validez nomolgica).

Disear instrumento de medida que contengan elementos

Incluir en el instrumento medidas de las otros constructos y

Obtener datos empricos, y evidencias sobre las relaciones

Establecer la estructura interna del test y sus relaciones con otras

Correlaciones con otro test previamente validado, en la

Correlaciones con medidas de constructos distintos al que se

Matrices multimtodo-multirrasgo (Campbell y Fiske, 1959).

Es una de las tcnicas ms utilizadas para determinar la

El objetivo es explicar un conjunto de variables observadas

Son estos factores los que permiten dar una interpretacin

Anlisis de factores exploratorio (AFE): No se tiene

Anlisis de Factores Confirmatorio (AFC): tenemos ciertas

Se mide un mismo constructo mediante distintos

Se obtienen tres tipos de correlaciones:

Coeficientes de fiabilidad: son las correlaciones entre el

Se quieren medir tres constructos: Razonamiento Numrico (RN),