Sei sulla pagina 1di 46

Validez

Grado en que la evidencia y la teora apoyan la


interpretacin de las puntuaciones de los test, para el
propsito con el que stos son usados.
(AERA, APA, NCME, 1999, p. 09)

Evolucin histrica

La validez hace referencia al grado en que se mide aquello


que se pretende medir, pudindose diferenciar entre
validez de contenido, de criterio y de constructo
(Standards for educational and psychological tests and manuals,
APA, AERA, NCME, 1966, 1985).

La visin tripartita de la validez.

Evolucin histrica

Messick (1989), amplia el concepto:

Abre el concepto de medida no limitndolo a las


puntuaciones del test, incluye las puntuaciones obtenidas en
cualquier otro instrumento de evaluacin;
Destaca la importancia de considerar la utilidad de las
decisiones y consecuencias derivadas del procedimiento de
medida, apareciendo el concepto de validez consecuencial; y
Propone un enfoque integrador del macroconcepto de
validez en torno a la validez de constructo.

Evolucin histrica
la validez unificada integra consideraciones de
contenido, criterio y consecuencias en un marco de
referencia de constructo para la evaluacin emprica de
hiptesis racionales acerca del significado de las
puntuaciones y de relaciones relevantes desde el punto de
vista terico, incluyendo las de naturaleza cientfica y
aplicada
(Messick, 1989, pg. 741)

Evolucin histrica

Principal aportacin de Messick (1994)

Ruptura con la visin tripartita de la validez.


La validez de constructo asume la relevancia y
representatividad de los aspectos medidos (v. contenido) as
como las relaciones con otros criterios externos de inters (v.
criterio).

Validez

En Teora de Tests, la validez hace referencia a la adecuacin


de las inferencias realizadas a partir de las puntuaciones
del test

Validacin: Es entonces el proceso mediante el cual el


constructor, o el usuario de los tests, recoge la evidencia
emprica necesaria para apoyar las inferencias que se van a
realizar; entendiendo por evidencia tanto los datos,
observaciones y hechos, como los argumentos que permitan
apoyar y sustentar esos hechos.

Validez

Segn los estndares (1999), vamos a entender:

La validez como un concepto unitario


La validacin como un proceso continuo que permitir
recoger evidencias sobre la adecuacin de las inferencias

Distintos tipos de validez, se sustituye por distintas


estrategias para obtener evidencias de validez

Evidencias de validez

DE CONTENIDO DEL TEST

DEL PROCESO DE PREGUNTA RESPUESTA

DE LA ESTRUCTURA INTERNA DEL TEST

CONVERGENTE /DISCRIMINANTE

EN RELACIN CON CRITERIOS EXTERNOS

DE LAS CONSENCUENCIAS DE LA APLICACIN

Evidencias de validez
de contenido

Evidencias de validez de
contenido

Evidencias que informan hasta qu punto los elementos de


un test son:
1.

Relevantes: cuenta con una exhaustiva especificacin de


todas las posibles conductas o dominios del constructo a
medir.

2.

Representativos: que todas las posibles conductas estn


recogidas en el test.

En el momento en que se definen los dominios a medir,


estaremos delimitando tambin el constructo.

Estrategia para la
validacin del contenido
1.

Definicin del dominio del constructo definir claramente


cada una de las dimensiones.

2.

Elaboracin de las especificaciones del test el dominio y


objetivos que va a cubrir el test.

3.

Seleccin de un panel de expertos en el dominio.

4.

Establecimiento de un marco estructurado para cuantificar


el grado de acuerdo entre los distintos jueces.

Importancia de la validez
de contenido

La validez de contenido es importante para cualquier


proceso de construccin de test, pero es absolutamente
necesaria en tests de rendimiento educativo y ocupacional
porque permite responder preguntas tales como:

1.

Est el contenido del test libre de variables irrelevantes?

2.

Cubre una muestra representativa de destrezas especficas,


para algn puesto de trabajo, por ejemplo?

Validez de contenido frente


a la validez aparente

Los tests tienen que aparentar que estn midiendo


aquello que se propone. De tal forma que si el
contenido del test parece poco relevante, sin sentido o
infantil, podra desmotivar a los sujetos.

Evidencias de validez
sobre el proceso de
respuesta

Validez del proceso


pregunta respuesta

Evidencias que informan hasta que punto los sujetos estn


realizando las operaciones necesarias para que los
investigadores puedan inferir la presencia, ausencia o nivel
del constructo que estn midiendo.

Son los procesos cognitivos implicados en la resolucin del


tem aquellos que el test pretende medir?

Estrategia

Por lo general, esta evidencia se obtiene consultando


directamente a los sujetos, mediante entrevistas
cualitativas, protocolos de pruebas cognitivas o cualquier
otro procedimiento para evaluar las estrategias de respuesta
a los reactivos (Cortada de Kohen, 2005; Embretson & Gorin,
2001).

Por ejemplo: Entrevista Cognitiva, Pensar en Voz Alta,


Latencias, Movimientos oculares o Diseos experimentales

Evidencias de validez de
constructo: Estructura interna del
test y relaciones con otras variables
(Convergente y discriminante)

Evidencias de validez de
constructo

La medida en que el test refleja la teora psicolgica a partir


de la que se ha construido, y permite interpretar las
puntuaciones dndoles un significado terico (APA,
AERA, NCME, 1999).

Mide realmente el test la variable que intenta medir?


Existe en realidad dicha variable?
La estructura o dimensionalidad de los reactivos es la misma
que indica la teora?
Cmo deben relacionarse las puntuaciones del test con
puntuaciones de otros constructos y variables?

Validez de constructo

Las puntuaciones del tests no son el constructo.

El constructo puede manifestarse a travs de mltiples


indicadores.

Mediante las evidencias de validez de constructo se


acumula informacin que apoya la idea de que las
puntuaciones del test son en efecto una de sus posibles
manifestaciones.

Otras nomenclaturas

Evidencias de validez de estructura factorial (Se agrupan


los reactivos del test tal y como la teora lo predice?)

Evidencias de validez convergente (qu tanto converge mi


test con otro test que mide lo mismo?)

Evidencias de validez discriminante (qu tanto discrimina


mi test lo que no quiero medir?)

Estrategias para la validez de


constructo
1.

Definir el constructo a medir a partir de teoras existentes y


antecedentes empricos y derivar hiptesis sobre:

La relacin entre V. Latentes y V. Observadas (validez del rasgo)

La relacin con otras V. Latentes (validez nomolgica).

2.

Disear instrumento de medida que contengan elementos


representativos y relevantes del constructo a medir

3.

Incluir en el instrumento medidas de las otros constructos y


variables de validacin de acuerdo a la red nomolgica.

4.

Obtener datos empricos, y evidencias sobre las relaciones


previamente hipotetizadas.

5.

Establecer la estructura interna del test y sus relaciones con otras


medidas de constructos relevantes.

Tcnicas

Correlaciones con otro test previamente validado, en la


medida en que la correlacin sea alta mayor ser la relacin
del test con el constructo que trata de medir.

Correlaciones con medidas de constructos distintos al que se


quiere medir.

Anlisis de Factores.

Matrices multimtodo-multirrasgo (Campbell y Fiske, 1959).

Anlisis factorial

Es una de las tcnicas ms utilizadas para determinar la


estructura interna del test en relacin con el constructo.

El objetivo es explicar un conjunto de variables observadas


(tems de un test, por ejemplo) mediante un nmero menor
de variables latentes inobservables denominadas factores
(dimensiones tericas).

Son estos factores los que permiten dar una interpretacin


terica mediante la forma en que se agrupan los tems en
funcin de su contenido, que deberan coincidir con las
dimensiones tericas utilizadas en la construccin de la
escala.

Anlisis de factores

Anlisis de factores exploratorio (AFE): No se tiene


absoluta certeza de la dimensionalidad de la escala. Tras
ejecutar un AFE, obtenemos una solucin sobre el nmero
de factores o dimensiones en las que se puede resumir las
variables observadas.

Anlisis de Factores Confirmatorio (AFC): tenemos ciertas


hiptesis sobre el nmero de dimensiones y la forma en
que se agrupan los tems. Reporta ndices de ajuste que nos
ayudan a decidir si dicha estructura se reproduce en los
datos.

Matrices
Multimtodo-Multirrasgo

Se mide un mismo constructo mediante distintos


procedimientos y distintos constructos mediante el mismo
mtodo.

Se obtienen tres tipos de correlaciones:

Coeficientes de fiabilidad: son las correlaciones entre el


mismo constructo medido con el mismo mtodo.
Validez convergente (mono-rasgo/hetero-mtodo): son las
correlaciones del mismo constructo medido mediante distintos
procedimientos.
Validez discriminante (hetero-rasgo/mono-mtodo): son las
correlaciones de distintos constructos medidos con el mismo
procedimiento.

Se quieren medir tres constructos: Razonamiento Numrico (RN),


Factor Espacial (FE) y Razonamiento Abstracto (RA), y se miden con
pruebas de distinto formato: Verdadero-Falso (V-F); y Eleccin mltiple
(E-M). En la tabla se presenta las correlaciones obtenidas entre los
distintos constructos medidos con ambos mtodos
mtodo 1 (V-F)
Num.

Espa.

mtodo 2 (EM)

Abstr. Num.

Espa.

Abstr.

Mtodo 1 (V-F)
Numrico

.95

Espacial

.20

.90

Abstracto

.30

.28

.92

Numrico

.90

.31

.40

.93

Espacial

.26

.87

.33

.37

.94

Abstracto

.43

.20

.84

.26

.37

Mtodo 2 (EM)

.88

Se quieren medir tres constructos: Razonamiento Numrico (RN),


Factor Espacial (FE) y Razonamiento Abstracto (RA), y se miden con
pruebas de distinto formato: Verdadero-Falso (V-F); y Eleccin mltiple
(E-M). En la tabla se presenta las correlaciones obtenidas entre los
distintos constructos medidos con ambos mtodos

Mt. 1 (V-F)
RN

FE

RA

Mt. 2 (EM)
FN FE RA

Mt. 1(V-F)
RN

.95

FE

.20 .90

RA

.30 .28 .92

Mt. 2 (EM)
RN

.90 .31 .40 .93

FE

.26 .87 .33 .37 .94

RA

.43 .20 .84 .26 .37 .88

1. La fiabilidad hace
referencia al mismo
constructo medido con
el mismo mtodo
(diagonal). As por
ejemplo, la fiabilidad de
razonamiento numrico
medido con el mtodo 1
es de .95, mientras que
con el mtodo 2 es de .93

Se quieren medir tres constructos: Razonamiento Numrico (RN),


Factor Espacial (FE) y Razonamiento Abstracto (RA), y se miden con
pruebas de distinto formato: Verdadero-Falso (V-F); y Eleccin mltiple
(E-M). En la tabla se presenta las correlaciones obtenidas entre los
distintos constructos medidos con ambos mtodos

Mt. 1 (V-F)
RN

FE

RA

Mt. 2 (EM)
FN FE RA

Mt. 1(V-F)
RN

.95

FE

.20 .90

RA

.30 .28 .92

Mt. 2 (EM)
RN

.90 .31 .40 .93

FE

.26 .87 .33 .37 .94

RA

.43 .20 .84 .26 .37 .88

2. La validez
convergente o
coeficiente mono-rasgo/
hetero-mtodo, hace
referencia a que se
midiera el mismo
constructo pero con
distinto mtodo. En
teora estas correlaciones
deberan ser altas y
significativas.

Se quieren medir tres constructos: Razonamiento Numrico (RN),


Factor Espacial (FE) y Razonamiento Abstracto (RA), y se miden con
pruebas de distinto formato: Verdadero-Falso (V-F); y Eleccin mltiple
(E-M). En la tabla se presenta las correlaciones obtenidas entre los
distintos constructos medidos con ambos mtodos

Mt. 1 (V-F)
RN

FE

RA

Mt. 2 (EM)
FN FE RA

Mt. 1(V-F)
RN

.95

FE

.20 .90

RA

.30 .28 .92

Mt. 2 (EM)
RN

.90 .31 .40 .93

FE

.26 .87 .33 .37 .94

RA

.43 .20 .84 .26 .37 .88

3. la validez
discriminante o heterorasgo/mono-mtodo,
hace referencia a las
correlaciones entre
distintos rasgos con el
mismo mtodo . En
teora estas han de ser
bajas, y menores que la
fiabilidad y la validez
convergente.

Matrices
Multimtodo - Multirasgo

Un problema es que no hay criterio estadstico para


determinar si existe o no validez convergente y
discriminante.

Actualmente, se suele investigar este aspecto mediante


procedimientos derivados del Anlisis Factorial
Confirmatorio.

Evidencias de validez
referidas a criterios
(externos)

Evidencias de validez
referidas a criterios

Evidencias que informan sobre el grado en que las


puntuaciones obtenidas en el test, pueden utilizarse
eficazmente para hacer inferencias sobre el
comportamiento real del sujeto en un criterio que no
se puede medir directamente.

Evidencia basada en la relacin con otras variables

(APA, 1999).

Posibles Diseos en funcin del momento en


que se recogen los datos del test y de los
criterios

Validez predictiva: el criterio se mide despus de haber

aplicado el test.

Validez concurrente: test y criterio se miden al mismo


tiempo.

Objetivo: predecir las puntuaciones futuras en el criterio a


partir de las obtenidas en el test.
Ejemplo: Tendr el sujeto un trastorno depresivo? Uso
predictivo del test

Ejemplo: Tiene el sujeto, actualmente, un trastorno depresivo?


Uso diagnstico del test

Validez Retrospectiva: el criterio se mide antes de

administrar el test.

Estrategias para la validez


de criterio
1.

Definir claramente el criterio que se quiere medir.

2.

Identificar el indicador o indicadores a utilizar como


medidas del criterio.

3.

Seleccionar una muestra de sujetos representativa.

4.

Aplicar el test y obtener una puntuacin para cada sujeto.

5.

Obtener una medida de cada sujeto en el criterio.

6.

Determinar el grado de relacin entre las puntuaciones


obtenidas.

Evidencias de validez de
criterio

Un problema importante es la forma en que vamos a definir


y delimitar el criterio:

Criterio o indicador simple de fcil delimitacin: Un test de


seleccin de vendedores de enciclopedias (criterio de xito =
cantidad de enciclopedias vendidas).

Criterio o indicador complejo (delimitacin ms


complicada): Seleccin de profesor de Psicometra (criterio de
xito = conocimiento materia?Habilidades sociales?
publicaciones?, grado acadmico?... ...?).

Todos los indicadores son parciales y no ofrecen una


comprensin completa del criterio

Seleccin de criterios

Para la seleccin del criterio Thorndike y Hagen (1989)


recomiendan indicadores:
a.

b.
c.
d.

Relevantes: que estn relacionados con el criterio, sin


embargo, no existen tests estadsticos que nos permitan
concluir en este sentido -> recurrir a jueces expertos
Libres de sesgo: variables que afectan de manera diferencial
entre grupos.
Fiables: se han de utilizar indicadores estables en el tiempo.
Accesibles

Coeficiente de validez

La relacin entre las puntuaciones del test y un criterio se


expresa como una correlacin llamada coeficiente de
validez.

Expresa el grado en el que la prueba es vlida para hacer


afirmaciones sobre el criterio.

Los coeficientes estn entre 0.30 y 0.40 se consideran altos


(significancia al 0.05).

Coeficiente de validez
1.

Un predictor y un criterio. Anlisis de correlacin; y


regresin simple.

2.

Varios predictores y un criterio. Anlisis de correlacin y


regresin mltiple, anlisis discriminante (criterios
cualitativos), regresin logstica (criterio dicotmico).

3.

Varios predictores y varios criterios. Anlisis de regresin


multivariante, anlisis de correlacin cannica, anlisis de
ruta, modelos de ecuaciones estructurales.

Situaciones que afectan el


coeficiente de validez

Fiabilidad del predictor y del criterio: bajos coeficientes de


fiabilidad del test y criterio rebajan los valores del
coeficiente de validez.

Restriccin del rango: el coeficiente de validez puede verse


reducido debido a restricciones en la variabilidad de la
muestra (seleccin de personal ya que se seleccionan a
sujetos con puntuaciones altas).

Dicotomizacin en el test, criterio o ambas: reducen los


valores del coeficiente de validez.

ndice para interpretar las


evidencias de validez de criterio

Coeficiente de Determinacin: equivale al coef. de validez


al cuadrado. Representa la proporcin de varianza de las
puntuaciones de los sujetos en el criterio que se puede
pronosticar a partir del test.
2
S
y
C.D = rxy2 = 2
Sy

El C.D est acotado en el intervalo [0 - 1]

Cuando la varianza error es pequea, implica que los


valores pronosticados de Y estn prximos a los reales; -> el
error tpico de estimacin ser pequeo y por tanto el C.D
tomar valores prximos a uno.

Diferencias entre grupos

Variables categricas externas, como el sexo o la pertenencia


a grupos especficos (esquizofrnicos vs. no
esquizofrnicos), tambin permiten a los investigadores
estimar la validez de las medidas si al comparar las
puntuaciones del test los grupos difieren
significativamente entre ellos y de la manera en que la
teora plantea que deberan hacerlo.

Pruebas de hiptesis sobre 2 promedios, ANOVA,


ANCOVA, MANOVA Y MANCOVA.

Evidencias de validez de las


consecuencias

Las evidencias de la validez de las consecuencias hace


referencia a la necesidad de examinar los potenciales
efectos colaterales no anticipados de los usos legtimos del
test, derivados de fuentes de invalidez del instrumento
(Messick, 1995).

Por ejemplo, si existen evidencias de que un instrumento


favorece a un grupo de aplicantes sobre otro, el test pierde
una importante parte de su validez, pues no cumple con su
finalidad en el marco de los principios de justicia en la
medicin.

Anlisis diferencial del tem


(DIF)

En una prueba de razonamiento matemtico, por ejemplo,


un reactivo presenta DIF (differential item functioning)
cuando examinados que poseen el mismo nivel en el rasgo
medido (razonamiento matemtico) presentan diferentes
probabilidades de acertar el reactivo solo por pertenecer a
distintos grupos (ser mujer, por ejemplo) y no porque
difieren en el nivel de constructo medido.

Las diferentes probabilidades se calculan comparando las


frecuencias de aciertos y errores en un tem en los sujetos
que, perteneciendo a distintas poblaciones, muestran el
mismo nivel de puntuacin en la prueba (Morerira, 2008)

Sntesis
EVIDENCIAS

TCNICAS (ejemplos)

CONTENIDO

Acuerdo entre jueves, kappa, correlacin


intra-clase

ESTRUCTURA

Anlisis de factores exploratorios y


confirmatorios

PROCESO PREGUNTA
RESPUESTA

Entrevista cognitiva, grupo de expertos.

CONVERGENTE
DISCRIMINANTE

Correlacione bivariadas, Multirasgomultimtodo

EN RELACIN A
CRITERIOS EXTERNOS

Regresin mltiple, pruebas de hiptesis sobre


2 promedios, ANOVAS, etc.

CONSECUENCIAS DE
APLIACIN

Anlisis de funcionamiento diferencial del


tem (DIF)

IDEAS CENTRALES

La validez no es una caracterstica inherente al instrumento, sino una


propiedad del significado que podemos darle a las puntuaciones
obtenidas mediante este y las consecuencias de las interpretaciones de
tales puntuaciones derivadas de l (Messick, 1989, 1995).

Estimar la validez de las interpretaciones es un problema que requiere de


un esfuerzo cientfico igual al que se exige para examinar cualquier
hiptesis de investigacin, en otras palabras, en el campo de la medicin
psicolgica es imprescindible proporcionar evidencias empricas que
apoyen o refuten cualquier inferencia (Cronbach & Meehl, 1955).

La validez no existe en trminos absolutos, es decir, no podemos decir


que un instrumento sea vlido o invlido. La validez de las inferencias
aumenta o disminuye, es relativamente robusta o frgil, dependiendo de
las evidencias empricas (Smith-Castro & Molina, 2010).

Potrebbero piacerti anche