Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
HIPOTESIS:
MUESTRA:
VARIABLES Y OPERACIONALIZACION DE VARIABLES:
INTRUMENTOS DE RECOLECION DE DATOS:
TABLA DE CONTINGENCIA DE 2 POR 2:
CUADROS Y GRAFICAS
TABLAS DE CONTINGENCIA
El término “tabla de contingencia” se refiere a que las tablas construidas se usan para
contrastar una asociación o relación entre dos variables. Las tablas de contingencia son una
forma de presentar datos categóricos, con dos o mas niveles.
Las tablas de contingencia 2 x 2, aparecen cuando cada una de las dos variables se estudia
en dos niveles. Cada observación del conjunto de datos cae exactamente en una celda. El
análisis de datos se basa en el examen del número de observaciones que caen dentro de
cada categoría . También son llamadas tablas tetracóricas, o tablas de conteo.
ESTUDIOS TRASVERSALES
ji-cuadrado
ESTUDIOS DE COHORTES
PRUEBA DIAGNOSTICA
PRUEBA DE INDEPENDENCIA
ji-cuadrado
H 0 : A y B son independientes
H 1 : A y B no son independientes
Independencia significa que el conocimiento del nivel de clasificación de un objeto
respecto a la característica A no tiene nada que ver con su nivel respecto a la característica
B. Para expresar esta idea matemáticamente utilizamos las probabilidades dadas en la
siguiente tabla:
Variable 1 (A)
Si No Total
Variable 2
Si p 11 p 12 p 1.
No p 21 p 22 p 2.
(B)
Total p .1 p .2 1
Se sabe que, para que dos sucesos sean independientes, la probabilidad de que ocurran
ambos a la vez debe ser igual al producto de las probabilidades de que cada suceso ocurra
individualmente.
P[A y B] = P[A]P[B]
p 11 = p .1 p 1.
La relación debe cumplirse para cada celda. Por tanto, la hipótesis nula de independencia se
expresa matemáticamente como
i = 1, 2
H 0 : p ij = p i. P .j
j = 1, 2
i = 1, 2
H 1 : p ij ? p i. P .j
j = 1, 2
E ij = np ij
La pregunta es la siguiente: ¿son estas diferencias demasiado grandes como para que se
deban únicamente al azar?
Para que las pruebas de Ji-cuadrado sean válidas, es necesario que las muestras sean
grandes. Es decir que las frecuencias esperadas no sean menores de 5. Si esto no se cumple,
puede utilizarse una prueba para pequeñas muestras llamada prueba exacta de Fischer para
contrastar independencia.
EJEMPLO
Se realiza una investigación para determinar si hay alguna asociación aparente entre la
altura de los estudiantes de posgrado y el éxito en sus clases, a juicio de sus profesores. Se
selecciona una muestra aleatoria consistente en 500 estudiantes. Se clasifica a cada
estudiante de acuerdo a dos criterios, la altura y el éxito. La tabla de contingencia generada
es la siguiente:
Para saber si las diferencias entre valores halladoz y valores esperados es significativa
entonces aplicamos el estadistico ji-cuadrado:
Como 4.18 está entre 3.84 y 5.02, el valor p está entre 0.025 (0.975) 0.05 (0.950). El valor
p es pequeño, es menor de 0.05. Podemos rechazar H 0 y concluir que la sobretalla y el
éxito en las clases no son independientes.
PRUEBA DE HOMOGENEIDAD
ESTADISTICO JI-CUADRADO
Los totales de fila marginales son fijados previamente por el Investigador. Los totales
columna marginales son libres, es decir, son variables aleatorias cuyos valores numéricos
sólo se conocen al final del experimento.
H 0 : p 11 =p 21
E 11 = n 1. p 11 .
E 21 = n 2. p 21 .
Donde
luego de calcular las frecuencias esperadas, que aparecen entre paréntesis en la tabla:
Tiene la enfermedad
Si No
Expuesto a la Si 52 (48.39) 248 (151.61) n 1. = 300 (fijo)
manipulación de
mercurio No 48 (51.61) 272 (268.39) n 2. = 320 (fijo)
n .1 =100 n .2 =520 N = 620
(aleatorio) (aleatorio)
Calculamos el estadístico:
Como el valor p es de 0.10. El valor p es > 0.05. No hay evidencia para rechazar la
hipótesis nula de igualdad de proporciones y de no asociación. En este caso las variables no
están asociadas lo que quiere decir que el mercurio no tiene que ver con la aparición de la
enfermedad.
ESTUDIOS TRASVERSALES
Los estudios transversales son diseños en los cuales la exposición y la enfermedad se miden
simultanamente o con una diferencia de tiempo muy corta. Debido a esto se denominan
estudios no direccionales .
Enfermedad
Si No Total
Exposición Si a b a+b
No c d c+ d
Totales a+c b+d a+b
+c+
d
Podemos obtener:
Prevalencia de la exposición:
Prevalencia de la enfermedad:
Tiene la enfermedad
Si No
Expuesto a la Si 52 (48.39) 248 (151.61) n 1. = 300 (fijo)
manipulación de
mercurio No 48 (51.61) 272 (268.39) n 2. = 320 (fijo)
n .1 =100 n .2 =520 N = 620
(aleatorio) (aleatorio)
Prevalencia de la exposición:
Prevalencia de la enfermedad:
Como el valor p es de 0.10. El valor p es > 0.05. No hay evidencia para rechazar la
hipotesis nula de igualdad de proporciones y de no asociación. En este caso las variables no
están asociadas lo que quiere decir que el mercurio no tiene que ver con la aparición de la
enfermedad.
donde:
a = Caso expuesto
b = Control expuesto
c = Caso no expuesto
d = Control no expuesto
Acá analizamos la asociación entre las dos variables “exposición y desenlace” se utiliza la
prueba estadística Ji- cuadrado.
ESTUDIO DE COHORTES
Se mide :
Enfermedad
Si No Total
Exposición Si a b a+b
No c d c+ d
Totales a b a + b + c + d
+ +
c d
Si se realiza la división entre las dos incidencias, se obtiene una razón, que es lo que se
conoce con el nombre de riesgo relativo (RR).
RIESGO RELATIVO
Si RR < 1, quiere decir que la exposición está protegiendo a los expuestos de que se
presente la enfermedad cuando se compara con los no expuestos.
Se puede definir una intervención, como toda acción que busca prevenir un desenlace, o
modificar el pronóstico de una entidad.
La forma ideal de estudiar una intervención es mediante un método que permita distribuir
todas las características de los individuos que pudieran tener relación con el desenlace, de
manera similar entre los dos grupos que se van a comparar. Acá el desenlace puede ser la
cura de la enfermedad. Así por ejemplo, la edad, los antecedentes de enfermedades, el peso,
la masa corporal, el grupo etnico, el destado de desarrollo dental, la maloclusión, etc.
debieran quedar igualmente distribuidos entre los dos grupos de comparación. Esto se logra
mediante la asignación aleatoria al tratamiento.
Todas estas características las cumple los estudios clínicos aleatorizados controlados
(ECC).
n los ECC se tratará de mirar el número de personas que presentan un desenlace, dado que
se está expuesto a una intervención. Y se comparará con el número de personas que
presentan ese desenlace, dado que no se está expuesto o se está expuesto a otra intervención
EJEMPLO:
Se cree que el tratamiento con máscara facial en pacientes con maloclusión clase III de tipo
óseo, es efectivo para estimular el crecimiento del maxilar, redirigir el crecimiento
mandibular, corrigiento la maloclusión. Se realiza un estudio clínico aleatorizado
controlado, en el cual, a un grupo homogéneo de pacientes con el diagnóstico de
maloclusión clase III, se le toman registros iniciales de radiografía cefálica, modelos de
estudios, etc. , se designan aleatoriamente los pacientes que van a recibir tratamiento y los
que no y se procede a realizar la intervención. Luego de un año de tratamiento, se vuelven a
tomar los registros y se determina si en realidad hubo crecimiento o la corrección se debió a
procesos de compensación dental.
Desenlace
Crecimiento Compensación
Si No
Tratamiento Si a b
No c d
con máscara facial
Los resulatos fueron los siguientes:
Desenlace
Crecimiento Compensación
Si No
Tratamiento Si 60 40 100
No 20 80 100
con máscara
facial
80 120 200
H0:p1=p2
H0:p1?p2
Desenlace
Crecimiento Compensación
Si No
Tratamiento Si 60 (40) 40 (60) 100
No 20 (40) 80 (60) 100
con máscara
facial
80 120 200
entonces:
Si se encuentra que son muy diferentes, se considera que hay asociación entre la
variable exposición y el desenlace.
Para saber si esa asociación tiene significancia clínica, en este tipo de estudio, se utiliza una
medida epidemiológica de asociación es el riesgo relativo ( RR). El riesgo relativo compara
la incidencia del desenlace de crecimiento (SI) entre los expuestos con la incidencia del
desenlace de compensación (NO) entre los no expuestos:
Quiere decir que los pacientes que fueron expuestos al tratamiento con máscara facial
tienen la mitad de riesgo de compensación, frente a los que no estuvieron expuestos al
tratamiento con máscara.
recordemos que:
PRUEBA DIAGNOSTICA
El diagnóstico puede ser definido como el proceso de usar la historia clínica, el examen
físico, de laboratorio, estudios de imágenes y otras pruebas para identificar la enfermedad
responsable de la queja del paciente.
Las pruebas diagnósticas cualitativas son aquellas que clasifican a los pacientes como
enfermos o libres de enfermedad, acorde con la presencia o ausencia de signos o síntomas.
Por ejemplo, una radiografía panorámica puede descartar la presencia de dientes
supernumerarios. En este caso el patrón referente es el número de dientes normal para la
edad 3 .
Las pruebas diagnósticas cuantitativas clasifican a los pacientes como enfermos o libres de
la enfermedad sobre la base de si ellos caen arriba o abjo de una cifra de corte
preseleccionada y que es conocida como criterio de positividad, valor crítico o valor de
referencia 3 .
Cualquier prueba diagnóstica dada está basada en la premisa de que los individuos
enfermos y los saludables pueden exacta y consistentemente ser diferenciados por la prueba
diagnóstica.
El proceso diagnóstico estriba en determinar cuán distante está la nueva prueba dignóstica
del patrón de referencia que se supone está más cerca de la verdad. La distancia que
separará a la nueva prueba en estudio del patrón de referencia recibe el nombre de validez
de criterio y esta validez se mide a través de indicadores como la sensibilidad,
especificidad y valores predictivos positivos y negativos.
DEFINICIONES:
Sensibilidad: probabilidad de una prueba positiva entre los pacientes con la enfermedad.
Especificidad: probabilidad de una prueba negativa entre los pacientes sin la enfermedad.
marginales
Prevalencia : a + c / a + b + c + d
EJEMPLO:
= o 24%
o 98%
Cuando decidimos ordenar una prueba diagnóstica, queremos saber cuál prueba nos va
ayudar mejor a descartar una enfermedad en nuestro paciente. En el lenguaje
epidemiológico, tomamos una determinación inicial de la probabilidad de la enfermedad
(probabilidad pre-prueba), practicamos la prueba, y luego realizamos una determinación
final de la probabilidad de la enfermedad (probabilidad post – prueba). El siguiente
diagrama nos ilustra este proceso de “revisar la probabilidad de la enfermedad”.
Las razones de probabilidad nos dicen: cuánto debemos inclinar nuestra sospecha hacia un
resultado particular. Dado que las pruebas pueden ser positivas o negativas, hay al menos
dos razones de probabilidad para cada prueba. La “razón de probabilidad positiva” (LR+)
nos dice cuanto se incrementa la probabilidad de enfermar si la prueba es positiva, mientras
la “razón de probabilidad negativa” (LR-) nos dice cuanto desciende la probabilidad de
enfermar si la prueba es negativa. La fórmula para calcular la razón de probabilidad es:
LR =-----------------------------------------------------------------------------------------------------
LR+ = -----------------------------------------------------------------------------------------
LR - = ------------------------------------------------------------------------------------------
sensibilidad
LR+ = __________________
(1- especificidad)
(1 – sensibilidad)
LR- =
(especificidad)
Es evidente que una buena prueba diagnóstica es la que ofrece resultados positivos en
enfermos y negativos en sanos. Por lo tanto, las condiciones que deben ser exigidas a un
test son3:
Validez: Es el grado en que un test mide lo que se supone que debe medir.
¿Con que frecuencia el resultado del test es confirmado por procedimientos
diagnósticos más complejos y rigurosos? La sensibilidad y la especificidad
de un test son medidas de su validez.
Reproductividad: es la capacidad del test para ofrecer los mismos
resultados cuando se repite su aplicación en circunstancias similares. La
variabilidad biológica del hecho observado, la introducida por el propio
observador y la derivada del propio test, determinan su reproductividad.
Seguridad: La seguridad viene determinada por el valor predictivo de un
resultado positivo o negativo. ¿Con que seguridad un test predecirá la
presencia o ausencia de enfermedad? Ante un resultado positivo de un test
¿qué probabilidad existe de que este resultado indique presencia de la
enfermedad? Veremos posteriormente que esta probabilidad está muy
influenciada por la prevalencia de la patología.
Patología
Enfermo E+ Sano E-
En este contexto se utilizan dos índices para evaluar la calidad de la prueba diagnóstica:
Aunque éstos son dos índices de calidad de la prueba, en la práctica clínica las preguntas a
las que interesa responder son: si un sujeto ha resultado positivo, ¿cuál es la probabilidad de
que esté verdaderamente enfermo? P(E+/T+), o por el contrario, si el sujeto resultó
negativo en la prueba ¿cuál es la probabilidad de que realmente esté sano? P(E-/T-). Estas
dos probabilidades se pueden calcular aplicando el teorema de Bayes, siempre que
sepamos la probabilidad de que el sujeto esté enfermo antes de realizar la prueba, que se
conoce como probabilidad pre-prueba. Si no tenemos ninguna información adicional
sobre el sujeto, dicha probabilidad será la prevalencia de la patología en la población,
aplicable sólo en el caso de programas de cribado o "screening" sobre la población general,
ya que en la práctica habitual los sujetos candidatos a una prueba diagnóstica lo son por las
sospechas deducidas de la anamnesis o por una sintomatología previa, y por tanto la
probabilidad de que padezcan la enfermedad bajo sospecha será superior a la prevalencia de
ésta en la población general.
Si calculamos estas probabilidades únicamente con los datos de nuestra tabla, la primera de
ellas P(E+/T+) corresponde a la proporción de sujetos que verdaderamente tienen la
enfermedad, de entre los que dieron positivo, y se conoce como valor predictivo positivo
VP+
Igualmente podemos calcular en la tabla la proporción de sujetos verdaderamente sanos
sobre el total de los que dieron negativo, valor predictivo negativo VP-
Puesto que esos dos índices VP+ y VP- son los que interesan en la práctica clínica,
parecería natural utilizarlos como índices de comparación a la hora de evaluar dos métodos
diagnósticos diferentes. Sin embargo presentan un grave inconveniente, ya que si se
calculan a partir de la tabla dependen de la proporción de enfermos en la muestra estudiada.
Por ello para una determinada prueba resulta necesario determinar unos índices de
valoración que, respondiendo a las necesidades reales en cuanto a la clasificación de
pacientes, sin embargo no dependan de esa proporción de enfermos en la muestra.
Así, podemos calcular el cociente entre la tasa de verdaderos positivos y la tasa de falsos
positivos:
Este cociente CP+ se conoce como cociente de probabilidad positivo o también como
cociente de verosimilitud (likelihood ratio of positive test). Valores mayores de CP+
indican mejor capacidad para diagnosticar la presencia de enfermedad.
Vemos que valores de CP- menores indican una mejor capacidad diagnóstica de la prueba.
Se puede determinar unas fórmulas para expresar los cocientes de probabilidad en función
de la sensibilidad S y de la especificidad E
La ventaja de los cociente CP+ y CP- frente a los valores predictivos positivo y negativo
de la prueba radica en que, a diferencia de éstos, no dependen de la proporción de enfermos
en la muestra, sino tan sólo de la sensibilidad y especificidad de ésta, de ahí su utilidad a la
hora de comparar pruebas diagnósticas. Además si conocemos o podemos hacer una
estimación de la probabilidad pre-prueba de que un sujeto padezca la enfermedad,
utilizando los cocientes de probabilidad, al realizar el test podemos "corregir" ese valor de
acuerdo con el resultado, de tal manera que la probabilidad aumenta o disminuye según que
el resultado sea positivo o negativo, aplicando la siguiente fórmula
Patología
Enfermo E+ Sano E-
Evidentemente los valores de los diferentes índices son estimaciones realizadas mediante
un experimento diseñado al efecto, por lo que es necesario calcular algún indicador de su
grado de incertidumbre, como puede ser un intervalo de confianza del 95%. Para el caso de
la sensibilidad y especificidad es sencillo ya que se trata de dos proporciones. En el caso de
los cocientes de probabilidad es algo más complejo y utilizamos una aproximación.
Si en cuanto a los cocientes de probabilidad negativos vemos que CP-A < CP-B, diremos
que la prueba A es mejor que la B para confirmar la ausencia de enfermedad.
Donde vemos que B cae en la zona 2 por lo que es una prueba mejor que la A para
confirmar la ausencia de enfermedad, como podemos determinar también numéricamente al
calcular los correspondientes cocientes de probabilidad CP+ = 1.8 y CP- = 0.2
Evidentemente para comparar los parámetros de dos pruebas diagnósticas habrá que
considerar que los valores obtenidos son sólo estimaciones y están sometidos por tanto a
posibles errores de muestreo, por lo que habrá que efectuar el correspondiente contraste
estadístico para determinar si las diferencias encontradas son suficientemente importantes
como para no poder ser atribuidas al azar.
Hasta ahora hemos estudiado el caso de un resultado dicotómico, pero en muchas ocasiones
las pruebas diagnósticas son cuantitativas, sobre todo cuando corresponden a
determinaciones analíticas. Evidentemente podemos utilizar todas las consideraciones
hechas hasta el momento si fijamos un punto de corte, un valor determinado de la prueba,
que marque el límite entre sano y enfermo. Pero eso no suele ser una tarea sencilla.
Podemos reflejarlo esquemáticamente en una figura:
Existe una zona de posibles resultados de la prueba para la que la distribución de sujetos
sanos y enfermos se solapan. Si queremos aumentar la probabilidad de detectar pacientes
enfermos, en la gráfica corresponde a mover el punto de corte hacia la izquierda, vemos
que entonces también aumentaremos el número de falsos positivos. Si movemos el punto
de corte hacia la derecha, disminuiremos los falsos positivos, pero a costa de aumentar el de
falsos negativos. Resumiendo, un aumento de la sensibilidad disminuye la especificidad, y
viceversa.
Una herramienta útil para evaluar la capacidad diagnóstica de una prueba cuantitativa para
todos los posibles puntos de corte, es la denominada curva ROC. También nos servirá para
comparar diferentes pruebas.
Para obtener la curva ROC, se calcula la sensibilidad y especificidad para cada uno de los
diferentes valores observados en nuestros datos y se representan en una gráfica, similar a la
anteriormente descrita, con la Sensibilidad en el eje de las Y, (1-Especificidad) en el eje de
las X.
En la situación ideal, una prueba que discrimina perfectamente, quedaría representado en la
gráfica como una línea que coincidiría con los lados izquierdo y superior del cuadrado;
mientras que una prueba que no discrimine en absoluto, corresponde a la línea diagonal (a
45º) que aparece en la figura. Por lo tanto, cuanto más desplazada esté la curva ROC hacia
el vértice superior izquierdo, mejor es la capacidad discriminatoria de la prueba.
Precisamente una forma de evaluar de manera global esa capacidad de discriminación
consiste en calcular el área del polígono que queda debajo de la curva ROC, y se denomina
área bajo la curva, sirviendo como índice de comparación entre pruebas diagnósticas,
cuanto mayor es el área mejor es la capacidad diagnóstica.
Calculadoras
Calculadora a partir de los datos de una tabla 2x2
Enlaces relacionados
Conceptos básicos para interpretar los resultados de un estudio sobre pruebas diagnósticas
Web de la Asociación Española de Atención Primaria
Tabla de contenidos:
La validez de una prueba Tablas
diagnóstica: Tabla 1. Relación entre el resultado de una
- Sensibilidad prueba diagnóstica y la presencia o ausencia de
enfermedad
- Especificidad
Tabla 2. Resultados de la exploración y biopsia
- Ejemplo prostática de una muestra de pacientes con
La seguridad de una prueba sospecha de cáncer de próstata
diagnóstica: Tabla 3. Resultados de la aplicación del test de
- Valor predictivo positivo VIH en una población de baja prevalencia
- Valor predictivo negativo Tabla 4. Resultados de la aplicación del test de
La influencia de la VIH en una población de alta prevalencia
prevalencia Cálculos (Excel)
Razones de probabilidad: Estudio de la capacidad predictiva
- Razón de verosimilitudes de una prueba diagnóstica
positiva o cociente de
probabilidades positivo
- Razón de verosimilitudes
negativa o cociente de
probabilidades negativo
Bibliografía
Es evidente que una buena prueba diagnóstica es la que ofrece resultados positivos en
enfermos y negativos en sanos. Por lo tanto, las condiciones que deben ser exigidas a un
test son3:
Validez: Es el grado en que un test mide lo que se supone que debe medir.
¿Con que frecuencia el resultado del test es confirmado por
procedimientos diagnósticos más complejos y rigurosos? La sensibilidad y
la especificidad de un test son medidas de su validez.
Reproductividad: es la capacidad del test para ofrecer los mismos
resultados cuando se repite su aplicación en circunstancias similares. La
variabilidad biológica del hecho observado, la introducida por el propio
observador y la derivada del propio test, determinan su reproductividad.
Seguridad: La seguridad viene determinada por el valor predictivo de un
resultado positivo o negativo. ¿Con que seguridad un test predecirá la
presencia o ausencia de enfermedad? Ante un resultado positivo de un test
¿qué probabilidad existe de que este resultado indique presencia de la
enfermedad? Veremos posteriormente que esta probabilidad está muy
influenciada por la prevalencia de la patología.
A su vez, es conveniente que el test sea sencillo de aplicar, aceptado por los pacientes o la
población general, que tenga los mínimos efectos adversos y que económicamente sea
soportable.
El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que
clasifica a cada paciente como sano o enfermo en función de que el resultado de la prueba
sea positivo o negativo. En casos como éste, generalmente un resultado positivo se
asocia con la presencia de enfermedad y un resultado negativo con la ausencia de la
misma. Cuando se estudia una muestra de pacientes, los datos obtenidos permiten
clasificar a los sujetos en cuatro grupos según una tabla 2x2 como la que se muestra en la
Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado
real de los pacientes (en columnas) o, en su defecto, el resultado de la prueba de
referencia o “gold standard” que vayamos a utilizar. El resultado de la prueba puede ser
correcto (verdadero positivo y verdadero negativo) o incorrecto (falso positivo y falso
negativo). El análisis de su validez puede obtenerse calculando los valores de sensibilidad
y especificidad4:
Sensibilidad
Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla
como la que se muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como
la proporción de pacientes enfermos que obtuvieron un resultado positivo en la prueba
diagnóstica. Es decir:
Especificidad
Ejemplo:
Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que se
incluyó a 2.641 pacientes con sospecha de cáncer prostático que acudieron a una consulta
de Urología durante un periodo de tiempo determinado. Durante su exploración, se
recogió el resultado del tacto rectal realizado a cada uno de estos pacientes, según fuese
éste normal o anormal, y se contrastó con el posterior diagnóstico obtenido de la biopsia
prostática. Los datos del estudio y los resultados obtenidos se muestran en la Tabla 2. Se
encontraron en total 1.121 casos de cáncer, lo cual representa un 42,45% del total de
sujetos estudiados. La sensibilidad del tacto rectal para detectar cáncer fue de 56,56%
(634/1121) y la especificidad de 82,3% (1251/1520). Así, el tacto fue anormal en un
56,56% de los casos de cáncer prostático y normal en un 82,3% de los casos que
presentaron finalmente otras patologías. Esto significa que un 100-56,56=43,44% de los
pacientes que efectivamente tenían cáncer presentaban tactos normales. Claramente ello
indica la necesidad de utilizar otros marcadores más sensibles, como el PSA o sus
derivados, para poder establecer el diagnóstico de forma más precisa.
Resulta obvio que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y
especificidad, pero esto no siempre es posible. En general, las pruebas de screening deben
ser de alta sensibilidad para poder captar a todos los enfermos. Una prueba muy sensible
será especialmente adecuada en aquellos casos en los que el no diagnosticar la
enfermedad puede resultar fatal para los enfermos, como ocurre con enfermedades
peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las
que un falso positivo no produzca serios trastornos psicológicos o económicos para el
paciente (por ejemplo, la realización de mamografía en el cáncer de mama).
La influencia de la prevalencia.
Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del VIH se emplean
tests que han confirmado tener una alta validez, con valores aproximados de sensibilidad
y especificidad de un 99,5%. Supongamos que se aplicase esta prueba a la totalidad de la
población gallega, que se cifra en 2.800.000 habitantes. Si asumimos que en Galicia
existen 6.000 pacientes VIH positivos (lo cual implicaría una prevalencia de 6000/
2.800.000 =0,21%), el test resultaría positivo en un total de 19.940 sujetos, obteniéndose
un valor predictivo positivo del 29,9% (Tabla 3). Así pues, sólo un 29,9% de los sujetos
con un resultado positivo en el test resultarían estar realmente afectados, mientras que un
70,1% de los mismos no presentarían la enfermedad. Resulta obvio que en una
comunidad como la gallega la utilización de esta prueba no resultaría útil, debido a la alta
proporción de falsos positivos que conllevaría.
Veamos ahora que ocurriría si se aplicase la misma prueba a una población en la que el
número de enfermos VIH+ fuese de 800.000 (resultando en una prevalencia mucho
mayor de un 800.000/2.800.000=28,6%). En este caso, la predictividad de una prueba
positiva aumenta de un 29,9% a un 98,7%, disminuyendo la proporción de falsos
positivos a tan sólo un 1,3% (Tabla 4). Por lo tanto, si la prevalencia es alta, un resultado
positivo tiende a confirmar la presencia de la enfermedad, mientras que si la prevalencia
es baja, un resultado positivo no permitirá afirmar su existencia.
Razones de probabilidad
Queda claro pues cómo la prevalencia es un factor determinante en los valores predictivos
de un test. Por lo tanto, éstos , no pueden ser utilizados como índices a la hora de
comparar dos métodos diagnósticos diferentes, ni tampoco a la hora de extrapolar los
resultados de otros estudios a datos propios. Por ello, resulta necesario determinar otros
índices de valoración que sean a la vez clínicamente útiles y no dependan de la
prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de
sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de
verosimilitudes, razón de probabilidad, o cociente de probabilidades6. Estos miden cuánto
más probable es un resultado concreto (positivo o negativo) según la presencia o ausencia
de enfermedad:
Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo
o negativo), pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a
partir de un parámetro numérico, sobre todo cuando éste se realiza a partir de
determinaciones analíticas. La generalización a estas situaciones se consigue mediante la
elección de distintos valores de corte que permitan una clasificación dicotómica de los
valores de la prueba según sean superiores o inferiores al valor elegido. La diferencia
esencial con el caso más simple es que ahora contaremos no con un único par de valores
de sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con
un conjunto de pares correspondientes cada uno a un distinto nivel de decisión. La
estrategia de análisis adecuada consistiría en representar gráficamente los pares (1-
especificidad, sensibilidad) obtenidos al considerar todos los posibles valores de corte de
la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha curva se
convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la
prevalencia de la enfermedad en la población de referencia y en base al cual se podrán
establecer comparaciones entre diferentes pruebas diagnósticas7-10.
Bibliografía
1. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiología clínica.
Ciencia básica para la medicina clínica. 2ª ed. Madrid: Editorial médica
panamericana; 1994.
2. Sandler G. The importance of the history in the medical clinic and the cost
of unnecessary test. Am Heart J 1980; 100: 928. [Medline]
3. Morrison AS. Screnning in Chronic disease. Second edition. New York:
Oxford University Press; 1992.
4. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 1: sensitivity
and specificity.BMJ 1994; 308: 1552. [Medline]
5. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive
values. BMJ 1994; 309: 102. [Medline]
6. Dujardin B, Van der Ende J, Van Gompel A, Unger JP, Van der Stuyft P.
Likelihood ratios: a real improvement for clinical decisión making? Eur J
Epidemiol 1994; 10: 29-36. [Medline]
7. Burgueño MJ, García Bastos JL, González Buitrago JM. Las curvas ROC
en la evaluación de las pruebas diagnósticas. Med Clin (Barc) 1995; 104:
661-670. [Medline]
8. Zweig MH, Campbell G. Receiver-operating characteristics (ROC) plots: a
fundamental evaluation tool in clinical medicine. Clin Chem 1993; 39:
561-577. [Medline]
9. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 3: receiver
operating characteristic plots. BMJ 1994; 309: 188. [Medline]
10. Lopez de Ullibarri Galparsoro I, Pita Fernández S. Curvas ROC. Cad Aten
Primaria 1998; 5(4): 229-235.
11. Argimon Pallás JM, Jiménez Villa J. Métodos de investigación clínica y
epidemiológica. 2ª ed Barcelona: Harcourt; 2000.
12. Fletcher RH, Fletcher SW, Wagner EH. Clinical epidemiology: the
essentials. 3ª ed. Baltimore: Williams and Wilkins; 1996.
13. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las
pruebas diagnósticas en cardiología. Rev Esp Cardiol 1997; 50: 507-
519. [Medline]
14. Greenhalgh T. How to read a paper: papers that report diagnostic or
screening tests. BMJ 1997; 315: 540-543. [Medline] [Texto completo]
GUIA DE ESTUDIO 2 PARA LA MATERIA
SALUD PÚBLICA III
Unidad 6
Verdaderos positivos a
Verdaderos negativos d
Verdaderos positivos
Sensibilidad = -------------------------------------------------------------
-----------------
Verdaderos negativos
Verdaderos positivos a
teorema de Bayes.
(Sensibilidad) (Prevalencia)
VPP = ----------------------------------------------------------------------
-----------
(Sensibilidad)(Prevalencia) + (1-Especificidad)(1-
Prevalencia)
(Especificidad)(1-Prevalencia)
VPN = ------------------------------------------------------------------
----------------
(Especificidad)(1-Prevalencia) + (1-
Sensibilidad)(Prevalencia)
-A la prevalencia.
Unidad 7
Unidad 8
-El de selección.
-Cointervención, contaminación.
-Adherencia o apego.
-20%
48. ¿Cómo se llama el análisis que mide tanto los costos como las
consecuencias de las alternativas en dinero?
-Análisis de costo-beneficio.
Unidad 9
Siguiendo con la serie, ahora tocaremos un tópico Importante del Proceso Tabla de contenido
Diagnóstico, la valoración de los hallazgos a los exámenes, sean estos físicos o
auxiliares (como radiológicos o de laboratorio) y su real aporte para acercarnos Figuras y tablas
o alejarnos del diagnóstico propuesto. Bibliografía
Todo hallazgo de un examen (hepatomegalia, Ictericia, hiperglicemia, etc.) tiene
la propiedad de acercarnos o alejarnos de nuestra presunción diagnóstica. Estos
hallazgos pueden ser definidos dicotómicamente como "normal" o "anormal"
(Ejemplo: Presencia o ausencia de Hepatomegalia) sin embargo al hacerlo de
este modo, estamos perpetuando supuestos "puntos de corte" preestablecidos
(Menos de este valor es "normal" y más es "anormal"), generalmente extraídos
de estudios grandes con curva de Gauss, que pueden quitar o agregar
especificidad como veremos más adelante a cada test o valor asignado a cada
test.
Si analizamos esto último tanto la sensibilidad, especificidad y los valores predictivos son índices que no
tienen en cuenta el resultado o performance del test en todas sus posibilidades ( tanto positivas como
negativas, en enfermedad o en ausencia de ella), y se ve fácilmente en la tabla 1 y 2 ya que en sus cálculos
no se utilizan todas las posibilidades ( las celdas a, b, c y d), usando solo la mitad de ellas y con ello la
mitad de las propiedades del test para identificar o descartar la enfermedad blanco. Esto explica la limitación
de los valores predictivos cuando la prevalencia de la enfermedad varia mucho. El likelihood ratio lo
sumariza (utiliza todas las celdas o posibles resultados para evaluar las propiedades diagnosticas del test) y
lo presenta en una forma más practica y simple de aplicar. Veamos este ejemplo aparecido en el libro de
Medicina Basada en Evidencias de D. Sacket y luego modificado.
Supongamos que tenemos a un paciente con anemia y pensamos que la probabilidad de que tenga anemia
ferropénica es de 50% (Probabilidad pre test) o una chance de 50 a 50 (Proporción o pre test Odds) por la
anamnesis y el examen clínico. Supongamos que usted encuentra un, estudio sistemático de ferritina versus
el gold standard que es el contenido de hierro en médula ósea y también supongamos que es un buen
estudio y usted puede confiar en los resultados que presenta. Los resultados se muestran en la Tabla 3.
El resultado del examen de su paciente arroja 60 mmol/I lo cual lo coloca en la celda a o b. Entonces se
puede decir que el 90% de los pacientes con anemia ferropénica están en el mismo rango que su paciente
(a /a+ c), esta proporción de pacientes con la enfermedad blanco que tienen examen positivo se llama
Sensibilidad. Además un 73% de los pacientes con resultado positivo tienen anemia ferropénica (valor
predictivo positivo).También nota que solo el 15% de los pacientes que no tienen la enfermedad blanco
tienen resultados en el mismo rango o valor que su paciente lo cuál significa que su resultado es cerca de
seis veces más probable (90%/15%) de ser encontrado en alguien con anemia ferropénica que en alguien
sin ella y esto se llama likelihood ratio para un resultado de test positivo.
Es más Ud. sabia que el chance de su paciente de tener anemia ferropénica era de 50 a 50, esto es llamado
pre test odds de 1:1 y si multiplicamos esto por el likelihood ratio de 6 para obtener el post test odds: 1 x 6
= 6. Esto en la practica se convierte a probabilidad post test 6/(6+1) = 6/7 = 86%.Al final su sospecha
diagnóstica subió de 50% a un 86% al realizar este test y si su umbral terapéutico es mayor o igual a 80%
(nivel a partir del cual Ud. decide no realizar otra prueba y tratar la enfermedad), ya concluyó su proceso
diagnóstico. Este umbral se establece por consenso y depende también del tipo de enfermedad (gravedad y
pronóstico), así pudiera ser que si su nivel umbral para anemia ferropénica es de 90%, este primer ejemplo
no alcanzaría este criterio. Todo este ultimo cálculo de probabilidad post test se ahorra con un normograma
que desarrollaremos al final.
Ahora volvamos a nuestro ejemplo, la ferritina sérica parece un buen test con sensibilidad de 90%,
especificidad de 85%. Pero el valor predictivo positivo es de 73%, lo cual no es tan bueno y su valor
predictivo negativo de 95%. Sin embargo el likelihood ratio positivo de 6 parece inclinar la balanza hacia la
presencia de enfermedad blanco (Probabilidad post test de 86%) y así hacia una acción terapéutica
siguiendo con nuestro trabajo clínico. Pero si nuestra posibilidad pre test hubiera sido más baja, es decir un
20%, tendríamos un pre test odds de 0,25 (20%/80%) esto multiplicado por seis (nuestro likelihood ratio
positivo) 0,25 x 6 = 1,5 como post test odds y finalmente llevado a una probabilidad post test de 60%
(1,5/2,5). Esto significa que solo habría una posibilidad final de 60% que nuestro paciente tenga anemia
ferropénica comparado con el 86% de probabilidad post test de la primera parte del ejemplo con el mismo
resultado de ferritina sérica. Haciendo este juego de variar la posibilidad pre test llevándola de un extremo
(80% a 20%) para ver como varía la posibilidad post test del resultado de nuestro paciente, es una manera
practica de ver si el likelihood ratio establecido es útil para "confirmar" o "descartar" el diagnóstico y en
nuestro ejemplo no parece tener mucha potencia diagnóstica.
Otra manera de analizarlo es con el likelihood ratio a diferentes niveles de ferritina sérica y así
descubriremos una aún más poderosa herramienta diagnóstica ya que muchas veces los punto de corte
preestablecidos no son los más adecuados para acercarnos o alejarnos del diagnóstico. Algunos resultados
de pruebas diagnósticas se pueden dividir en niveles, en cinco para nuestro ejemplo que van de "Muy
positivo" a "Muy negativo"(extraídos de la misma fuente). Ver Tabla4.
En esta tabla se puede ver que la máxima sensibilidad (Resultado muy positivo < 15 mmol/l) es de 59% (
474/809) poco impresionante, pero esto representa un likelihood ratio de 52 (59%/1,1%) muy significativo,
lo cual generará posibilidades post test mayores de 85%. En otras palabras un resultado en este nivel es 52
veces más probable en uno con anemia ferropénica que en uno sin ella. En el otro extremo una especificidad
alta (Resultado muy negativo > 95 mmol/1) de 75% (1332/1 770) con un likelihood ratio de 0,08 (
5,9%/75%) lo cual produce probabilidades post test menos de 5% (la mayoría menos de 1%). Regresando
a nuestro ejemplo, nuestro paciente con un resultado de 60 mmol/l está en resultado "neutral" con un
likelihood ratio de 1 y una probabilidad pre test de 50% lo que nos da una probabilidad post test de 50%, lo
que nos llevaría a tomar otro test para confirmar (aumentar la probabilidad post test) o descartar (disminuir
la probabilidad post test). Todo este cálculo ( probabilidad post test) se abrevia sabiendo solo la probabilidad
pre test (conocida o por consenso) y el likelihood ratio derivado de estos cálculos (algunos ya conocidos y
otros en preparación), estos dos puntos se unen en el normograma de Fagan (Fig. 1) y su continuación nos
indica la probabilidad post test. Haga el intento con los mismos valores de probabilidad pre test y los
likelihood ratio del ejemplo y calcule las probabilidades post test usando el normograma y una regia.
Aquí nuestras conclusiones. Primero: deberíamos tener una lista de probabilidades pre test en cada
escenario clínico o caso problema para un diagnóstico presuntivo (Ejemplo: probabilidad de ITU en lactante
febril sin foco infeccioso aparente) o la prevalencia de la enfermedad (si no existe se puede establecer por
consenso para cada caso clínico). Segundo: deberíamos saber el poder diagnóstico de nuestros hallazgos al
examen físico o principalmente de exámenes auxiliares es decir conocer los likelihood ratio de estas
pruebas. Para exámenes auxiliares likelihood ratio positivo mayor de 10 y likelihood ratio negativo menores
de 0,1 son lo suficientemente poderosos para modificar importantemente casi cualquier probabilidad pre test
. Y tercero: siempre cargar en el bolsillo un normograma de Fagan para un cálculo sencillo de la probabilidad
post test para un diagnóstico acertado y así poder tomar una acción terapéutica adecuada o pedir otro
examen auxiliar (o repetir el mismo).
Sensibilidad y Especificidad
Sensibilidad Especificidad - Arterias y Venas
www.arteriasyvenas.org/index/sensibilidad_especificidad
En la segunda prueba se detecta a las 3 personas con trombosis venosa y además a tres de
las personas saludables se les asigna falsamente como portadoras de trombosis venosa,
entonces tendremos un test de sensibilidad alta pues detecta a todos los verdaderos
positivos pero con una especificidad reducida ya que no es capaz de discernir
adecuadamente los verdaderos negativos.
En una tercera prueba se detecta a sólo uno de los tres casos de trombosis venosa tendría
una sensibilidad reducida pues sólo captó pocos verdaderos positivos y una especificidad
alta ya que detectó a todos los verdaderos negativos:
En la cuarta prueba empleada se identifica a sólo uno de los tres casos de trombosis y
también lo hace, de manera incorrecta, con tres de los sujetos sanos, la prueba tiene
sensibilidad reducida al captar sólo un verdaderopositivo y también tiene especificidad
reducida al identificar pocos verdaderos negativos:
Ahora vamos a ver cómo se cuantifica esto empleando una tabla 2x2 que representamos a
continuación para ejemplificar los resultados que podemos obtener ante una prueba
diagnóstica:
Como verán en la primera columna hemos ubicado a todos los sujetos realmente enfermos
(a+c) mientras que en la segunda columna están todos los verdaderamente sanos (b+d), en
la primera fila están aquellos sujetos cuya prueba fue positiva (a+b) mientras que en la
segunda fila están aquellos cuya prueba fue negativa (c+d). Ahora analicemos cada
cuadrante:
Los casos expresados en los cuadrantes a y d serían los ideales con un test perfecto, no
obstante en las pruebas diagnósticas existe una posibilidad de fallo (falsos positivos o falsos
negativos) expresados en los cuadrantes c y b. De allí la importancia de conocer
previamente nuestra capacidad de detectar verdaderos positivos (sensibilidad) y verdaderos
negativos (especificidad) a modo de entender cuáles son las condiciones previamente
conocidas bajo la cual se acepta o se duda del resultado de una prueba.
Es deseable que las pruebas confirmatorias del diagnóstico sean de alta especificidad, para
evitar falsos positivos.
Hasta el momento hemos visto la situación en relación al test pero ¿cuál es la probabilidad
de que el paciente esté realmente enfermo si la prueba es positiva o, por el contrario, se
encuentre sano si la prueba es negativa?.. Por medio de los valores predictivos vamos a
obtener información al respecto.
Los valores predictivos, a pesar de ser de enorme utilidad a la hora de tomar decisiones
clínicas y transmitir a los pacientes información sobre su diagnóstico, presentan la
limitación de que dependen en gran medida de la prevalencia de la enfermedad a
diagnosticar en la población objeto de estudio. Cuando la prevalencia de la enfermedad es
baja, un resultado negativo permitirá descartar la enfermedad con mayor seguridad. Por el
contrario, bajo esa misma condición un resultado positivo no permitirá confirmar el
diagnóstico, resultando en un bajo valor predictivo positivo.
@arteriasyvenas
Medidas de diagnóstico
www.virtual.unal.edu.co/cursos/medicina/uv00045/.../anexo_1_1.html
Para las aplicaciones de los estudios de diagnóstico en medicina musculoesquelética ya
sean clínicos o paraclínicos (electrodiagnóstico, imágenes diagnósticas) se deben tener
claros los conceptos de validez y confiabilidad. Una prueba es válida si mide lo que
pretende medir. La validez se determina mediante estudios de sensibilidad y especificidad
tomando una referencia clínica o paraclínica. Una prueba es confiable si genera los mismos
resultados en diferentes momentos por el mismo examinador o por diferentes evaluadores.
Un buen ejemplo es el síndrome de túnel del carpo. Esta enfermedad se presenta aislada o
asociada a comorbilidades musculoesqueléticas tales como poliartralgias, síndrome de
pinzamiento del hombro, epicondilitis, etc, patologías que son crónicas y de difícil manejo
y que en ocasiones tienen un componente psicosocial importante. Un mal diagnóstico
puede implicar un manejo quirúrgico con resultados desfavorables para el paciente.
Enfermedad Enfermedad
presente ausente
a b
Prueba positiva
Verdadero positivo Falso positivo
c d
Prueba negativa
Falso negativo Verdadero negativo
p+/-z (1/2a)
p(1-p)/n
Primera forma:
Segunda forma:
El valor predictivo positivo se define como el porcentaje de personas con la prueba positiva
que realmente tienen la enfermedad. Es decir, el valor predictivo positivo estima la
probabilidad de que la enfermedad exista si la prueba es positiva.
VP+ = Verdaderos Positivos/Verdaderos positivos+Falsos positivos x 100
= a/a+b