Sei sulla pagina 1di 2

15b APBE (460-483).

qxp

N O TA

24/7/08

11:28

Pgina 460

METODOLGICA

Criterios de calidad de los estudios sobre pruebas diagnsticas


Vctor Abraira y Javier Zamora
CIBER Epidemiologa y Salud Pblica (CIBERESP). Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid. Espaa.

Resumen
Aunque el diagnstico desempea un papel central en la actividad clnica,
los mdicos reciben escaso entrenamiento formal en la utilizacin de pruebas diagnsticas durante su formacin acadmica. Adems, la investigacin
publicada sobre evaluacin de pruebas diagnsticas es, en general, de baja
calidad. En esta nota se repasan los patrones aceptados de calidad metodolgica en el diseo y la realizacin de esos estudios, as como la cuantificacin emprica del impacto de los sesgos que produce su falta de cumplimiento.
Palabras clave: Sesgos. Diseo. Pruebas diagnsticas.

El diagnstico desempea un papel central en la actividad clnica: es la primera intervencin clnica en el paciente y su resultado condiciona el desarrollo de la prctica clnica posterior, sin olvidar el impacto social que puede tener por el efecto de asignar a los ciudadanos etiquetas de falta de normalidad1. El proceso diagnstico constituye una actividad intelectual muy
exigente, y requiere una compleja imbricacin de conocimiento acadmico,
experiencia clnica y capacidad de obtener informacin a la cabecera del
paciente. Por ello, la habilidad para realizar un diagnstico es una de las
cualidades ms valoradas por los propios clnicos, e incluso, a veces, se seala el diagnstico como la actividad ms caracterstica de los mdicos, actividad que ningn otro profesional puede hacer2. Si bien todo ello
contrasta con el escaso entrenamiento formal en la utilizacin de pruebas
diagnsticas que reciben los mdicos durante su formacin acadmica3.
Adems, es difcil de estudiar. En las revistas mdicas, slo una pequea minora de estudios ofrecen informacin vlida sobre la utilidad de las pruebas
diagnsticas2. Ya hace ms de 10 aos que Reid et al4 llamaron la atencin
sobre la poca calidad de los estudios de evaluacin de las pruebas diagnsticas, y la situacin no parece haber mejorado. En una reciente revisin5 de artculos de evaluacin de validez diagnstica, localizados a travs de metaanlisis, de 487 artculos revisados, slo uno no tena ningn defecto de diseo. Se encontr que la calidad de la propia descripcin de este tipo de
investigacin y de sus resultados es tambin baja. De hecho, no es infrecuente que una revisin sistemtica no pueda responder a una pregunta concreta
sobre diagnstico, no por falta de artculos que evalen la prueba, sino precisamente por la baja calidad del diseo y de la presentacin de los resultados
de los artculos encontrados6. Y ello a pesar de las diversas iniciativas que se
han desarrollado para mejorar la calidad tanto de la investigacin sobre la
evaluacin de las pruebas diagnsticas, como de su publicacin. Algunas estn dirigidas a los lectores de las revistas, como las guas de lectura crtica
de literatura mdica7,8, que incluyen guas especficas para los artculos de
diagnstico. Otras estn dirigidas a los editores de las revistas y a los autores
de artculos, como la norma STARD para la publicacin de estudios de validez diagnstica, que pretende mejorar la calidad de los artculos para permitir a los lectores evaluar los potenciales sesgos del estudio y juzgar sobre su
generabilidad9, y otras dirigidas, en principio, a los investigadores que realizan revisiones sistemticas de estudios de validez diagnstica, pero indirectamente tambin a quienes realizan la investigacin primaria, como la norma
QUADAS, que es una herramienta para evaluar la calidad de estos estudios10. En la tabla 1 se presentan los tems de esta norma.

460

FMC. 2008;15(7):460-83

Estas guas y normas recogen los puntos crticos del diseo ptimo, as como su descripcin, de un estudio que pretenda responder a la pregunta correspondiente a la fase III de la investigacin sobre diagnstico11, es decir:
cuando la prueba se aplica a pacientes con una sospecha razonable de que
presentan la enfermedad, o estado de inters, sus resultados permiten distinguir a los pacientes que realmente tienen la enfermedad de los que no la
tienen? Este diseo ptimo consiste en seleccionar a un grupo de pacientes
representativos de aquellos en los que es razonable sospechar que tienen la
enfermedad y aplicarles a todos ellos, simultneamente e independientemente, la prueba en evaluacin y otra prueba de referencia, aceptada como
patrn para hacer el diagnstico correcto. Ambas pruebas deben interpretarse de modo enmascarado, es decir, cada una se debe interpretar sin que el
investigador que lo haga sepa el resultado de la otra. De modo similar a lo
que ocurre con el tratamiento, este ideal de diseo est en contradiccin con
la buena prctica clnica, en la que rara vez se solicitan las pruebas simultneamente, ms bien al contrario, las pruebas deberan solicitarse de modo
secuencial y cada una de ellas solicitarse e interpretarse en funcin de toda
la informacin disponible en cada momento, incluidos los resultados de las
pruebas previas. Seguramente de esta contradiccin surgen algunos de los
defectos observados en la literatura mdica, sobre todo en los estudios que
analizan datos provenientes de la prctica clnica. Los puntos crticos se
pueden agrupar en 3 apartados:

Seleccin de los pacientes


Dado que en la prctica clnica los problemas de diagnstico se plantean
entre enfermedades o estados de salud que comparten sntomas, una prueba
diagnstica es verdaderamente til si permite distinguir entre trastornos que
de otra forma podran confundirse; por tanto, la validez de una prueba debe
establecerse en ese escenario, es decir, en un estudio que incluya un espectro de pacientes lo ms parecido posible al del medio en el que la prueba se

Tabla 1. tems de la herramienta QUADAS


1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.

Es representativa la muestra?
Se describen bien los criterios de seleccin?
Clasifica bien el patrn de referencia?
Si el patrn y la prueba no se aplican simultneamente,
es razonable pensar que la enfermedad no haya evolucionado
en ese tiempo?
Sesgo de verificacin parcial?
Sesgo de verificacin diferencial?
Es el patrn de referencia independiente de la prueba?
(p. ej., la prueba no forma parte del patrn)
Detalle de la ejecucin de la prueba
Detalle de la ejecucin del estndar
Se interpret la prueba sin conocer el resultado del patrn?
Se interpret el patrn sin conocer el resultado de la prueba?
La informacin clnica disponible en la interpretacin de la prueba
es la misma que habr cuando se use en la prctica?
Se informa de los resultados no interpretables?
Se explican las prdidas?

Modificado de Whiting et al10.

15b APBE (460-483).qxp

24/7/08

11:28

Pgina 461

pretenda usar en el futuro, tpicamente una muestra consecutiva de pacientes. Sin embargo, una tentacin muy extendida en estos estudios es el diseo de casos y controles, en el que se seleccionan 2 muestras, una de pacientes que se sabe que tienen la enfermedad y otra de individuos que no la tienen. Se ha demostrado que este diseo introduce la mayor sobrestimacin
del rendimiento de la prueba. Usando como ndice de validez la odds ratio
diagnstica12, que es un modo de sintetizar en un solo ndice la sensibilidad
y la especificidad, este diseo lo sobrestima13 multiplicndolo por un factor
de 3. Los tems 1 y 2 de QUADAS tratan de identificar este potencial defecto. Otros defectos en relacin con la seleccin de pacientes, que segn
Rutjes et al5 tienen efecto en la estimacin de la validez, son: inclusin no
consecutiva de pacientes y extraccin retrospectiva de datos, que sobrestiman el ndice ligeramente, y seleccin de pacientes por remisin a la prueba
en evaluacin, que lo infraestima dividindolo por 2.

Patrn de referencia
El patrn de referencia debe ser el mejor mtodo accesible para determinar
si un paciente tiene la enfermedad o estado de inters. Muy frecuentemente,
este patrn es invasivo; ste es justamente uno de los motivos para desarrollar nuevas pruebas, disponer de pruebas menos agresivas, o ms baratas, o
ms fciles que los patrones de referencia. Por tanto, suele haber problemas
para realizar estos patrones a individuos no enfermos. Por ejemplo, para
evaluar la validez de la mamografa en el diagnstico del cncer de mama,
una buena prueba de referencia es la biopsia; de hecho, es la que se suele
usar, aunque obviamente hay problemas, tanto ticos como de factibilidad,
para realizar biopsias a mujeres con mamografas negativas. Como consecuencia de ello, en muchos de estos estudios el patrn de referencia se realiza a la mayor parte de los pacientes con resultado positivo de la prueba, y
slo a una pequea parte de los que tienen resultado negativo, lo que da lugar al denominado sesgo de referencia o de verificacin parcial. Otros autores resuelven el problema, aplicando a los pacientes con resultado negativo
en la prueba en evaluacin otro patrn de referencia diferente (sesgo de verificacin diferencial), por ejemplo el seguimiento en el tiempo. Ambas soluciones, si bien con frecuencia son las nicas disponibles, incumplen la
asuncin de independencia entre pruebas y daran lugar a una sobrestimacin del rendimiento diagnstico. Lijmer et al13 sealan que cuando se usan
diferentes patrones de referencia, el ndice de rendimiento global se sobrestima multiplicndose por 2, aunque, sorprendentemente, no encuentran ninguna sobrestimacin producida por el sesgo de verificacin parcial. Los
tems 3-7 de QUADAS tratan de identificar estos potenciales defectos.

Enmascaramiento en la interpretacin de las pruebas


Siguiendo con el ejemplo de la mamografa, parece claro que una imagen
radiolgica dudosa ser interpretada de modo distinto, seguramente ms parecido a la biopsia, si se conoce el resultado de sta. Por ello, para evaluar
la validez de la mamografa, ambas pruebas deben interpretarse sin que se
conozca el resultado de la otra. Esta exigencia es tanto ms importante
cuanto mayor componente de interpretacin subjetiva tengan las pruebas en

cuestin. Lijmer et al13 indican que, efectivamente, la falta de enmascaramiento sobrestima el ndice de rendimiento global en un 30%. Los tems 10
y 11 de QUADAS tratan de identificar si hay, o no, enmascaramiento.
Los tems 8 y 9 exploran el nivel de detalle de la descripcin de las pruebas,
y los tems 12-14 los problemas relacionados con la generabilidad en la
aplicacin de la prueba.
Por ltimo, hay que tener en cuenta que el inters clnico de una prueba
diagnstica, ms all de cmo clasifica a los pacientes, reside en que los pacientes en los que se usa presenten mejores resultados que aquellos en los
que no se usa (pregunta que corresponde a la denominada fase IV de la investigacin sobre diagnstico11), y que el diseo ptimo para contestar a esta pregunta es el ensayo clnico aleatorizado; sin embargo, en la literatura
mdica apenas hay ensayos de este tipo y todava se debate cundo y cmo
deberan hacerse14.

Bibliografa
1. Prez Fernndez M, Gervas J. El efecto cascada: implicaciones clnicas, epidemiolgicas y ticas. Med Clin (Barc). 2002;118:65-7.
2. The Editors. Diagnosis, diagnosis, diagnosis. BMJ. 2002;324:0doi:10.1136/bmj.324.7336.0/g
3. Latour J. El diagnstico. Quaderns de salut pblica i administraci de
serveis de salut, 21. Valencia: Escola Valenciana dEstudis per a la Salut; 2003.
4. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in
diagnostic test research. Getting better but still not good. JAMA. 1995;
274:645-51.
5. Rutjes AW, Reitsma JB, Di Nisio M, Smidt N, Van Rijn JC, Bossuyt PM.
Evidence of bias and variation in diagnostic accuracy studies. CMAJ.
2006;174:469-76.
6. Mijnhout GS, Hoekstra OS, Van Tulder MW, Teule GJ, Devill WL.
Systematic review of the diagnostic accuracy of (18)F-fluorodeoxyglucose positron emission tomography in melanoma patients. Cancer.
2001;91:1530-42.
7. Jaeschke R, Guyatt G, Sackett DL. Users guides to the medical literature. III. How to use an article about a diagnostic test. B. What were the
results and will they help me in caring for my patients? Evidence-Based Medicine Working Group. JAMA. 1994;271:703-7.
8. Emparanza JI. Manual de supervivencia CASPe (para talleres y despus). Alicante: CASPe; 2005.
9. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig
LM, et al. Towards complete and accurate reporting of studies of
diagnostic accuracy: the STARD Initiative. Ann Intern Med. 2003;138:
40-4.
10. Whiting P, Rutjes AW, Reitsma JB, Bossuyt PM, Kleijnen J. The development of QUADAS: a tool for the quality assessment of studies of
diagnostic accuracy included in systematic reviews. BMC Med Res
Methodol. 2003;3:25.
11. Sackett DL, Haynes RB. Evidence base of clinical diagnosis: the architecture of diagnostic research. BMJ. 2002;324:539-41.
12. Glas AS, Lijmer JG, Prins MH, Bonsel GJ, Bossuyt PM. The diagnostic odds ratio: a single indicator of test performance. J Clin Epidemiol.
2003;56:1129-35.
13. Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, Van der
Meulen JH, Bossuyt PM. Empirical evidence of design-related bias in
studies of diagnostic tests. JAMA. 1999;282:1061-6.
14. Sarah JL, Les I, Simes RJ. When Is Measuring Sensitivity and Specificity Sufficient To Evaluate a Diagnostic Test, and When Do We Need
Randomized Trials? Ann Intern Med. 2006;144:850-5.

FMC. 2008;15(7):460-83

461

Potrebbero piacerti anche