Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
VALIAO
DE TESTES DIAGNSTICOS
Reprodutibilidade ou repetibilidade ........................................................................... 22 Validade ou acurcia .................................................................................................... 22 Relao entre preciso e acurcia ............................................................................... 22
INTRODUO
REPRODUTIBILIDADE Pesquisas de Laboratrio, Pesquisa Clnica e Epidemiolgica ................................. 23 Avaliao de Reprodutibilidade .................................................................................. 23 ndice Kappa (k) ............................................................................................................ 23 VALIDADE DE UM TESTE DIAGNSTICO Sensibilidade e Especificidade ..................................................................................... 25 Co-positividade e co-negatividade ............................................................................... 26 Ponto de corte para delimitar resultados positivos.................................................... 26 Valor preditivo do teste ...................................................................................... 27 Valor preditivo positivo .................................................................................... 27 Valor preditivo negativo .................................................................................... 27 Relao entre o valor preditivo e prevalncia ............................................................ 27 ERRO SISTEMTICO E ERRO ALEATRIO NA DETERMINAO DA SENSIBILIDADE E ESPECIFICIDADE Erro Aleatrio ............................................................................................................... 27 Clculo do tamanho da amostra para avaliar a sensibilidade e especificidade ...................................................................................................... 28 Erro Sistemtico ........................................................................................................... 29 Vis de amostragem............................................................................................ 29 Vis de mensurao ............................................................................................ 29 Vis de publicao .............................................................................................. 29 Princpios bsicos para avaliar um teste diagnstico/triagem........................ 29 ROTEIRO PARA DETERMINAR A VALIDADE DE UM TESTE .................................... 31 REFERNCIAS PARA LEITURA.......................................................................................... 32 EXERCCIOS ............................................................................................................................ 33 DICIONRIO DE BANCO DE DADOS ................................................................................. 38
21
INTRODUO A avaliao da qualidade de testes diagnsticos um tema de interesse da investigao clnica e epidemiolgica. Em pesquisa epidemiolgica, "testes diagnsticos" so entendidos no apenas como exames laboratoriais, mas, tambm, referem-se a procedimentos diversos como interrogatrio clnico, exame fsico e mtodos propeduticos diversos. O desempenho de um teste diagnstico depende da ausncia de desvios da verdade (ausncia de vis) e da preciso (o mesmo teste aplicado ao mesmo paciente ou amostra deve produzir os mesmos resultados): respectivamente da validade e da reprodutibilidade do "teste". Neste mdulo so discutidos dois conceitos bsicos da qualidade de um teste diagnstico: reprodutibilidade e validade e os aspectos relativos ao delineamento e anlise destes estudos. . Reprodutibilidade ou repetibilidade a consistncia de resultados quando o exame se repete. Por exemplo, dois radiologistas que lem de forma independente as mesmas radiografias e chegam ao mesmo diagnstico alcanam o nvel mximo de reprodutibilidade. Mas, os dois especialistas podem estar igualmente corretos ou igualmente errados em seus diagnsticos. . Validade ou acurcia refere-se ao grau em que o teste ou uma estimativa baseada em um teste capaz de determinar o verdadeiro valor do que est sendo medido. A validade informa se os resultados representam a "verdade" ou o quanto se afastam dela. Por exemplo, o ECG um teste de maior validade, comparado auscultao cardaca feita com o estetoscpio, no intuito de detectar alteraes cardiovasculares tpicas da doena de Chagas. Um teste dip-stick para deteco de antgeno utilizado para diagnstico de malria por P. falciparum pode ter 100% de acurcia quando for capaz de produzir resultados positivos para todas as amostras de pacientes infectados e produzir resultados negativos para os indivduos negativos. . Relao entre preciso e acurcia. A Figura abaixo mostra a relao entre o valor verdadeiro de uma medida quantitativa e o valor obtido pelo estudo em termos de baixa e alta validade e reprodutibilidade. Com baixa reprodutibilidade e estando a mdia dos valores obtidos pelo estudo prxima do verdadeiro valor, o teste poder ter validade, mas, mesmo assim, ter pouca utilidade. Por outro lado, uma alta repetibilidade da medida (resultados idnticos ou prximos quando o teste diagnstico repetido) no assegura validade pois os valores obtidos podem estar distantes do valor verdadeiro, ou seja, podem estar errados. Como esse aspecto fundamental para separar corretamente doentes de sadios, a validade e a reprodutibilidade tm de ser adequadamente mensuradas, no sentido de avaliar a qualidade de um exame diagnstico e, conseqentemente, a informao por ele produzida. importante aferir ambos os parmetros, tanto com referncia a novos testes introduzidos no mercado, como testes j em uso mas, aplicados em outros contextos.
Validade Alta Valores obtidos Alta Baixa Valores obtidos
Reprodutibilidade Verdadeiro valor Baixa Valores obtidos Verdadeiro valor Valores obtidos
Verdadeiro valor
Verdadeiro valor
22
REPRODUTIBILIDADE . Reprodutibilidade, repetibilidade ou preciso - a habilidade do teste em produzir resultados consistentes (quase os mesmos resultados) quando realizados independentemente e sob as mesmas condies. Por exemplo, um teste bioqumico considerado de alta reprodutibilidade quando se obtm praticamente o mesmo resultado aps vrias testagens repetidas e de forma independente. Entretanto, se o aparelho eletrnico utilizado para realizao do teste no estiver adequadamente calibrado, o teste pode ter alta reprodutibilidade, mas, produzir resultados consistentemente errados. O mesmo conceito de reprodutibilidade pode ser usado em situaes mais gerais, como por exemplo, comparando-se os resultados de lminas em diferentes ocasies (variabilidade intraobservador). . Pesquisas de Laboratrio, Pesquisa Clnica e Epidemiolgica Melhores resultados de reprodutibilidade so geralmente obtidos no trabalho de laboratrio, onde as condies de operao podem ser mais controladas (um s observador, aparelhos de alta preciso, calibrados, com pouco uso, uso de amostras controle, ambiente livre de maiores perturbaes e horrio apropriado). Por outro lado, em pesquisas clnicas e epidemiolgicas, raramente obtm-se o nvel de reprodutibilidade encontrado em investigaes de laboratrio. O diagnstico clnico, por exemplo, um processo subjetivo, e, por isto, suscetvel a interpretaes discordantes, mesmo entre clnicos competentes e experientes. Em geral, um nvel baixo de reprodutibilidade tende a atenuar as verdadeiras correlaes entre eventos. Isto limita a utilidade do diagnstico clnico em pesquisas populacionais, pois prejudica a investigao de associaes entre fatores de risco e danos sade. . Avaliao de Reprodutibilidade H diversas maneiras de verificar a concordncia de resultados entre leituras de um mesmo evento ou comparar mtodos diagnsticos diferentes, e assim, estimar o erro cometido na sua aferio. Os resultados podem ser expressos sob forma de varivel dicotmica (positivo / negativo), categrica (normal / anormal / nveis limtrofes), em medidas contnuas (miligramas, mililitros) ou ttulos de sorologia. Este um dos aspectos que influencia a forma de anlise dos resultados. Geralmente, independente do tipo de dado produzido pelos testes diagnsticos, os mdicos/epidemiologistas tendem a reduzi-lo variveis dicotmicas ou expressas em categorias para tornar a interpretao mais til na prtica. A comparao dos resultados pode ser apresentada atravs da taxa global de concordncia entre os examinadores ou pelo indicador Kappa. . ndice Kappa (k) - Uma maneira muito utilizada para expressar a confiabilidade de um teste atravs do ndice k que constitui um avano em relao taxa geral de concordncia, por ser um indicador de concordncia ajustada, pois leva em considerao, a concordncia devida chance. O k informa a proporo de concordncia no aleatria (alm da esperada pela chance) entre observadores ou medidas da mesma varivel categrica, e seu valor varia de "menos 1" (completo desacordo) a "mais 1" (concordncia total). Se a medida concorda mais freqentemente do que seria esperado pela chance, ento o ndice k positivo; se a concordncia completa k = 1. Zero indica o mesmo que leituras feitas ao acaso. A Tabela 1 apresenta os valores do k e respectivas interpretaes.
23
Tabela 1- Escala de concordncia do Kappa Kappa <0,00 0,00-0,20 0,21-0,40 0,41-0,60 0,61-0,80 0,81-0,99 1,00 Concordncia Nenhuma Fraca Sofrvel Regular Boa tima Perfeita
A Tabela 2 exemplifica o clculo de k. Cento e vinte lminas contendo esfregaos de gota espessa de sangue para pesquisa de hematozorios (malria) foram preparadas em condies uniformes e interpretadas por dois microscopistas independentes. O primeiro identificou 20 lminas positivas e 100 negativas enquanto o segundo diagnosticou respectivamente 30 e 90 gerando 106 resultados concordantes (18+88) e 14 de discordantes (2+12). A taxa geral de concordncia foi de 88,3% (106/120) e o valor de k = 65%. Tabela 2 Concordncia entre dois observadores nas leituras de laminas para pesquisa de hematozorios. Microscopista 1 (+) Microscopista 2 (+) (-) Total 18 (a) 2 ( c) 20 12 (b) 88 (d) 100 30 90 120 (-) Total
K = sendo: Po = Pe =
24
Po =
a+d a+b+c+d
Pe =
Para interpretao do k deve-se levar em conta: tipo de evento e outros fatores - o nvel de concordncia depende do tipo de evento, fatores relacionados ao examinador, ao procedimento sendo testado e ao ambiente onde as observaes so realizadas. Tambm, a diminuio do nmero de categorias de resultados (valores positivos e negativos ao invs de valor alto, mdio, baixo e muito baixo) tende a aumentar a concordncia. prevalncia - a prevalncia do diagnstico ou evento na populao, afeta o resultado final. Baixas prevalncias tendem estar associadas a baixos nveis de reprodutibilidade, pois o valor de k depende da concordncia devida ao acaso. possvel encontrar-se baixos nveis de reprodutibilidade, devido baixa prevalncia do evento e no erros relacionados ao procedimento diagnstico empregado. Por este motivo, deve-se informar a prevalncia juntamente com os resultados do k. independncia da avaliao - as avaliaes devem ser independentes umas das outras, princpio tambm aplicvel verificao da validade/acurcia. Isto significa que quando um examinador repete o teste, deve ignorar resultados prvios, obtidos por ele ou por outro examinador, para evitar a possibilidade de ser influenciado por este conhecimento e prejudicar a avaliao, mesmo involuntariamente. VALIDADE DE UM TESTE DIAGNSTICO A validade de um teste refere-se quanto, em termos quantitativos ou qualitativos, um teste til para diagnosticar um evento (validade simultnea ou concorrente) ou para predize-lo (validade preditiva). Para determinar a validade, compara-se os resultados do teste com os de um padro (padro ouro): esse pode ser o verdadeiro estado do paciente, se a informao est disponvel, um conjunto de exames julgados mais adequados, ou uma outra forma de diagnstico que sirva de referncia. O teste diagnstico ideal deveria fornecer, sempre, a resposta correta, ou seja, um resultado positivo nos indivduos com a doena e um resultado negativo nos indivduos sem a doena. Alm do que, deveria ser um teste rpido de ser executado, seguro, simples, incuo, confivel e de baixo custo. . Sensibilidade e Especificidade Para definir os conceitos de sensibilidade e especificidade, sero utilizados como exemplos, testes com resultados dicotmicos, isto , resultados expressos em duas categorias: positivos ou negativos. A Tabela 3 mostra as relaes entre os resultados de um teste e o diagnstico verdadeiro. O teste considerado positivo (anormal) ou negativo (normal), e a doena presente ou ausente. Assim, na avaliao de um teste diagnstico existem 4 interpretaes possveis para o resultado do teste: duas em que o teste est correto e duas em que est incorreto. O teste est correto quando ele positivo na presena da doena (resultados verdadeiros positivos), ou negativo na ausncia da doena (resultados verdadeiros negativos). Por outro lado, o teste est incorreto quando ele positivo na ausncia da doena (falso positivo), ou negativo quando a doena est presente (falso negativo). Os melhores testes diagnsticos so aqueles com poucos resultados falso-positivos e falso-negativos.
25
Positivo
V erdadeiro positivo
Falso-positivo
Teste
a c
N egativo Falso-negativo
b d
V erdadeiro negativo
a+b c+d
a+c
b+d
N (a+b+c+d)
As seguintes proposies/Indicadores podem ser calculados da comparao dos resultados da tabela: Sensibilidade: a/(a+c) Especificidade: d/(b+d) Prevalncia (real): (a+c)/N Prevalncia estimada (teste): (a+b)/N Valor preditivo positivo: a/(a+b) Valor preditivo negativo: d/(c+d) Classificao correta (acurcia): (a+d)/N Classificao incorreta: (b+c)/N . Sensibilidade - a capacidade que o teste diagnstico/triagem apresenta de detectar os indivduos verdadeiramente positivos, ou seja, de diagnosticar corretamente os doentes. . Especificidade - a capacidade que o teste diagnstico/triagem tem de detectar os verdadeiros negativos, isto , de diagnosticar corretamente os indivduos sadios. . Co-positividade e co-negatividade - so termos utilizados em substituio, respectivamente, sensibilidade e especificidade, quando o padro empregado outro teste considerado de referncia para a doena em questo e no os diagnsticos de certeza de presena ou ausncia de doena. So tambm designados sensibilidade relativa e especificidade relativa. . Ponto de corte para delimitar resultados positivos - O teste ideal, com 100% de sensibilidade e especificidade raramente existe na prtica, pois a tentativa de melhorar a sensibilidade freqentemente tem o efeito de diminuir a especificidade. Em algumas situaes clnicas os resultados so obtidos atravs de variveis contnuas, no havendo uma separao clara e inquestionvel entre o que "normal" e "anormal". Para a definio do ponto de corte de positividade o investigador dever levar em conta a importncia relativa da sensibilidade e especificidade do teste diagnstico, ponderando sobre as implicaes dos dois possveis erros. Em indicaes de procedimentos de risco (certas cirurgias), por exemplo, deve-se evitar resultados 26
falso-positivos; nestes casos, o ponto de corte deve ser definido de tal forma que aumente a especificidade do teste. Por outro lado, em triagens sorolgicas em bancos de sangue para preveno de transmisso de infeces nas quais a no deteco de casos acarretar risco para a populao, o ponto de corte dever ser estabelecido tendo como objetivo alcanar 100% de sensibilidade do teste para que no ocorram resultados falso-negativos, em que pese o aumento da proporo de falso-positivos. Para aumentar a sensibilidade em uma triagem pode-se utilizar mais do que um teste diagnstico, em paralelo considerando-se como positivo as amostras que apresentarem pelo menos uma reao positiva. Em inquritos populacionais, testes com alta sensibilidade devem ser utilizados, quando a prevalncia da infeco na populao em geral for baixa. Por outro lado, em clnica, comum realizarem-se testes em srie. Testes adicionais so realizados para confirmar resultados positivos ou negativos previamente obtidos. . Valor preditivo do teste - No contexto epidemiolgico e clnico, a validade de um marcador sorolgico diz respeito extenso com que ele pode predizer a ocorrncia da doena / infeco. Nessas circunstncias, devemos estar preparados para responder seguinte questo: dado que o teste apresentou resultado positivo (ou negativo), qual a probabilidade do indivduo ser realmente doente (ou sadio)? Esse atributo do teste conhecido como Valor Preditivo (VP) podendo ser positivo (VPP) ou negativo (VPN), e determinado pela interao de trs variveis: a sensibilidade e a especificidade do teste e a prevalncia da doena no grupo de estudo. Valor preditivo positivo - a proporo de doentes entre os positivos pelo teste. No exemplo da Tabela 2 teramos 60% (18/30), o que equivale a dizer que em cada 10 testes positivos, 6 indivduos seriam realmente doentes. Valor preditivo negativo - a proporo de sadios (sem a doena) entre os negativos ao teste. Ainda em relao Tabela 2, teramos um VPN de 98% (88/90); a cada 100 testes negativos, 98 seriam sadios. . Relao entre valor preditivo e prevalncia Enquanto a sensibilidade e especificidade de um teste so propriedades inerentes ao teste e no variam a no ser por erro tcnico, os VPs dependem da prevalncia da doena na populao de estudo. O VPP aumenta com a prevalncia enquanto os VPN diminuem. Assim, quando a doena rara o VPP baixo, pois a maior parte dos exames positivos pertencem a sadios, representando resultados falso-positivos. Por outro lado, O VPN alto em baixas prevalncias. Os resultados falso-positivos e falso-negativos podem ser minimizados utilizando-se a combinao de testes, em paralelo (dois ou mais testes realizados simultaneamente) ou em srie (dois ou mais testes realizados em seqncia), para a definio de resultado positivo. Se a inteno reduzir resultados falso positivos (e aumentar a especificidade), um diagnstico positivo dever ser confirmado somente quando pelo menos dois testes diferentes forem positivos. Por outro lado, para reduzir resultados falso negativos (e aumentar a sensibilidade), um nico teste positivo seria suficiente para considerar um diagnstico positivo. Por exemplo, o teste ser positivo se os 2 testes forem positivos, ou negativo se os 2 forem negativos. ERRO SISTEMTICO E ERRO ALEATRIO SENSIBILIDADE E ESPECIFICIDADE NA DETERMINAO DA
Erro Aleatrio - Os estudos de avaliao de testes diagnsticos esto sujeitos a erros ao acaso; alguns pacientes com a doena apresentaro resultado normal do teste diagnstico. Este tipo de erro pode ser avaliado calculando-se o intervalo de confiana para a sensibilidade e especificidade do novo teste. O intervalo de confiana indica o espectro de variao dos resultados obtidos para que se possa compar-los com os testes convencionais. Por exemplo, considere a comparao de dois testes A e B em uso na prtica clnica; o teste A com sensibilidade de 80% e especificidade de 85%, calculadas aps testagem em centenas de indivduos e o novo teste diagnstico (B) foi positivo em 27
10 indivduos em um total de 10 pacientes com a doena, o que equivale a 100% de sensibilidade, e foi negativo em 9 de 10 indivduos sem a doena (especificidade=90%). Apesar da sensibilidade e especificidade deste novo teste (b) serem maiores que as descritas para o teste (a), o intervalo de confiana de 95% tanto para a sensibilidade (61%-100%) como para a especificidade (55%-97%) mostrou um espectro grande de variao, com sobreposio destes intervalos com os do teste convencional; este fato decorre do pequeno nmero de indivduos testados. Por este motivo, no possvel concluir que o novo teste (b) tenha um melhor desempenho do que o teste convencional (a). Uma das estratgias para minimizar os erros aleatrios estimar o tamanho da amostra para determinar a validade do teste diagnstico, baseado na construo de intervalos de confiana, definindo-se espectros que incluam o valor que se deseja obter para a sensibilidade e especificidade do teste. Isto significa calcular dois tamanhos da amostra: um para a sensibilidade do teste e outro para a especificidade. Clculo do tamanho da amostra para avaliar a sensibilidade e especificidade O clculo do tamanho da amostra, para variveis dicotmicas, segue os mesmos princpios estabelecidos em estudos descritivos/estudos de prevalncia (Quadro abaixo), sendo necessria as seguintes informaes: (1) estimativa da proporo esperada da positividade na populao (quando maior de 50% utilize a proporo de pessoas com resultados negativos) (2) amplitude do intervalo de confiana que se deseja (3) definio do intervalo de confiana (geralmente 95%)
N= Z * Z (P (1-P)) / (D * D) P= D= Z=
Onde:
Por exemplo, em um estudo para determinar a sensibilidade de um novo teste diagnstico para malria, espera-se que 80% dos pacientes com malria tenham teste positivo (resultado de estudo piloto). Quantos indivduos com malria devero ser testados para se estimar uma sensibilidade do teste de 80% com intervalo de 95% de confiana e preciso do teste de 0,04?. Considerando as 3 informaes necessrias para o clculo do tamanho da amostra, teramos: (1) proporo esperada de casos com malria com teste positivo = 0,20 (80% maior que 50%; portanto, a proporo de indivduos com malria e teste negativo 20%) (2) espectro do intervalo de confiana = 0,08 Utilize a semi-amplitude (0,04 acima ou 0,04 abaixo) como o erro mximo aceitvel (3) intervalo de confiana = 95% 28
Utilizando-se a frmula anexa, seria necessrio aplicar o teste em 384 pacientes com malria para se estimar uma sensibilidade de 80% do teste com intervalo de 95% de confiana de 76%-84%: n =1,962 ( 0,20 (1-0,20) ) / (0,042) n = 384 pessoas Os mesmos procedimentos so vlidos para o clculo do tamanho da amostra para determinar a especificidade do teste. Por exemplo, se o investigador espera que 90% dos indivduos sem malria tenham teste negativo, 216 indivduos sem malria deveriam ser includos no estudo para determinao de uma especificidade de 90% 0,04 com um intervalo de 95% de confiana. Erro Sistemtico - De forma geral, os estudos de testes diagnsticos esto sujeitos aos mesmos vises que os estudos observacionais; os mais comuns so os vises de amostragem, de medida do teste e de relato dos resultados. . Vis de amostragem - neste tipo de erro, a amostra de estudo no representativa da populao alvo na qual o teste dever ser utilizado. Por exemplo, a seleo de indivduos provenientes de servios de referncia tende a incluir pessoas com formas graves da doena ou pacientes nos quais os testes sejam mais anormais do que seriam em outras formas clnicas da doena. Isto faz com que o estudo fornea resultados superestimados da sensibilidade do teste, diferindo da sensibilidade do teste em condies de rotina. Da mesma forma, o estudo fornecer uma especificidade aumentada do teste, se indivduos sem a doena forem selecionados como voluntrios, pois estes tendem a ser mais saudveis do que indivduos com sintomas, recrutados de ambulatrios, porm sem a doena. A estratgia utilizada para minimizar este tipo de erro selecionar amostras de populao semelhante a qual o teste dever ser utilizado. A escolha de amostras de populaes nas quais a prevalncia da doena maior do que a habitualmente detectada, trar como conseqncia valores preditivos positivos superestimados. Uma situao muito comum investigar um nmero igual de indivduos com a doena e sem a doena, o que equivale a 50% de prevalncia da doena. Para lidar com este vis o estudo deveria fornecer, tambm, resultados dos valores preditivos do teste ajustados para outras probabilidades de doena, para que o leitor possa avaliar a utilidade do teste de acordo com sua realidade na prtica clnica. . Vis de mensurao - Sempre que possvel o investigador deve desconhecer quais indivduos tm a doena e quais no tm, para evitar vcios de interpretao de resultados, especialmente nas situaes limtrofes. Da mesma forma, o investigador deve permanecer mascarado em relao realizao dos testes diagnsticos. O ponto de corte deve ser definido antes da realizao do teste. . Vis de publicao - Existe uma tendncia em se publicar somente os estudos que mostrem "sucesso" dos testes diagnsticos o que acarreta um bias de literatura. Para minimizar este vis, os estudos devem ser planejados com nmero suficiente de indivduos para que os resultados tenham credibilidade e sejam devidamente divulgados. . Princpios bsicos para avaliar um teste diagnstico/triagem O delineamento de estudos para avaliar/comparar a utilidade clnica ou populacional de testes diagnsticos deve incorporar dois aspectos. O primeiro deles diz respeito aos princpios da aleatorizao e mascaramento. Se os pacientes so alocados aleatoriamente para receber o novo teste (versus aquele usado na rotina), os indivduos que receberem este novo teste tero uma melhor evoluo clnica? A comparao dos testes pode e deve ser feita nos mesmos indivduos e amostras, para eliminar variaes externas aos testes. O segundo aspecto a ser levado em conta refere-se prtica clnica vigente. O teste ser aplicado nas mesmas condies de seu uso na clnica? O fato de um teste discriminar casos graves da doena no significa que ser igualmente til para distinguir pacientes portadores de doena leve dos demais pacientes com sintomas semelhantes. 29
Estudos conduzidos para determinar a validade de um teste diagnstico apresentam estrutura semelhante aos estudos observacionais. Eles incluem a varivel preditora (resultado do teste) e a varivel de efeito (presena ou ausncia da doena). A diferena entre eles reside nos seus objetivos. Na avaliao de testes diagnsticos, descreve-se a intensidade da associao, em termos de sensibilidade e especificidade (capacidade do teste em discriminar doentes de no doentes). J, os estudos observacionais buscam determinar a presena de uma associao. Portanto, na anlise da validade de um teste no basta apenas mostrar que existe uma associao entre o resultado do teste e a doena.
30