Estatística bayesiana para o diagnóstico médico

Introdução

Na medicina, o diagnóstico é fruto de testes ajustados em sequência.

Mais especificamente, qualquer pessoa tem chance de ter qualquer diagnóstico em qualquer momento.

Para afunilarmos esta probabilidade, as ferramentas estatísticas utilizadas dependem do contexto.

Primeiro contexto: paciente aleatório de uma determinada população

A probabilidade basal de qualquer diagnóstico é dada pelo levantamento percentual populacional, ou seja, quantas pessoas tem aquele diagnóstico naquela determinada população em determinado momento. Esta estatística deve ser levantada por estudos.

Seu resultado é chamado de prevalência.

Exemplo, a prevalência de diabetes no Brasil é de 10.2%. Esta é a probabilidade pré-teste para qualquer brasileiro selecionado aleatoriamente, segundo estudos atualizados até 2023.

Segundo contexto: o paciente aleatório faz um exame ou tem um sintoma

A partir do momento que um paciente realiza um teste², seu resultado deve ser analizado à luz das estatísticas relacionadas ao teste, mais precisamente suas sensibilidade e especificidade.

No caso do resultado positivo, um cálculo condicional para nova probabilidade deve ser realizado. Este cálculo é:

$$ p(A\mid B) = \frac{p(B \mid A)\ p(A)}{p(B)} $$

Leia-se:

A probabilidade de A dado B é igual a probabilidade de B dado A vezes a probabilidade de A dividido pela probabilidade de B.

Este é o Teorema de Bayes.

No caso do exame, lemos:

A probabilidade do diagnóstico dado o teste positivo é igual a probabilidade do teste ser positivo verdadeiro vezes a probabilidade geral do diagnóstico dividido pela probabilidade do exame ser positivo aleatoriamente.

Finalmente:

A probabilidade do diagnóstico pelo exame é igual a especificidade vezes a prevalência dividido pela sensibilidade.

Para tanto, $p(B)$ deve ser entendido como a soma de todas probabilidades de dar positivo, ou seja:

$$ p(B)=p(B\mid A)p(A) + p(B\mid ¬A)p(¬A) $$

Onde:

$p(B\mid A)p(A)$ são todos os positivos verdadeiros expressos em probabilidade; e

$p(B\mid ¬A)p(¬A)$ são todos os falsos positivos, em probabilidade.

Exemplo concreto

Atualmente em Brasília (2024), estamos vivendo um surto de dengue. A probabilidade geral do diagnóstico de dengue é de 2.6%, porque as notícias relatam 72.600 casos da doença sendo a população de 2.817.381 habitantes.

$$ prevalência = \frac{72600}{2.817.381} \approx 0.026 $$

Suponhamos que um paciente se apresente apenas com dor retro-orbitária há 4 dias.

Vamos supor, também, que esse sintoma tem probabilidade geral de 1%, ou seja, somadas todas as outras formas de dor retro-orbitária em Brasília no momento, 1 a cada 100 pessoas terá o sintoma.

Este sintoma é extremamente comum na dengue, digamos que 85% das pessoas com dengue tenham dor retro-orbitária.

Assim sendo, qual a probabilidade desta pessoa ter dengue?

$$ p(Dengue\mid dor) = \frac{p(dor\mid Dengue) p(Dengue)}{p(dor\mid Dengue)p(Dengue) + p(dor\mid ¬Dengue)p(¬Dengue)} $$

Resolvendo o denominador para facilitar:

$$ p(dor\mid Dengue)p(Dengue) + p(dor\mid ¬Dengue)p(¬Dengue) = 0.85*0.026 + 0.01*0.934 $$

$$ \approx 0.031 $$

Já que a probabilidade de se ter dor retro-orbitária sem dengue é de 0.01 e a “prevalência de não-dengue” é de $1 - 0.026$, ou melhor, 0.934.

Então:

$$ p(Dengue\mid dor) = \frac{0.85*0.026}{0.031} \approx 0.71 $$

Ou seja, temos 71% de chance deste paciente ter dengue!

Note que, para este valor alto de probabilide diagnóstica, utilizamos apenas um sintoma. Se combinado com outros, é fácil entender porque podemos ter certezas diagnósticas próximas de 100% mesmo em contextos com poucas informações.

Terceiro contexto: um estudo foi feito para determinar fatores de risco

Existem situações específicas em que um terceiro dado se correlaciona ao diagnóstico.

Um exemplo clássico é o hábito de fumar e o câncer de pulmão. Estudos mostram que um fumante tem uma probabilidade adicional de 30% de desenvolver câncer de pulmão.

Este risco associado a um fator é chamado de risco relativo.

Em outras palavras, este paciente deixa de ter a velha prevalência como probabilidade pré-teste. Sua estatística, agora, parte de 30% independentemente da prevalencia global.

O nomograma de Fagan

No caso dos testes e exames, a probabilidade pós-teste pode ser calculada utilizando uma régua prática chamada diagrama de Fagan. Traçamos uma reta entre os valores de pré-teste e de verossimilhança (likelihood) para lermos onde a reta toca no eixo pós-teste.

Serve apenas no cenário da lógica de pós-teste ajustado por verossimilhança, obviamente.

Calculadora para teste positivo

Calcule a probabilidade de doença após exame positivo.

Lembre-se: a prevalência pode ser a prevalência basal ou um valor de risco relativo¹.

Probabilidade pré-teste (%)

Sensibilidade (%)

Especificidade (%)

Probabilidade pós-teste

Notas

Não existe, na literatura formal, indicação de se utilizar outro valor de prevalência para cálculo de pós-teste após exame. Porém, também é consenso que não é justo o seu paciente queixoso em consultório ser comparado ao transeunte saudável sem queixas. Portanto, conhecendo fatores de risco, você deve fazer um ajuste na prevalência, de acordo com o conhecimento médico, a experiência ou, melhor ainda, estudos disponíveis.
Entenda-se por teste qualquer exame ou sintoma pelo qual eu possa atribuir um valorestatístico na interpretação de seu resultado.

Referências

JAMA Networks. JAMA guide to statistics and methods. Disponível em (2024): https://jamanetwork.com/collections/44042/jama-guide-to-statistics-and-methods
https://agenciabrasil.ebc.com.br/saude/noticia/2023-11/mais-de-10-dos-brasileiros-vivem-com-diabetes
BRASIL. Tabaco e saúde pulmonar: dia mundial sem tabaco: manual 2019. Instituto Nacional de Câncer José Alencar Gomes da Silva. – Rio de Janeiro: INCA, 2019.
https://agenciabrasil.ebc.com.br/saude/noticia/2024-02/df-ja-pode-ter-ultrapassado-recorde-de-casos-de-dengue-diz-saude