Como a falta de orientação especializada afeta os diagnósticos de chatbots em saúde mental?

A história recente da tecnologia em saúde comportamental enfrenta um obstáculo persistente: o processamento de dados não estruturados, como notas clínicas e transcrições de entrevistas. Embora os Modelos de Linguagem Grandes (LLMs) prometam preencher essa lacuna, sua aplicação em psiquiatria clínica continua controversa devido ao risco de gerar respostas imprecisas ou potencialmente prejudiciais quando operam sem filtros.

O problema atual não é a capacidade da IA de gerar texto, mas sua capacidade de raciocinar clinicamente. Nesse contexto, Karthik Sarma, Kaitlin Hanss e colaboradores apresentam uma pesquisa crucial que avalia se a integração de estruturas de raciocínio derivadas de especialistas humanos – especificamente árvores de decisão – pode corrigir as tendências dos modelos base para o erro diagnóstico. Este estudo ocorre em um momento crítico, onde a assistência clínica por IA busca passar da novidade tecnológica à utilidade clínica segura.

Precisão vs. Sensibilidade

A pesquisa se concentrou em comparar duas estratégias de prompting (instruções à IA): uma abordagem direta “base” e uma abordagem guiada por árvores de decisão clínica. Os resultados obtidos por Sarma lançam luz sobre uma compensação técnica vital para a prática psicológica:

Redução drástica do sobrediagnóstico: A descoberta mais significativa foi que integrar o raciocínio experiente por meio de árvores de decisão melhorou o desempenho geral (estatística F1) ao suprimir o sobrediagnóstico.
Melhora do Valor Predictivo Positivo (VPP): Ao utilizar o modelo mais avançado, GPT-4o, com instruções diretas, o VPP foi de apenas 40,4%. No entanto, ao implementar as árvores de decisão refinadas, o VPP aumentou significativamente para 65,3%.
O compromisso da sensibilidade: Como é habitual ao aumentar o limiar de exigência para um diagnóstico positivo, a sensibilidade (capacidade de detectar verdadeiros positivos) diminuiu de 76,7% (prompt direto) para 70,9% (árvores de decisão).
Evolução entre modelos: A equipe observou que o salto qualitativo mais grande no desempenho (pontuação F1) ocorreu entre as versões GPT-3.5 e GPT-4, sugerindo que a capacidade de raciocínio dos modelos base é um fator limitante que está melhorando generacionalmente.

Para garantir a validade dos resultados, Sarma e sua equipe projetaram um experimento avaliativo rigoroso utilizando vinhetas clínicas padronizadas.

O estudo selecionou 93 casos clínicos do livro DSM-5-TR Clinical Cases (Barnhill, 2023), dividindo-os estratificadamente em conjuntos de treinamento (38 casos) e teste (55 casos). Foram excluídas categorias diagnósticas que não contavam com cobertura nos manuais de referência selecionados (como disfunções sexuais ou transtornos da personalidade).

Os pesquisadores não confiaram no “conhecimento geral” da IA. Em vez disso, alimentaram o sistema com árvores de decisão diagnóstica extraídas do DSM-5-TR Handbook of Differential Diagnosis (First, 2024), refinadas especificamente para seu uso em LLMs. Foram avaliadas três iterações da família GPT da OpenAI (GPT-3.5, GPT-4 e GPT-4o).

É imperativo analisar esses resultados com honestidade intelectual. O estudo apresenta limitações claras:

Origem dos dados: As vinhetas provêm de um livro de casos da APA (Barnhill, 2023), material que poderia ter estado presente no treinamento original dos modelos GPT, conferindo uma vantagem artificial.
Efeito de espectro: A amostra tinha uma “alta prevalência” (todos os casos apresentavam patologia). Isso limita a generalização dos resultados para populações de baixa prevalência ou rastreamento geral.
Falta de grupo humano: A ausência de um grupo de controle humano impede comparar o desempenho da IA com a variabilidade conhecida entre avaliadores clínicos humanos.

Aumentar, não substituir

O estudo dirigido por Sarma sublinha uma premissa fundamental para o futuro da psicometria e o diagnóstico assistido: a IA generativa por si só é insuficiente para a prática clínica rigorosa.

A integração de estruturas de conhecimento experiente (como os protocolos de First, 2024) não apenas melhora a métrica estatística, mas também confere uma camada de explicabilidade e confiança necessária para os Sistemas de Suporte à Decisão Clínica (CDS).

A implicação prática para os psicólogos é clara: os modelos de linguagem não devem ser vistos como oráculos diagnósticos autônomos, mas como processadores de informação que requerem arquiteturas lógicas projetadas por humanos para funcionar corretamente. O futuro aponta para sistemas híbridos onde a IA processa o texto não estruturado sob a estrita supervisão de árvores de decisão validadas clinicamente, reduzindo o ruído e permitindo ao profissional focar no julgamento clínico final.

Referência

Sarma, K., Hanss, K., Halls, A., Krystal, A., Becker, D., Glowinski, A., & Butte, A. (2026). Integrating expert knowledge into large language models improves performance for psychiatric reasoning and diagnosis. Psychiatry Research, 355, 116844. DOI: 10.1016/j.psychres.2025.116844