O ChatGPT não é bom para te diagnosticar; diz estudo

Caso você, ao ficar doente, tenha o hábito de descrever ao ChatGPT seus sintomas e pedir um diagnóstico ao chatbot, é bom ter cautela e não acreditar sempre nas respostas fornecidas. Um estudo descobriu que, apesar de ter sido treinado em terabytes de dados, o ChatGPT ainda não é bom no diagnóstico de doenças humanas.

Uma equipe de pesquisadores médicos da Escola Schulich de Medicina e Odontologia da Western University treinou o chatbot em 150 estudos de caso e o incentivou a fornecer um diagnóstico.

Pesquisas anteriores e evidências pela internet já mostraram que LLMs como o ChatGPT podem fornecer resultados impressionantes em algumas solicitações, mas também estão sujeitos a fornecer respostas incorretas.

Como resultado, especialistas da área de saúde costumam sugerir cautela ao usar os resultados produzidos por um assistente de IA para se informar sobre doenças.

Como o estudo foi conduzido

  • Para este novo estudo, a equipe avaliou quão bem o ChatGPT diagnosticaria doenças humanas se apresentasse sintomas de pacientes reais, conforme descrito em estudos de casos reais.
  • Eles escolheram 150 estudos de caso do Medscape, um site online criado e usado por profissionais médicos a título informativo e educacional, que foram acompanhados por um diagnóstico preciso e conhecido.
  • Eles treinaram o ChatGPT 3.5 com dados pertinentes, como histórico do paciente, resultados laboratoriais e resultados de exames de consultório, e então solicitaram um diagnóstico e/ou um plano de tratamento.
ChatGPT/OpenAI
O ChatGPT informa a doença errada a quem pede por um diagnóstico em mais da metade das vezes – Imagem: shutterstock/Ascannio

Depois que o chatbot forneceu as respostas, a equipe de pesquisa classificou seus resultados com base no quão próximo a IA chegou do diagnóstico correto.

Eles também avaliaram o quão bem ele relatou sua justificativa para chegar ao diagnóstico, incluindo a citações de pesquisas confiáveis – uma parte importante do diagnóstico médico.

Eles então calcularam a média das pontuações recebidas para todos os estudos de caso e descobriram que o ChatGPT deu um diagnóstico correto apenas 49% das vezes.

Os pesquisadores concluíram que, embora o modelo de linguagem tenha obtido uma pontuação fraca, fez um bom trabalho ao descrever como chegou ao diagnóstico – uma característica, sugere a equipe, que pode ser útil para estudantes de medicina.

Também foi observado que o chatbot era razoavelmente bom em descartar possíveis doenças, mas concluem sugerindo que os assistentes de IA ainda não estão prontos para uso em ambientes de diagnóstico.

chatgpt iphone
Especialistas de saúde desaconselham confiar no ChatGPT para diagnóstico de doenças – Imagem: DenPhotos/Shutterstock
Olhar Digital