Caso você, ao ficar doente, tenha o hábito de descrever ao ChatGPT seus sintomas e pedir um diagnóstico ao chatbot, é bom ter cautela e não acreditar sempre nas respostas fornecidas. Um estudo descobriu que, apesar de ter sido treinado em terabytes de dados, o ChatGPT ainda não é bom no diagnóstico de doenças humanas.
Uma equipe de pesquisadores médicos da Escola Schulich de Medicina e Odontologia da Western University treinou o chatbot em 150 estudos de caso e o incentivou a fornecer um diagnóstico.
Pesquisas anteriores e evidências pela internet já mostraram que LLMs como o ChatGPT podem fornecer resultados impressionantes em algumas solicitações, mas também estão sujeitos a fornecer respostas incorretas.
Como resultado, especialistas da área de saúde costumam sugerir cautela ao usar os resultados produzidos por um assistente de IA para se informar sobre doenças.
Como o estudo foi conduzido
- Para este novo estudo, a equipe avaliou quão bem o ChatGPT diagnosticaria doenças humanas se apresentasse sintomas de pacientes reais, conforme descrito em estudos de casos reais.
- Eles escolheram 150 estudos de caso do Medscape, um site online criado e usado por profissionais médicos a título informativo e educacional, que foram acompanhados por um diagnóstico preciso e conhecido.
- Eles treinaram o ChatGPT 3.5 com dados pertinentes, como histórico do paciente, resultados laboratoriais e resultados de exames de consultório, e então solicitaram um diagnóstico e/ou um plano de tratamento.
Depois que o chatbot forneceu as respostas, a equipe de pesquisa classificou seus resultados com base no quão próximo a IA chegou do diagnóstico correto.
Eles também avaliaram o quão bem ele relatou sua justificativa para chegar ao diagnóstico, incluindo a citações de pesquisas confiáveis – uma parte importante do diagnóstico médico.
Eles então calcularam a média das pontuações recebidas para todos os estudos de caso e descobriram que o ChatGPT deu um diagnóstico correto apenas 49% das vezes.
Os pesquisadores concluíram que, embora o modelo de linguagem tenha obtido uma pontuação fraca, fez um bom trabalho ao descrever como chegou ao diagnóstico – uma característica, sugere a equipe, que pode ser útil para estudantes de medicina.
Também foi observado que o chatbot era razoavelmente bom em descartar possíveis doenças, mas concluem sugerindo que os assistentes de IA ainda não estão prontos para uso em ambientes de diagnóstico.