Um estudo publicado no JAMA Network Open em 28 de outubro de 2024, traz novas perspectivas sobre o impacto dos Modelos de Linguagem de Grande Escala (LLMs), como o ChatGPT Plus (GPT-4) da OpenAI, no processo de raciocínio diagnóstico na medicina. A pesquisa, conduzida através de um ensaio clínico randomizado, comparou o desempenho diagnóstico de médicos utilizando este chatbot de IA com o uso de recursos diagnósticos convencionais, como UpToDate e Google.
Fonte: Goh E, Gallo R, Hom J, et al., 2024
Fundamentos do Estudo
Os erros diagnósticos são uma preocupação constante na medicina, contribuindo significativamente para danos aos pacientes. Esses erros resultam de uma combinação de fatores cognitivos e sistêmicos, e as estratégias para aprimorar o raciocínio clínico e o desempenho diagnóstico têm sido variadas, indo desde práticas educacionais e reflexivas até o uso de ferramentas de suporte à decisão clínica. No entanto, a integração dessas estratégias no cotidiano clínico em grande escala tem sido um desafio.
Descobertas
O estudo revelou que, embora o LLM individualmente tenha apresentado um desempenho superior aos dos médicos participantes, o uso do chatbot pelos médicos não resultou em melhoria do raciocínio diagnóstico em casos clínicos desafiadores. Esta descoberta é particularmente significativa, visto que sublinha uma desconexão potencial entre o acesso à ferramenta de IA e a melhoria efetiva nas habilidades diagnósticas dos médicos.
Implicações Práticas
- Treinamento e Uso: A pesquisa sugere que um treinamento mais específico em técnicas de interação com LLMs e uma integração mais efetiva dessas ferramentas nos fluxos de trabalho clínicos podem potencializar seu uso.
- Desenvolvimento de Ferramentas: A capacidade do LLM de superar o desempenho diagnóstico humano indica a necessidade de desenvolver interfaces que melhor canalizem suas capacidades no suporte ao diagnóstico médico.
- Revisão de Estratégias Educacionais: Com a chegada de tecnologias disruptivas, há uma necessidade crescente de revisão dos currículos médicos para incluir o treinamento em novas tecnologias, como os LLMs.
Considerações Futuras
A pesquisa destacou a necessidade de futuros estudos com amostras maiores para avaliar o tempo gasto no raciocínio diagnóstico, mostrando que o treinamento em práticas de formulação de perguntas pode ser crucial. Organizações poderiam investir em protocolos de formulação de perguntas pré-definidos para suportar decisões diagnósticas, integrando essas ferramentas de maneira mais sinérgica com as práticas clínicas.
A performance isoladamente superior do LLM sublinha a necessidade de avanços nas interações humano-computador para realizar o potencial da IA nos sistemas de apoio à decisão clínica. Estas descobertas apontam para uma reflexão necessária sobre como as ferramentas de IA são integradas na prática médica, garantindo que complementem e ampliem efetivamente o raciocínio clínico humano.
👉🏻 Para acessar o estudo na íntegra, clique aqui.
Referência:
Goh E, Gallo R, Hom J, et al. Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial. JAMA Netw Open. 2024;7(10):e2440969. doi:10.1001/jamanetworkopen.2024.40969