VOLTAR

Análise de uso e performance do ChatGPT na área médica

Academia Médicaabr. 3 - 6 min de leitura

O Chat-GPT 4 é a nova versão do Chat-GPT lançada em março de 2023, que tem como premissa o uso de inteligência artificial (IA) em forma de chatbot. Para usar o chatbot, inicia-se uma “sessão” inserindo uma consulta — geralmente referida e reconhecida pela IA como “prompt” — um comando na linguagem de programação. O prompt pode ser em forma de questão e em forma de comando de tarefa, como: "faça um resumo deste artigo científico". Dessa maneira, o Chat-GPT funciona como uma conversa entre duas pessoas, com perguntas e respostas.

Um estudo publicado pelo New England Journal of Medicine usou o Chat-GPT e analisou sua performance em três situações diferentes. A primeira envolve uma tarefa de anotação médica, o segundo mostra o desempenho do GPT-4 em um problema típico do Exame de Licenciamento Médico dos EUA (USMLE) e o terceiro apresenta uma pergunta típica de “consulta na beira do lado” que um médico pode fazer a um colega ao procurar aconselhamento. Os testes foram executados na versão pré-lançamento da versão do GPT-4, em dezembro de 2022.

A primeira tarefa tinha como objetivo avaliar a capacidade da ferramenta de desenvolver a escrita de uma anotação médica baseada na transcrição de uma consulta médica. Neste exemplo, o GPT-4 recebeu a interação médico-paciente, ou seja, as vozes do médico e do paciente, e depois produziu uma "nota médica" para o registro no prontuário do paciente. O GPT-4 pode produzir notas em vários formatos conhecidos - como SOAP (subjetivo, objetivo, avaliação e plano) - e pode incluir códigos de cobrança apropriados automaticamente.

Além da nota, o GPT-4 pode ser solicitado a responder a perguntas sobre o encontro, extrair informações de autorização prévia, gerar pedidos de laboratório e prescrição que estejam em conformidade com os padrões Health Level Seven Fast Healthcare Interoperability Resources, escrever resumos pós-visita e fornecer feedback crítico ao clínico e ao paciente. Nesse exemplo, o sistema cometeu erros ao resumir a conversa entre uma paciente com transtornos alimentares e o médico. A IA calculou o IMC da paciente, mesmo sem as medidas de peso e de altura da paciente, e não mostrou quais parâmetros utilizou para fazer o cálculo.

Entretanto, quando os pesquisadores pediram para o chat revisar e buscar erros no que tinha resumido, a IA identificou os erros, conhecidos como alucinações. Essas são respostas falsas que podem ser particularmente perigosas em contextos médicos, uma vez que possam ser escritos de forma convincente.

No segundo teste, com as perguntas do USMLE, o ChatGPT foi capaz de obter 90% de acerto em todas as questões enviadas a ele. Nessa simulação, o GPT-4 explicou seu raciocínio, se referiu a fatos médicos conhecidos, observou relações causais, descartou outras respostas propostas e forneceu uma justificativa convincente para sua resposta da questão enviada.

Quando simulado com perguntas típicas de consulta à beira leito, informações sobre a apresentação inicial de um paciente ou um resumo dos resultados dos testes laboratoriais, o GPT-4 geralmente fornece respostas úteis que podem ajudar o profissional de saúde que fez a consulta a resolver o problema de preocupação do paciente. Esse conhecimento de Medicina torna o GPT-4 potencialmente útil não apenas em ambientes clínicos, mas também em pesquisa. O GPT-4 pode ler material de pesquisa médica e se envolver em discussões informadas sobre ele, como resumir brevemente o conteúdo, fornecer análise técnica, identificar trabalhos anteriores relevantes, avaliar as conclusões e fazer possíveis perguntas de pesquisa de acompanhamento.

Além do chat GPT, a Microsoft Research, juntamente com a OpenAI, tem estudado os possíveis usos do GPT-4 em cuidados de saúde e aplicações médicas nos últimos seis meses para entender melhor suas capacidades fundamentais, limitações e riscos para a saúde humana. Áreas específicas incluem aplicações em documentação médica e de saúde, interoperabilidade de dados, diagnóstico, pesquisa e educação.

Vários outros chatbots de IA notáveis também foram estudados para aplicações médicas. Dois dos mais notáveis são LaMDA (Google)7 e GPT-3.5,8, o sistema antecessor do GPT-4. Curiosamente, LaMDA, GPT-3.5 e GPT-4 não foram treinados especificamente para cuidados de saúde ou aplicações médicas, já que o objetivo de seus regimes de treinamento tem sido a obtenção de capacidade cognitiva de uso geral.

Assim, esses sistemas foram treinados inteiramente em dados obtidos de fontes abertas na internet, como textos médicos abertamente disponíveis, trabalhos de pesquisa, sites do sistema de saúde e podcasts e vídeos de informações de saúde abertamente disponíveis. O que não está incluído nos dados de treinamento são quaisquer dados restritos privadamente, como aqueles encontrados em um sistema de registro eletrônico de saúde em uma organização de saúde, ou qualquer informação médica que exista apenas na rede privada de uma faculdade de Medicina ou outra organização semelhante. E, no entanto, esses sistemas mostram diferentes graus de competência em aplicações médicas.

Além dessas limitações, os autores do artigo também citam barreiras que precisam ser vencidas para a utilização dessa ferramenta com mais segurança no meio médico, como: a confiabilidade das respostas do chat e como avaliar propriamente a ferramenta. Apesar disso, os autores acreditam que a ferramenta será cada vez mais utilizada por médicos e pacientes e que essa será a realidade do futuro.

Referência:

LEE, Peter; BUBECK, Sebastien; PETRO, Joseph. Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine. New England Journal Of Medicine, [S.L.], v. 388, n. 13, p. 1233-1239, 30 mar. 2023. Massachusetts Medical Society. http://dx.doi.org/10.1056/nejmsr2214184.

Leia também:

Academia Médica

Redação, Academia Medica

Denunciar publicação

Denunciar conteúdo impróprio

Por favor, preencha as informações a seguir para recebermos a sua notificação

Por que este conteúdo é impróprio?

Ops! Algo deu errado...