Novos estudos mostram que ChatGPT 4 está superando especialistas
O ChatGPT, desenvolvido pela OpenAI, vem se tornando uma referência em inovação na inteligência artificial generativa (IA), através de seu modelo recente, o GPT-4. Atualmente, sobretudo na área de medicina, pesquisas extensas estão sendo conduzidas em vários campos do conhecimento, incluindo doenças cardiovasculares e neurocirurgia, usando com sucesso essa quarta versão da ferramenta.
Na Turquia, por exemplo, uma pesquisa do Departamento de Emergência da Hitit Universidade, avaliou a precisão diagnóstica do GPT-4 em relação a informações do Eletrocardiograma (ECG), comparando seu desempenho com o de especialistas em medicina de emergência e cardiologistas. No estudo, um total de 40 casos de ECG foram elaborados em questões de múltipla escolha — compreendendo 20 questões cotidianas e 20 mais desafiadoras.
O grupo de participantes incluiu 12 especialistas em medicina de emergência e 12 especialistas em cardiologia. Nas questões cotidianas de ECG, o GPT-4 demonstrou desempenho superior em comparação aos especialistas em medicina de emergência e aos especialistas em cardiologia. Nas abordagens mais desafiadoras, enquanto o ChatGPT superou os especialistas em medicina de emergência, nenhuma diferença estatística significativa foi encontrada entre o ChatGPT e os especialistas em cardiologia. Ao examinar a precisão das questões totais de ECG, o ChatGPT foi considerado mais bem-sucedido, em comparação aos especialistas em medicina de emergência e aos cardiologistas.
Noutro trabalho, que envolveu diversas instituições, entre elas a Universidade do Sul da Califórnia, a ferramenta exibiu uma performance excepcional em se tratando de exames padronizados. A pesquisa examinou a competência do GPT-4 em questões do tipo conselho neurocirúrgico, comparando seu desempenho com estudantes de medicina e residentes, para explorar seu potencial na educação médica e na tomada de decisões clínicas. O desempenho do GPT-4 foi observado em 643 questões, percorrendo várias subespecialidades e utilizando o Exame de Autoavaliação de Neurocirurgia (SANS). Destas, 477 eram baseadas em texto e 166 continham imagens. O GPT-4 se recusou a responder 52 questões que não possuíam texto. As 591 questões restantes foram inseridas no GPT-4, e seu desempenho foi analisado com base em respostas pela primeira vez.
O GPT-4 tentou 91,9% das questões do SANS e obteve 76,6% de precisão. A acurácia do modelo aumentou para 79%, quando se trata das questões somente de texto. Ele superou o desempenho de estudantes de medicina (26,3%), residentes de neurocirurgia (61,5%) e a média nacional de usuários do SANS (69,3%), em todas as categorias.
Para o professor da Universidade de Brasília (UnB) e pesquisador na área de inovação tecnológica, Dr. Paulo Henrique de Souza Bermejo, antes assunto de ficção científica, a IA agora é parte da nossa vida diária — muitas vezes sem que pensemos nisso. “Todos os profissionais, o que inclui aqueles do setor de saúde, ganham muito em entender as capacidades de ferramentas avançadas de IA e outras inovações, pois é essa compreensão que permitirá a eles reconhecerem oportunidades e ameaças que as tecnologias emergentes podem trazer”, contou.
Conforme o docente, hoje a IA já se faz presente em prontuários médicos, programas preventivos, consultas, triagem e intervenção, entre outras esferas da área, e a expectativa é que atinjam um nível de maturidade que em breve impactará a medicina como um todo, aprimorando quase que totalmente a prestação de cuidados em saúde. Vale mencionar, porém, como destacado pelo professor Bermejo, que os aspectos humanos do atendimento, a exemplo de empatia, compaixão e pensamento crítico, permanecem fundamentais, bem como a tomada de decisões complexas está intrinsecamente ligada aos profissionais. “Tal tecnologia apresenta muitas limitações e não pode substituir o contato direto entre um médico experiente e um paciente, mesmo para as consultas aparentemente mais simples, sem falar nos aspectos éticos e legais da responsabilidade pelo diagnóstico. Ela é adequada como uma ferramenta de suporte, não uma solução completa, assim, o trabalho e informações que fornece devem ser verificados”, explicou.
Questões essenciais ou uma complexa relação
As aplicações da IA em educação, pesquisa e assistência médica podem realmente ser muito promissoras se as questões envolvidas forem exploradas e abordadas proativamente, como afirmou o professor. Ele enfatizou que poucos setores são tão ricos em dados e texto quanto a assistência médica. Além dessas características, existe uma necessidade de conhecimento por parte de ambos os lados: os pacientes querem ser mais bem informados a respeito de sua condição, e as equipes clínicas buscam estar mais atualizadas, sobretudo para melhor esclarecê-los sobre a assistência que prestam. Nesse contexto, a IA pode fornecer um conteúdo abrangente, que permita o aconselhamento médico, bem como informações de várias fontes para melhor atender e educar os pacientes sobre seus quadros ou sintomas.
O pesquisador acrescentou que a introdução da inteligência artificial leva a uma complexa relação entre médico, paciente e IA. Por isso, torna-se essencial deliberar acerca da implantação ética e segura dessas ferramentas progressivamente inteligentes. Os tópicos mais relevantes para a saúde, como endossado pelo professor, referem-se à privacidade e segurança. “Ao usar o ChatGPT, os usuários fornecem dados e isso tem implicações de privacidade. É importante garantir a confidencialidade dessas informações, antes que o ChatGPT possa ser amplamente utilizado. Além disso, a implantação dele deve ser criteriosa, com decisões consolidadas pela expertise dos profissionais de saúde”, assinalou.
Em essência, a IA promete melhorar significativamente a prestação de serviços na área e espera-se que incentive mudanças de fato transformadoras, semelhantes ao impacto trazido pela Internet à indústria. Noutra perspectiva, o professor Bermejo afirmou que inclusive o GPT-4 pode em breve ser eclipsado por entidades de IA mais especializadas em setores específicos. Na área de saúde, por exemplo, há um vasto número de modelos especializados, tais como MedPaLM, fabricado pela Google DeepMind, que tem como finalidade responder perguntas médicas e realizar tarefas clínicas como diagnóstico assistido e suporte em telemedicina; BioGPT, da Microsoft, com o objetivo de compreender e analisar literatura científica biomédica, incluindo sumarização de artigos e suporte à pesquisa; PubMedGPT, treinado em dados do PubMed, utilizado para análise de artigos científicos na área de biomedicina e saúde, focado em pesquisa e extração de informações; ClinicalBERT, fabricado pela Google Research, com o propósito de analisar registros eletrônicos de saúde (EHRs), prever diagnósticos e sumarizar prontuários clínicos; GatorTron, desenvolvido pela University of Florida Health, que processa e analisa textos médicos e informações clínicas a partir de registros médicos; CODEx, da IBM Research, com a premissa de extrair e classificar dados clínicos e médicos através de registros de saúde; e nSpaCy (Clinical NLP Pipeline), da equipe SpaCy, que processa linguagem natural em textos médicos, como prontuários e relatórios clínicos, com foco em sumarização e classificação.