Dans une étude récente publiée sur le serveur de prétirage medRxiv*, les chercheurs ont systématiquement évalué les capacités et les limites des modèles de langage étendus (LLM), en particulier ChatGPT, pour la synthèse des preuves médicales à coup sûr.
Étude: Évaluation des grands modèles de langage dans les résumés de preuves médicales. Crédit image : Piscine26/Shutterstock.com
*Nouvelles importantes: medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et ne doivent donc pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.
Arrière-plan
La recherche de résumés de texte s’est appuyée sur des modèles ajustés pré-formés comme approche principale. Cependant, ces modèles nécessitent souvent de grands ensembles de données de formation, qui peuvent ne pas être accessibles dans certains domaines, tels que la littérature médicale.
Les modèles de langage long (LLM) ont déclenché un changement dans la recherche sur le traitement du langage naturel (NLP) en raison de leur récent succès avec zéro et peu de signaux de déclenchement.
Les modèles basés sur des invites sont prometteurs pour la synthèse des preuves médicales en permettant au modèle de résumer sans mettre à jour les paramètres simplement en suivant les instructions humaines. Cependant, aucune recherche n’a été effectuée pour résumer et évaluer les preuves médicales.
À propos de l’étude
Dans la présente étude, les chercheurs ont évalué l’efficacité des LLM, tels que ChatGPT et GPT-3.5, pour résumer les preuves médicales dans six domaines cliniques. Les capacités et les limites de ces modèles sont systématiquement examinées.
L’étude a utilisé des revues Cochrane de la bibliothèque Cochrane et s’est concentrée sur six domaines cliniques : la maladie d’Alzheimer, le cancer de l’œsophage, les maladies rénales, les troubles cutanés, les affections neurologiques et l’insuffisance cardiaque. L’équipe a compilé les dix avis les plus récents publiés pour ces six domaines.
Les experts du domaine ont vérifié les avis pour s’assurer qu’ils répondaient aux objectifs de recherche importants. L’étude s’est concentrée sur le résumé d’un seul document, en particulier les résumés obtenus à partir des revues Cochrane.
Les performances de l’analyse zéro par rapport au résumé des preuves médicales ont été évaluées à l’aide de deux modèles, GPT-3.5 et ChatGPT. Deux montages expérimentaux ont été conçus pour évaluer les capacités des modèles.
Les modèles ont été fournis avec un résumé complet à l’exception des conclusions de l’auteur (ChatGPTAbstract) lors de la configuration initiale. Deux modèles, ChatGPT-MainResult et GPT3.5-MainResult, ont reçu les sections Objectifs et Résultats principaux du résumé en entrée dans la deuxième configuration.
Le document principal sur les résultats a été sélectionné parce qu’il contient des conclusions importantes sur les avantages et les inconvénients. Il a également résumé comment le risque de biais affecte la conduite, la conception des essais et les rapports.
La qualité des résumés générés a été évaluée à l’aide de plusieurs mesures automatisées, telles que ROUGE-L, METEOR et BLEU, par rapport à un résumé de référence. Les valeurs des résumés générés ont été notées sur une échelle de 0,0 à 1,0, où un score de 1,0 suggérait que les résumés générés correspondaient au résumé de référence.
Les résumés générés par le modèle ont fait l’objet d’une évaluation humaine approfondie qui a dépassé les limites des mesures automatisées. L’évaluation a identifié quatre dimensions pour définir la qualité du résumé : la cohérence, la cohérence factuelle, l’exhaustivité et la nocivité.
Une échelle de Likert en 5 points a été utilisée pour évaluer chaque dimension. Les participants ont été invités à expliquer dans une zone de texte correspondant à chaque dimension si le résumé avait obtenu une note faible. Les participants ont été invités à évaluer la qualité des résumés et à partager ceux qu’ils préféraient le plus et le moins, ainsi que les raisons de leurs décisions.
Résultats
Des performances similaires ont été observées dans tous les modèles en ce qui concerne les mesures ROUGE-L, METEOR et BLEU. Les résumés générés par LLM étaient moins nouveaux en ce qui concerne les n-grammes et avaient tendance à être plus extractifs que ceux écrits par des humains.
ChatGPT-MainResult a montré une abstraction plus élevée que GPT3.5-MainResult et ChatGPT-Abstract ; cependant, il était encore en deçà de la référence humaine. Environ 50 % des avis ont été rédigés en 2022 et 2023, ce qui ne correspond pas à la période des capacités GPT3.5 et ChatGPT. Aucune variation significative n’a été observée dans les mesures de qualité estimées avant et après 2022.
La configuration ChatGPT-MainResult LLM était la plus préférée car elle produisait les résumés les plus préférés, surpassant les deux autres configurations par une marge significative.
ChatGPTMainResult était l’option préférée en raison de sa capacité à générer un résumé complet qui couvre les détails importants. L’équipe a noté que des données importantes manquantes, des erreurs fabriquées et des interprétations erronées étaient les principales raisons pour lesquelles certains résumés étaient considérés comme l’option la moins préférée.
L’étude a également montré que ChatGPT-MainResult était l’option préférée en raison de ses erreurs minimales d’incohérence des faits et de l’absence de déclarations nuisibles ou trompeuses.
conclusion
Les résultats de l’étude ont révélé que les trois configurations de modèle de ChatGPT-Abstract, ChatGPT-MainResult et GPT3.5-MainResult produisaient des résultats comparables lorsqu’elles étaient évaluées avec des métriques automatisées. Cependant, ces mesures n’ont pas estimé l’incohérence des faits, le potentiel de préjudice médical ou la préférence humaine pour les résumés générés par le LLM.
Les chercheurs pensent que l’évaluation humaine est cruciale pour évaluer l’exactitude et la qualité des résumés de preuves médicales produits par les LLM. Cependant, il existe un besoin pour des méthodes d’évaluation automatique plus efficaces dans ce domaine.
*Nouvelles importantes: medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et ne doivent donc pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.
- Rapport scientifique préliminaire.
Tang, L. et al. (2023) « Évaluation des grands modèles de langage sur le résumé des preuves médicales ». medRxiv. faire: 10.1101/2023.04.22.23288967.