Combler le fossé entre les cliniciens et les modèles linguistiques dans le domaine de la santé Découvrez MedAlign, un ensemble de données généré par les cliniciens pour suivre les instructions des dossiers médicaux électroniques.

Combler le fossé entre les cliniciens et les modèles linguistiques dans le domaine de la santé avec MedAlign, un ensemble de données généré par les cliniciens pour suivre les instructions des dossiers médicaux électroniques.

Les grands modèles de langage (LLM) ont utilisé les capacités du traitement du langage naturel de manière exceptionnelle. De la production de langage et du raisonnement à la compréhension de la lecture, les LLM peuvent tout faire. Le potentiel de ces modèles pour aider les médecins dans leur travail a attiré l’attention dans plusieurs disciplines, notamment la santé. Les récents LLM, tels que Med-PaLM et GPT-4, ont prouvé leur efficacité dans des tâches impliquant la réponse à des questions médicales, notamment celles impliquant des bases de données médicales et des examens.

Une limitation constante a été la difficulté de déterminer si les performances exceptionnelles des LLM dans des tests contrôlés se traduisent dans des contextes cliniques réels. Les cliniciens effectuent diverses tâches liées à l’information dans l’industrie de la santé, et ces emplois nécessitent souvent des données complexes et non structurées provenant des dossiers de santé électroniques (DSE). La complexité et les subtilités avec lesquelles les praticiens de la santé doivent composer ne sont pas bien représentées dans les ensembles de données de questions-réponses pour les données des DSE actuellement disponibles. Lorsque les médecins comptent sur les LLM pour les aider, ils manquent de la nuance nécessaire pour évaluer dans quelle mesure ces modèles peuvent fournir des réponses précises et conscientes du contexte.

Pour surmonter ces limitations, une équipe de chercheurs a développé MedAlign, un ensemble de données de référence comprenant un total de 983 questions et instructions soumises par 15 médecins praticiens spécialisés dans 7 spécialités médicales différentes. MedAlign se concentre sur les paires d’instructions-réponses basées sur les DSE plutôt que sur les simples paires de questions-réponses, ce qui le distingue des autres ensembles de données. L’équipe a inclus des réponses de référence rédigées par des cliniciens pour 303 de ces instructions et les a reliées à des données de DSE pour offrir un contexte et une base pour les demandes. Chaque clinicien a évalué et classé les réponses produites par six LLM différents sur ces 303 instructions afin de confirmer la fiabilité et la qualité de l’ensemble de données.

Les cliniciens ont également fourni leurs propres solutions de référence. En rassemblant un ensemble de données comprenant des instructions fournies par des cliniciens, des évaluations d’experts des réponses générées par les LLM et le contexte des DSE correspondant, MedAlign a réalisé une entreprise novatrice. Cet ensemble de données se distingue des autres car il fournit un outil utile pour évaluer le fonctionnement des LLM dans des situations cliniques.

La deuxième contribution démontre la viabilité d’une méthode automatisée basée sur la récupération pour faire correspondre les dossiers de santé électroniques pertinents des patients avec des instructions cliniques. Pour ce faire, l’équipe a créé une procédure qui rendrait la demande d’instructions aux cliniciens plus efficace et évolutive. Ils pourraient solliciter des contributions auprès d’un ensemble plus large et plus varié de cliniciens en isolant cette méthode de sollicitation d’instructions.

Ils ont même évalué la qualité de la correspondance automatisée entre les instructions et les DSE pertinents. Les résultats ont révélé que, par rapport à des appariements aléatoires d’instructions avec des DSE, cette procédure de correspondance automatisée fournissait avec succès des appariements pertinents dans 74% des situations. Ce résultat met en évidence les possibilités offertes par l’automatisation pour améliorer l’efficacité et la précision de la connexion des données cliniques.

La dernière contribution examine la relation entre les paramètres automatisés de génération de langage naturel (NLG) et les évaluations des réponses générées par les LLM par les médecins. Cette étude vise à déterminer si des mesures automatisées et évolutives peuvent être utilisées pour classer les réponses des LLM à la place des évaluations des cliniciens professionnels. L’équipe vise à réduire la nécessité pour les médecins d’identifier et de noter manuellement les réponses des LLM dans les futures études en mesurant le degré de concordance entre les classements des experts humains et les critères automatisés. La création et l’amélioration des LLM pour les applications de santé peuvent être accélérées grâce à cette initiative visant à rendre le processus de révision plus efficace et moins dépendant des ressources humaines.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Distillons ce que nous savons

Les chercheurs cherchent à réduire la taille des grands modèles GPT.

AI

Affinage de LLaMA sur des articles médicaux Découvrez le modèle PMC-LLaMA-A qui atteint des performances élevées sur les référentiels de questions-réponses biomédicales.

Le développement de grands modèles de langage (LLM), comme le ChatGPT d’OpenAI et le GPT-4, a transformé l̵...

AI

Les chercheurs du MIT utilisent l'apprentissage profond et la physique pour corriger les images par résonance magnétique (IRM) corrompues par le mouvement.

Une IRM (imagerie par résonance magnétique) est un test qui crée des images claires des structures à l’intérieu...

AI

Rendre la vie plus conviviale avec des robots personnels

Sharifa Alghowinem, une chercheuse scientifique au Media Lab, explore la technologie des robots personnels qui expliq...

AI

NVIDIA alimente la formation de certains des plus grands modèles de la Fondation Amazon Titan

Tout ce qui concerne les grands modèles de langage est grand – les modèles géants s’entraînent sur des en...