Cette recherche en IA propose DISC-MedLLM une solution complète qui exploite les grands modèles de langage (LLMs) pour fournir des réponses médicales précises.

Cette recherche en IA propose DISC-MedLLM, une solution complète utilisant des LLMs pour des réponses médicales précises.

L’avènement de la télémédecine a changé la manière dont les soins de santé sont dispensés, ouvrant des réseaux professionnels, réduisant les prix et permettant des consultations médicales à distance. De plus, les systèmes médicaux intelligents ont amélioré les services médicaux en ligne en ajoutant des fonctionnalités telles que l’extraction d’informations médicales, les recommandations de médicaments, le diagnostic automatisé et les réponses aux questions de santé. Bien qu’il y ait eu des progrès dans la construction de systèmes de soins de santé intelligents, les recherches antérieures se sont concentrées sur des problèmes particuliers ou des maladies avec des applications limitées, laissant un écart entre les développements expérimentaux et l’utilisation réelle. Pour combler cet écart, des solutions complètes pour une plus large gamme de scénarios médicaux et des services de soins de santé conversationnels de bout en bout de la plus haute qualité pour les consommateurs sont nécessaires. 

Récemment, les grands modèles de langue ont démontré une capacité étonnante à converser de manière significative et à suivre les instructions des humains. Ces avancées ont créé de nouvelles opportunités pour le développement de systèmes de consultation médicale. Cependant, les circonstances liées aux consultations médicales sont généralement complexes et dépassent le cadre des modèles de langue de grande envergure de la zone générale. La Figure 1 illustre une consultation médicale réelle. Elle présente deux qualités. Tout d’abord, il faut des connaissances médicales approfondies et fiables pour comprendre la conversation et y répondre de manière appropriée à chaque étape. Les modèles de domaine général fournissent des sorties sans rapport avec le cas particulier, exposant ainsi de graves problèmes de distorsion. 

Deuxièmement, il faut souvent plusieurs tours de discussion pour obtenir suffisamment d’informations sur le patient afin de fournir une consultation médicale, et chaque tour de conversation a un objectif défini. Cependant, les modèles de domaine général ont souvent des compétences limitées en matière de requêtes multi-tours sur les détails de l’état de santé de l’utilisateur et sont des agents à réponse unique. Sur la base de ces deux constatations, des chercheurs de l’Université Fudan, de l’Université polytechnique du Nord-Ouest et de l’Université de Toronto soutiennent que les modèles de langue médicale doivent coder des connaissances médicales approfondies et fiables tout en respectant la distribution des conversations médicales réelles. Inspirés par le succès de l’ajustement des instructions, ils étudient comment construire des ensembles de données de réglage fin supervisé de haute qualité pour l’entraînement des modèles de langue médicaux et inclure des connaissances en médecine et des modèles de comportement de consultation.

Dans la pratique, ils créent des échantillons en utilisant trois méthodes différentes :

• Le développement d’échantillons basés sur des graphes de connaissances médicales. En suivant une distribution de requêtes de patients collectées à partir d’un ensemble de données de consultations réelles, ils sélectionnent des triplets de connaissances à partir d’un réseau de connaissances médicales en utilisant une approche axée sur le département. GPT-3.5 est utilisé pour créer en quelques coups des paires de questions-réponses pour chaque triplet. Il en résulte 50 000 échantillons. 

• La reconstruction d’un dialogue réel. Pour améliorer les modèles de langue, les enregistrements de consultations recueillis à partir de forums médicaux sont des sources appropriées. Le langage utilisé dans ces documents est informel, la terminologie est présentée de manière incohérente et les différents praticiens de santé ont des styles expressifs variés. Par conséquent, ils utilisent GPT-3.5 pour recréer la discussion à partir de cas réels. Il en résulte 420 000 échantillons. 

• Après la collecte des échantillons, préférence humaine. Ils choisissent manuellement un groupe limité d’entrées à partir des enregistrements réels de discussions médicales couvrant différents contextes de consultation et réécrivent certains exemples pour les aligner sur l’intention humaine. Ils garantissent également la qualité globale de chaque discussion après la reconstruction guidée par l’humain. Il en résulte 2 000 échantillons. DISC-MedLLM est ensuite entraîné en utilisant les ensembles de données de réglage fin supervisé nouvellement créés en utilisant un processus d’entraînement en deux étapes sur un modèle de langue chinois de domaine général avec 13 milliards de paramètres. Ils évaluent les performances du modèle sous deux angles pour déterminer sa capacité à offrir des consultations systématiques dans des discussions multi-tours et des réponses précises dans des dialogues à réponse unique. 

Figure 1 : Un exemple de conversation entre un patient et un vrai médecin. Les entités médicales mentionnées dans la réponse du médecin sont indiquées par le texte surligné en bleu. À chaque tour, les actions du médecin montrent des intentions particulières : (1) au tour 1, des recherches supplémentaires sont effectuées pour recueillir des données qui aident à identifier des scénarios potentiels ; (2) au tour 2, un diagnostic préliminaire est établi et des suggestions pertinentes sont faites ; (3) au tour 3, des choix de traitement spécifiques sont présentés en fonction de l’état médical.

Ils construisent un référentiel de questions à choix multiples recueillies à partir de trois ensembles de données médicales publiques et évaluent l’exactitude du modèle à l’aide de ce référentiel pour une évaluation en un seul tour. Pour une revue multi-tours, ils créent d’abord une petite collection de cas de consultation excellents en utilisant GPT-3.5 pour simuler un patient et converser avec le modèle. Ils évaluent la proactivité, l’exactitude, l’utilité et la qualité linguistique du modèle en utilisant GPT-4. Les résultats expérimentaux montrent que, bien qu’étant inférieur à GPT-3.5, DISCMedLLM bat le HuatuoGPT médical à grande échelle avec des paramètres identiques en moyenne de plus de 10%.

De plus, DISC-MedLLM fonctionne mieux dans l’ensemble des paramètres dans des environnements de consultation médicale simulés que les modèles de référence tels que GPT-3.5, HuatuoGPT et BianQue. DISC-MedLLM surpasse les autres LLM médicaux chinois, en particulier dans les cas impliquant des départements médicaux et les intentions des patients.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more