Cette recherche en IA propose DISC-MedLLM une solution complète qui exploite les grands modèles de langage (LLMs) pour fournir des réponses médicales précises.
Cette recherche en IA propose DISC-MedLLM, une solution complète utilisant des LLMs pour des réponses médicales précises.
L’avènement de la télémédecine a changé la manière dont les soins de santé sont dispensés, ouvrant des réseaux professionnels, réduisant les prix et permettant des consultations médicales à distance. De plus, les systèmes médicaux intelligents ont amélioré les services médicaux en ligne en ajoutant des fonctionnalités telles que l’extraction d’informations médicales, les recommandations de médicaments, le diagnostic automatisé et les réponses aux questions de santé. Bien qu’il y ait eu des progrès dans la construction de systèmes de soins de santé intelligents, les recherches antérieures se sont concentrées sur des problèmes particuliers ou des maladies avec des applications limitées, laissant un écart entre les développements expérimentaux et l’utilisation réelle. Pour combler cet écart, des solutions complètes pour une plus large gamme de scénarios médicaux et des services de soins de santé conversationnels de bout en bout de la plus haute qualité pour les consommateurs sont nécessaires.
Récemment, les grands modèles de langue ont démontré une capacité étonnante à converser de manière significative et à suivre les instructions des humains. Ces avancées ont créé de nouvelles opportunités pour le développement de systèmes de consultation médicale. Cependant, les circonstances liées aux consultations médicales sont généralement complexes et dépassent le cadre des modèles de langue de grande envergure de la zone générale. La Figure 1 illustre une consultation médicale réelle. Elle présente deux qualités. Tout d’abord, il faut des connaissances médicales approfondies et fiables pour comprendre la conversation et y répondre de manière appropriée à chaque étape. Les modèles de domaine général fournissent des sorties sans rapport avec le cas particulier, exposant ainsi de graves problèmes de distorsion.
Deuxièmement, il faut souvent plusieurs tours de discussion pour obtenir suffisamment d’informations sur le patient afin de fournir une consultation médicale, et chaque tour de conversation a un objectif défini. Cependant, les modèles de domaine général ont souvent des compétences limitées en matière de requêtes multi-tours sur les détails de l’état de santé de l’utilisateur et sont des agents à réponse unique. Sur la base de ces deux constatations, des chercheurs de l’Université Fudan, de l’Université polytechnique du Nord-Ouest et de l’Université de Toronto soutiennent que les modèles de langue médicale doivent coder des connaissances médicales approfondies et fiables tout en respectant la distribution des conversations médicales réelles. Inspirés par le succès de l’ajustement des instructions, ils étudient comment construire des ensembles de données de réglage fin supervisé de haute qualité pour l’entraînement des modèles de langue médicaux et inclure des connaissances en médecine et des modèles de comportement de consultation.
- Comment les robots peuvent-ils prendre de meilleures décisions ? Les chercheurs du MIT et de Stanford présentent Diffusion-CCSP pour un raisonnement et une planification avancés des robots.
- Rendre la vie plus conviviale avec des robots personnels
- Adept AI Labs rend open source Persimmon-8B un puissant modèle de langage entièrement sous licence permissive avec
Dans la pratique, ils créent des échantillons en utilisant trois méthodes différentes :
• Le développement d’échantillons basés sur des graphes de connaissances médicales. En suivant une distribution de requêtes de patients collectées à partir d’un ensemble de données de consultations réelles, ils sélectionnent des triplets de connaissances à partir d’un réseau de connaissances médicales en utilisant une approche axée sur le département. GPT-3.5 est utilisé pour créer en quelques coups des paires de questions-réponses pour chaque triplet. Il en résulte 50 000 échantillons.
• La reconstruction d’un dialogue réel. Pour améliorer les modèles de langue, les enregistrements de consultations recueillis à partir de forums médicaux sont des sources appropriées. Le langage utilisé dans ces documents est informel, la terminologie est présentée de manière incohérente et les différents praticiens de santé ont des styles expressifs variés. Par conséquent, ils utilisent GPT-3.5 pour recréer la discussion à partir de cas réels. Il en résulte 420 000 échantillons.
• Après la collecte des échantillons, préférence humaine. Ils choisissent manuellement un groupe limité d’entrées à partir des enregistrements réels de discussions médicales couvrant différents contextes de consultation et réécrivent certains exemples pour les aligner sur l’intention humaine. Ils garantissent également la qualité globale de chaque discussion après la reconstruction guidée par l’humain. Il en résulte 2 000 échantillons. DISC-MedLLM est ensuite entraîné en utilisant les ensembles de données de réglage fin supervisé nouvellement créés en utilisant un processus d’entraînement en deux étapes sur un modèle de langue chinois de domaine général avec 13 milliards de paramètres. Ils évaluent les performances du modèle sous deux angles pour déterminer sa capacité à offrir des consultations systématiques dans des discussions multi-tours et des réponses précises dans des dialogues à réponse unique.
Ils construisent un référentiel de questions à choix multiples recueillies à partir de trois ensembles de données médicales publiques et évaluent l’exactitude du modèle à l’aide de ce référentiel pour une évaluation en un seul tour. Pour une revue multi-tours, ils créent d’abord une petite collection de cas de consultation excellents en utilisant GPT-3.5 pour simuler un patient et converser avec le modèle. Ils évaluent la proactivité, l’exactitude, l’utilité et la qualité linguistique du modèle en utilisant GPT-4. Les résultats expérimentaux montrent que, bien qu’étant inférieur à GPT-3.5, DISCMedLLM bat le HuatuoGPT médical à grande échelle avec des paramètres identiques en moyenne de plus de 10%.
De plus, DISC-MedLLM fonctionne mieux dans l’ensemble des paramètres dans des environnements de consultation médicale simulés que les modèles de référence tels que GPT-3.5, HuatuoGPT et BianQue. DISC-MedLLM surpasse les autres LLM médicaux chinois, en particulier dans les cas impliquant des départements médicaux et les intentions des patients.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Découvrez Falcon 180B le plus grand modèle de langage ouvertement disponible avec 180 milliards de paramètres.
- Comment créer un système de notation Elo basé sur les données pour les jeux en 2 contre 2
- Un guide sur les concepts fondamentaux dont vous avez besoin pour commencer à effectuer des tests statistiques
- Comment pouvons-nous mesurer l’incertitude dans les champs de radiance neuronaux ? Présentation de BayesRays un cadre révolutionnaire post-hoc pour les NeRFs
- Commencer avec SQL en 5 étapes
- Combler le fossé entre les cliniciens et les modèles linguistiques dans le domaine de la santé Découvrez MedAlign, un ensemble de données généré par les cliniciens pour suivre les instructions des dossiers médicaux électroniques.
- Des chercheurs de Microsoft introduisent Hydra-RLHF une solution à mémoire efficace pour l’apprentissage par renforcement avec rétroaction humaine.