Adaptation de domaine d’un grand modèle de langage

Adaptation de domaine d'un modèle de langage de renommée mondiale

Adapter un modèle pré-entraîné à un nouveau domaine en utilisant HuggingFace

Image de Unsplash

Les modèles de langage de grande taille (LLM) comme BERT sont généralement pré-entraînés sur des corpus de domaine général tels que Wikipedia et BookCorpus. Lorsque nous les utilisons sur des domaines plus spécialisés comme le médical, il y a souvent une diminution des performances par rapport aux modèles adaptés à ces domaines.

Dans cet article, nous explorerons comment adapter un LLM pré-entraîné comme Deberta base au domaine médical en utilisant la bibliothèque HuggingFace Transformers. Plus précisément, nous couvrirons une technique efficace appelée pré-entraînement intermédiaire où nous effectuons un pré-entraînement supplémentaire du LLM sur des données de notre domaine cible. Cela permet d’adapter le modèle au nouveau domaine et d’améliorer ses performances.

Il s’agit d’une technique simple mais efficace pour régler les LLM sur votre domaine et obtenir des améliorations significatives des performances de la tâche finale.

Commençons.

Étape 1: Les Données

La première étape de tout projet consiste à préparer les données. Comme notre ensemble de données se situe dans le domaine médical, il contient les champs suivants, et bien d’autres encore:

image de l'auteur

Il est impossible de mettre ici la liste complète des champs, car il y en a beaucoup. Mais même ce bref aperçu des champs existants nous aide à former la séquence d’entrée pour un LLM.

Le premier point à garder à l’esprit est que l’entrée doit être une séquence car les LLM lisent l’entrée sous forme de séquences de texte.

Pour former cette séquence, nous pouvons injecter des balises spéciales pour indiquer au LLM quelle information vient ensuite. Considérez l’exemple suivant: <patient>nom: John, nom de famille: Doer, identifiant du patient: 1234, âge: 34</patient>, la balise <patient> est une balise spéciale qui indique au LLM que ce qui suit est des informations sur un patient.

Nous formons donc la séquence d’entrée comme suit:

Image de l'auteur

Comme vous le voyez, nous avons injecté quatre balises:

  1. <patient> </patient>: pour contenir…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Apprentissage automatique

Google AI présente les plugins de diffusion MediaPipe qui permettent la génération de texte vers image contrôlable sur l'appareil.

Les modèles de diffusion ont été largement utilisés avec un succès remarquable dans la génération de texte vers image...

AI

Les centres de données pourraient fonctionner de manière aussi efficace avec moins de refroidissement.

Les chercheurs ont découvert que l'augmentation de la température des centres de données pourrait réduire considérabl...

AI

Comprenez vos données en temps réel

Dans cet article de blog, nous aborderons comment vous pouvez combiner et exploiter la solution de streaming open-sou...