Adaptation de domaine d’un grand modèle de langage

Adaptation de domaine d'un modèle de langage de renommée mondiale

Adapter un modèle pré-entraîné à un nouveau domaine en utilisant HuggingFace

Les modèles de langage de grande taille (LLM) comme BERT sont généralement pré-entraînés sur des corpus de domaine général tels que Wikipedia et BookCorpus. Lorsque nous les utilisons sur des domaines plus spécialisés comme le médical, il y a souvent une diminution des performances par rapport aux modèles adaptés à ces domaines.

Dans cet article, nous explorerons comment adapter un LLM pré-entraîné comme Deberta base au domaine médical en utilisant la bibliothèque HuggingFace Transformers. Plus précisément, nous couvrirons une technique efficace appelée pré-entraînement intermédiaire où nous effectuons un pré-entraînement supplémentaire du LLM sur des données de notre domaine cible. Cela permet d’adapter le modèle au nouveau domaine et d’améliorer ses performances.

Il s’agit d’une technique simple mais efficace pour régler les LLM sur votre domaine et obtenir des améliorations significatives des performances de la tâche finale.

Commençons.

Étape 1: Les Données

La première étape de tout projet consiste à préparer les données. Comme notre ensemble de données se situe dans le domaine médical, il contient les champs suivants, et bien d’autres encore:

Il est impossible de mettre ici la liste complète des champs, car il y en a beaucoup. Mais même ce bref aperçu des champs existants nous aide à former la séquence d’entrée pour un LLM.

Le premier point à garder à l’esprit est que l’entrée doit être une séquence car les LLM lisent l’entrée sous forme de séquences de texte.

Pour former cette séquence, nous pouvons injecter des balises spéciales pour indiquer au LLM quelle information vient ensuite. Considérez l’exemple suivant: <patient>nom: John, nom de famille: Doer, identifiant du patient: 1234, âge: 34</patient>, la balise <patient> est une balise spéciale qui indique au LLM que ce qui suit est des informations sur un patient.

Nous formons donc la séquence d’entrée comme suit:

Comme vous le voyez, nous avons injecté quatre balises:

<patient> </patient>: pour contenir…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Adaptation de domaine d’un grand modèle de langage

Adaptation de domaine d'un modèle de langage de renommée mondiale

Adapter un modèle pré-entraîné à un nouveau domaine en utilisant HuggingFace

Étape 1: Les Données

Was this article helpful?

Construisez une meilleure chaussure de course (ou tout autre produit) pour 1 $ avec l’IA générative

Incorporations + Graphes de connaissances Les outils ultimes pour les systèmes RAG

AI

Google AI présente les plugins de diffusion MediaPipe qui permettent la génération de texte vers image contrôlable sur l'appareil.

Les centres de données pourraient fonctionner de manière aussi efficace avec moins de refroidissement.

Comprenez vos données en temps réel

Découvrez DreamTeacher un cadre d'apprentissage de représentation des caractéristiques auto-supervisé qui utilise des réseaux génératifs pour la préformation des structures d'image aval.

Les chercheurs de Cornell découvrent des informations sur les indicateurs du modèle de langage une plongée profonde dans la manière dont les probabilités des prochains jetons peuvent révéler du texte caché.

Les chercheurs de la CMU présentent FROMAGe un modèle d'IA qui permet de démarrer efficacement des modèles de langage figés (LLMs) pour générer du texte libre entrelacé avec des images.