Adaptation de domaine d’un grand modèle de langage

Adaptation de domaine d'un modèle de langage de renommée mondiale

Adapter un modèle pré-entraîné à un nouveau domaine en utilisant HuggingFace

Image de Unsplash

Les modèles de langage de grande taille (LLM) comme BERT sont généralement pré-entraînés sur des corpus de domaine général tels que Wikipedia et BookCorpus. Lorsque nous les utilisons sur des domaines plus spécialisés comme le médical, il y a souvent une diminution des performances par rapport aux modèles adaptés à ces domaines.

Dans cet article, nous explorerons comment adapter un LLM pré-entraîné comme Deberta base au domaine médical en utilisant la bibliothèque HuggingFace Transformers. Plus précisément, nous couvrirons une technique efficace appelée pré-entraînement intermédiaire où nous effectuons un pré-entraînement supplémentaire du LLM sur des données de notre domaine cible. Cela permet d’adapter le modèle au nouveau domaine et d’améliorer ses performances.

Il s’agit d’une technique simple mais efficace pour régler les LLM sur votre domaine et obtenir des améliorations significatives des performances de la tâche finale.

Commençons.

Étape 1: Les Données

La première étape de tout projet consiste à préparer les données. Comme notre ensemble de données se situe dans le domaine médical, il contient les champs suivants, et bien d’autres encore:

image de l'auteur

Il est impossible de mettre ici la liste complète des champs, car il y en a beaucoup. Mais même ce bref aperçu des champs existants nous aide à former la séquence d’entrée pour un LLM.

Le premier point à garder à l’esprit est que l’entrée doit être une séquence car les LLM lisent l’entrée sous forme de séquences de texte.

Pour former cette séquence, nous pouvons injecter des balises spéciales pour indiquer au LLM quelle information vient ensuite. Considérez l’exemple suivant: <patient>nom: John, nom de famille: Doer, identifiant du patient: 1234, âge: 34</patient>, la balise <patient> est une balise spéciale qui indique au LLM que ce qui suit est des informations sur un patient.

Nous formons donc la séquence d’entrée comme suit:

Image de l'auteur

Comme vous le voyez, nous avons injecté quatre balises:

  1. <patient> </patient>: pour contenir…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Gestion des modèles pour les modèles LoRA peaufinés à l'aide de Llama2 et Amazon SageMaker

Dans l'ère du Big Data et de l'IA, les entreprises cherchent continuellement des moyens d'utiliser ces technologies p...

AI

Agents orientés document Un voyage avec les bases de données vectorielles, les LLMs, Langchain, FastAPI et Docker

Exploiter ChromaDB, Langchain et ChatGPT Réponses améliorées et sources citées à partir de vastes bases de données d...

AI

Le Guide Ultime de nnU-Net

Plongez profondément dans notre guide complet sur nnU-Net, l'outil de pointe pour la segmentation d'images. Acquérez ...

AI

LastMile AI lance AiConfig un framework de développement d'applications IA open-source, piloté par la configuration et compatible avec le contrôle de source.

Dans le paysage en constante évolution du développement d’applications d’IA, AI Config de LastMile Ai se ...

AI

ChatGPT CLI Transformez votre interface de ligne de commande en ChatGPT

Une façon simple d'utiliser le modèle GPT dans votre invite de commande.