Adaptation de domaine d’un grand modèle de langage
Adaptation de domaine d'un modèle de langage de renommée mondiale
Adapter un modèle pré-entraîné à un nouveau domaine en utilisant HuggingFace
![Image de Unsplash](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*Me6zhsYiozyhy9uxU_vJeA.png)
Les modèles de langage de grande taille (LLM) comme BERT sont généralement pré-entraînés sur des corpus de domaine général tels que Wikipedia et BookCorpus. Lorsque nous les utilisons sur des domaines plus spécialisés comme le médical, il y a souvent une diminution des performances par rapport aux modèles adaptés à ces domaines.
Dans cet article, nous explorerons comment adapter un LLM pré-entraîné comme Deberta base au domaine médical en utilisant la bibliothèque HuggingFace Transformers. Plus précisément, nous couvrirons une technique efficace appelée pré-entraînement intermédiaire où nous effectuons un pré-entraînement supplémentaire du LLM sur des données de notre domaine cible. Cela permet d’adapter le modèle au nouveau domaine et d’améliorer ses performances.
Il s’agit d’une technique simple mais efficace pour régler les LLM sur votre domaine et obtenir des améliorations significatives des performances de la tâche finale.
Commençons.
- Construisez une meilleure chaussure de course (ou tout autre produit) pour 1 $ avec l’IA générative
- 7 étapes pour exécuter un petit modèle de langage sur un CPU local
- Comment l’IA peut-elle aider à réduire les coûts des soins de santé ?
Étape 1: Les Données
La première étape de tout projet consiste à préparer les données. Comme notre ensemble de données se situe dans le domaine médical, il contient les champs suivants, et bien d’autres encore:
![image de l'auteur](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*j1Rh0uUmfvNBZQroJb6k3Q.png)
Il est impossible de mettre ici la liste complète des champs, car il y en a beaucoup. Mais même ce bref aperçu des champs existants nous aide à former la séquence d’entrée pour un LLM.
Le premier point à garder à l’esprit est que l’entrée doit être une séquence car les LLM lisent l’entrée sous forme de séquences de texte.
Pour former cette séquence, nous pouvons injecter des balises spéciales pour indiquer au LLM quelle information vient ensuite. Considérez l’exemple suivant: <patient>nom: John, nom de famille: Doer, identifiant du patient: 1234, âge: 34</patient>
, la balise <patient>
est une balise spéciale qui indique au LLM que ce qui suit est des informations sur un patient.
Nous formons donc la séquence d’entrée comme suit:
![Image de l'auteur](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*gGNRwNDSqz9MFRG1_uoZ_A.png)
Comme vous le voyez, nous avons injecté quatre balises:
<patient> </patient>
: pour contenir…
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Les grands modèles de langage mettront-ils fin à la programmation?
- Recueil augmenté de génération (RAG) de la théorie à l’implémentation de LangChain
- Des chercheurs de NTU Singapour proposent OtterHD-8B un modèle AI multimodal innovant évolué à partir de Fuyu-8B.
- Le Côté Obscur de l’IA – Comment les Créateurs peuvent-ils aider ?!
- TSMixer Le dernier modèle de prévision par Google
- Perspectives d’experts sur le développement de cadres d’IA sûrs, sécurisés et fiables
- De la fiction à la réalité ChatGPT et le rêve de science-fiction d’une conversation véritable avec l’IA