IA générative pour des connaissances biomédicales

IA générative pour connaissances biomédicales

Les grands modèles de langage (LLM) émergent comme de précieux outils de découverte biomédicale et de développement thérapeutique. Cette analyse technique compare deux LLM biomédicaux de premier plan : le framework OpenBIOML en open source et le BIO GPT propriétaire d’Anthropic. Les architectures, les approches d’optimisation et les performances de référence de ces deux systèmes d’IA contrastés sont analysées. En évaluant leurs forces et faiblesses complémentaires sur des tâches biomédicales représentatives, des conseils sont donnés aux chercheurs et aux technologues sur l’intégration responsable dans les flux de travail pharmaceutiques. L’analyse vise à aider les équipes à exploiter ces technologies pour faire avancer la compréhension des maladies et la découverte de médicaments sans compromettre les normes scientifiques ou éthiques. Les bonnes pratiques pour l’application transparente et rigoureuse des compétences en modélisation des données d’OpenBIOML et des capacités de synthèse des connaissances de BIO GPT sont discutées.

Paysage des LLM biomédicaux

Les grands modèles de langage biomédicaux (LLM) jouent un rôle essentiel dans l’accélération de la découverte de médicaments. Ils ont la capacité d’analyser rapidement la recherche, de générer des hypothèses et de consolider les résultats, offrant des méthodes innovantes pour comprendre et résoudre les défis biologiques complexes.

Deux modèles remarquables qui mènent cette transformation sont :

OpenBIOML : Un LLM substantiel de 530 milliards de paramètres développé par AstraZeneca, utilisant le framework open source Megatron. Il est conçu pour décoder des données biomédicales complexes, offrant des informations essentielles sur des domaines inexplorés de la recherche biologique.

BIO GPT : Le LLM d’Anthropic, conçu avec leur architecture unique Claude. La spécialisation de BIO GPT réside dans le traitement et la compréhension de vastes données biomédicales, contribuant à la conception de nouvelles approches thérapeutiques.

Compréhension de l’architecture d’OpenBIOML

OpenBIOML est construit en utilisant le framework de génération de langage naturel Megatron-Turing en open source créé par les chercheurs de NVIDIA. Megatron-Turing NLG permet de former efficacement des modèles de langage basés sur des transformateurs extrêmement volumineux avec des milliards de paramètres en utilisant des clusters informatiques multi-GPU et multi-noeuds.

Au cœur d’OpenBIOML, on trouve une architecture de modèle de langage basée sur des transformateurs. Les transformateurs reposent entièrement sur des mécanismes d’auto-attention plutôt que sur des récurrences pour modéliser des séquences de texte. La taille énorme du modèle de 530 milliards de paramètres d’OpenBIOML permet de capturer des contextes nuancés à travers des corpus massifs.

Megatron simplifie l’entraînement parallèle à grande échelle en divisant un modèle géant entre de nombreuses GPU et en synchronisant les gradients lors de l’optimisation. Par exemple, OpenBIOML peut être partitionné en sous-ensembles de 21 milliards de paramètres et entraîné sur 512 GPU V100 simultanément.

Cette architecture massivement parallèle a permis de pré-entraîner OpenBIOML sur d’énormes ensembles de données textuelles biomédicales non étiquetées avant de le peaufiner sur des tâches spécifiques au domaine. Le résultat est un modèle de langage très performant, adapté à l’ingestion, la compréhension et la génération de contenu biomédical.

Lors de l’inférence, OpenBIOML prend en charge un déploiement efficace sur les GPU pour une génération à faible latence. Le modèle peut traiter des contextes de 40 000 jetons, permettant un raisonnement complexe sur de longs documents biomédicaux.

En résumé, les fondements de Megatron permettent à OpenBIOML de pouvoir absorber une connaissance biomédicale massive, puis d’appliquer cet apprentissage à des tâches de découverte ultérieures.

Compréhension de l’architecture de BIO GPT

BIO GPT est construit en utilisant l’architecture Claude propriétaire d’Anthropic. Claude est conçu pour être plus sûr, plus robuste et éviter de nombreux problèmes auxquels sont confrontés les autres modèles de langage, tels que les hallucinations.

Le cœur de Claude est toujours un modèle de langage basé sur des transformateurs entraîné sur de vastes corpus de textes. Cependant, Anthropic le complète avec des techniques telles que l’IA constitutionnelle pour améliorer sa stabilité.

L’IA constitutionnelle fait référence à des objectifs de formation qui alignent le modèle sur les valeurs humaines. Par exemple, Claude est formé pour éviter les contradictions, rester honnête quant à ses limites et intégrer les commentaires des utilisateurs. Cela rend le modèle moins susceptible de générer avec confiance des sorties incorrectes ou sans signification. Claude utilise également une approche de génération augmentée par la recherche, où le modèle recherche des faits dans une base de connaissances pour étayer ses réponses par des preuves.

Sur la base de Claude, Anthropic a adapté BIO GPT exclusivement aux publications biomédicales afin de spécialiser ses capacités. Le modèle a acquis la capacité de synthétiser de nouvelles hypothèses, des conceptions expérimentales et des analyses de données basées sur des connaissances scientifiques.

Lors de l’inférence, BIO GPT peut appliquer son expertise biomédicale à des tâches telles que suggérer de nouvelles orientations prometteuses pour la recherche sur les maladies. Le système fournit une boîte à outils pour interagir en toute sécurité avec le modèle.

Architectures : Aperçu d’OpenBIOML et de BIO GPT

Le fondement massif du transformateur d’OpenBIOML offre des capacités impressionnantes en matière de langage biomédical, mais exige des ressources informatiques substantielles pour une utilisation responsable. Une surveillance rigoureuse, une évaluation et une supervision humaine sont indispensables lors du déploiement de modèles de cette envergure.

Les innovations architecturales de BIO GPT visent à améliorer la stabilité et la sécurité, qui sont cruciales pour les applications biomédicales. Cependant, sa nature “boîte noire” peut entraver la débogabilité par rapport aux alternatives open-source. Les ingénieurs logiciels doivent accorder la priorité à la transparence, à l’auditabilité et aux mesures de sécurité pour atténuer les risques liés aux systèmes propriétaires fermés.

Le compromis central est l’échelle vs la sécurité. OpenBIOML atteint de bonnes performances grâce à la taille brute du modèle, mais nécessite de réduire les risques d’imprévisibilité. BIO GPT sacrifie une partie de sa puissance de calcul pour prendre des précautions architecturales importantes dans les domaines biomédicaux sensibles.

Conclusion

En conclusion, OpenBIOML et BIO GPT représentent des applications prometteuses de grands modèles de langage pour favoriser la découverte biomédicale grâce à l’analyse computationnelle de vastes corpus de textes. Cependant, le développement responsable reste crucial lorsqu’il s’agit de traiter des données aussi sensibles. Une diligence technique rigoureuse en matière de transparence, de testabilité, d’auditabilité, de mesures de sécurité et de surveillance humaine sera impérative pour garantir que ces puissants systèmes d’IA sont utilisés de manière éthique pour faire progresser les soins de santé.

Des méthodologies telles que les cadres éthiques, les tests adversaires et des techniques telles que l’IA constitutionnelle peuvent contribuer à atténuer les risques. Des outils de surveillance continus et des procédures de retour en arrière réversibles offrent également des garanties. Ces modèles peuvent être mis en œuvre en toute sécurité à l’aide de solutions dans des environnements sandbox, en utilisant des techniques telles que la confidentialité différentielle pour protéger les données sensibles et en permettant des audits externes pour garantir une utilisation éthique et responsable des modèles.

Si elles sont complétées par des normes d’ingénierie rigoureuses, les LLM biomédicales avancées offrent un énorme potentiel pour générer des insights à de nouvelles échelles. Cependant, le respect des principes de responsabilité et de prudence reste essentiel à mesure que cette technologie évolue.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Des chercheurs de Stanford et de DeepMind ont eu l'idée d'utiliser des modèles de langue volumineux (LLM) en tant que fonction de récompense par procuration.

Avec le développement de l’informatique et des données, les agents autonomes gagnent en puissance. La nécessité...

AI

Augmentation de la productivité dans le développement de microservices grâce à des outils d'IA

L'utilisation d'outils d'IA dans le développement de microservices rationalise le processus de codage, améliorant ain...

AI

Des chercheurs de CMU et de l'UC Santa Barbara proposent une innovation basée sur l'IA pour le diagnostic de la pensée afin de détecter les distorsions cognitives en psychothérapie.

Dans le monde entier, environ une personne sur huit souffre de problèmes mentaux. Cependant, les troubles de santé me...

AI

Apportez votre base de connaissances dans les GPT d'OpenAI avec MyScale

Cet article décrit comment combiner votre base de connaissances avec les GPT d'OpenAI en utilisant MyScale. MyScale s...