Le système d’IA peut générer de nouvelles protéines répondant aux objectifs de conception structurelle.
The AI system can generate new proteins that meet structural design goals.
Ces protéines modulables pourraient être utilisées pour créer de nouveaux matériaux avec des propriétés mécaniques spécifiques, comme la résistance ou la flexibilité.
Des chercheurs du MIT utilisent l’intelligence artificielle pour concevoir de nouvelles protéines qui dépassent celles que l’on trouve dans la nature.
- Système de deep-learning explore l’intérieur des matériaux depuis l’extérieur
- Former les machines pour apprendre plus comme le font les humains
- Le premier Grand Défi J-WAFS vise à développer des variantes de culture améliorées et à les transférer du laboratoire aux terres cultivées.
Ils ont développé des algorithmes d’apprentissage automatique qui peuvent générer des protéines présentant des caractéristiques structurelles spécifiques, ce qui pourrait être utilisé pour fabriquer des matériaux ayant certaines propriétés mécaniques, comme la rigidité ou l’élasticité. De tels matériaux d’inspiration biologique pourraient éventuellement remplacer les matériaux fabriqués à partir de pétrole ou de céramique, mais avec une empreinte carbone beaucoup plus faible.
Les chercheurs du MIT, du MIT-IBM Watson AI Lab et de l’Université Tufts ont utilisé un modèle génératif, qui est le même type d’architecture de modèle d’apprentissage automatique utilisé dans des systèmes d’IA comme DALL-E 2. Mais au lieu de l’utiliser pour générer des images réalistes à partir de prompts de langage naturel, comme le fait DALL-E 2, ils ont adapté l’architecture du modèle de sorte qu’il puisse prédire les séquences d’acides aminés des protéines qui atteignent des objectifs structurels spécifiques.
Dans un article publié aujourd’hui dans la revue Chem, les chercheurs montrent comment ces modèles peuvent générer des protéines réalistes mais nouvelles. Les modèles, qui apprennent les relations biochimiques qui contrôlent la formation des protéines, peuvent produire de nouvelles protéines qui pourraient permettre des applications uniques, déclare l’auteur principal Markus Buehler, professeur Jerry McAfee en ingénierie et professeur de génie civil et environnemental et de génie mécanique.
Par exemple, cet outil pourrait être utilisé pour développer des revêtements alimentaires inspirés des protéines, qui pourraient conserver les produits frais plus longtemps tout en étant sûrs pour les humains à manger. Et les modèles peuvent générer des millions de protéines en quelques jours, offrant rapidement aux scientifiques un portefeuille de nouvelles idées à explorer, ajoute-t-il.
“Lorsque vous pensez à la conception de protéines que la nature n’a pas encore découvertes, c’est un tel espace de conception que vous ne pouvez pas simplement le trier avec un crayon et du papier. Vous devez comprendre le langage de la vie, la façon dont les acides aminés sont encodés par l’ADN et comment ils se rassemblent pour former des structures de protéines. Avant d’avoir un apprentissage en profondeur, nous ne pouvions vraiment pas faire cela”, dit Buehler, qui est également membre du MIT-IBM Watson AI Lab.
Bo Ni, chercheur postdoctoral dans le Laboratoire de mécanique atomistique et moléculaire de Buehler, et David Kaplan, professeur de génie et professeur de bio-ingénierie à Tufts, rejoignent Buehler dans l’article.
Adapter de nouveaux outils pour la tâche
Les protéines sont formées par des chaînes d’acides aminés, pliées ensemble dans des motifs 3D. La séquence d’acides aminés détermine les propriétés mécaniques de la protéine. Bien que les scientifiques aient identifié des milliers de protéines créées par l’évolution, ils estiment qu’un nombre énorme de séquences d’acides aminés restent à découvrir.
Pour rationaliser la découverte de protéines, les chercheurs ont récemment développé des modèles d’apprentissage en profondeur qui peuvent prédire la structure 3D d’une protéine pour un ensemble de séquences d’acides aminés. Mais le problème inverse – prédire une séquence de structures d’acides aminés qui répondent aux objectifs de conception – s’est avéré encore plus difficile.
Un nouvel avènement dans l’apprentissage automatique a permis à Buehler et ses collègues de relever ce défi épineux : les modèles de diffusion basés sur l’attention.
Les modèles basés sur l’attention peuvent apprendre des relations à très longue portée, ce qui est essentiel pour développer des protéines car une mutation dans une longue séquence d’acides aminés peut faire ou défaire l’ensemble de la conception, explique Buehler. Un modèle de diffusion apprend à générer de nouvelles données grâce à un processus qui implique l’ajout de bruit aux données d’entraînement, puis l’apprentissage pour récupérer les données en éliminant le bruit. Ils sont souvent plus efficaces que d’autres modèles pour générer des données de haute qualité et réalistes qui peuvent être conditionnées pour répondre à un ensemble d’objectifs cibles pour répondre à une demande de conception.
Les chercheurs ont utilisé cette architecture pour construire deux modèles d’apprentissage automatique qui peuvent prédire une variété de nouvelles séquences d’acides aminés qui forment des protéines qui répondent à des objectifs de conception structurels.
“Dans l’industrie biomédicale, vous ne voudrez peut-être pas d’une protéine complètement inconnue car alors vous ne connaissez pas ses propriétés. Mais dans certaines applications, vous voudrez peut-être une toute nouvelle protéine qui ressemble à celle trouvée dans la nature, mais qui fait quelque chose de différent. Nous pouvons générer un spectre avec ces modèles, que nous contrôlons en réglant certains boutons”, dit Buehler.
Les motifs de pliage courants des acides aminés, appelés structures secondaires, produisent différentes propriétés mécaniques. Par exemple, les protéines avec des structures d’hélice alpha produisent des matériaux extensibles tandis que celles avec des structures de feuille bêta produisent des matériaux rigides. La combinaison d’hélices alpha et de feuilles bêta peut créer des matériaux qui sont extensibles et résistants, comme la soie.
Les chercheurs ont développé deux modèles, l’un qui opère sur les propriétés structurelles globales de la protéine et l’autre qui opère au niveau des acides aminés. Les deux modèles fonctionnent en combinant ces structures d’acides aminés pour générer des protéines. Pour le modèle qui opère sur les propriétés structurelles globales, un utilisateur saisit un pourcentage désiré de différentes structures (40 pour cent d’hélice alpha et 60 pour cent de feuille bêta, par exemple). Ensuite, le modèle génère des séquences qui répondent à ces objectifs. Pour le deuxième modèle, le scientifique spécifie également l’ordre des structures d’acides aminés, ce qui donne un contrôle beaucoup plus fin.
Les modèles sont connectés à un algorithme qui prédit le repliement des protéines, que les chercheurs utilisent pour déterminer la structure en 3D de la protéine. Ensuite, ils calculent ses propriétés résultantes et les comparent aux spécifications de conception.
Conceptions réalistes mais nouvelles
Ils ont testé leurs modèles en comparant les nouvelles protéines à des protéines connues ayant des propriétés structurelles similaires. Beaucoup avaient une certaine superposition avec des séquences d’acides aminés existantes, environ 50 à 60 pour cent dans la plupart des cas, mais aussi quelques séquences entièrement nouvelles. Le niveau de similarité suggère que de nombreuses protéines générées sont synthétisables, ajoute Buehler.
Pour s’assurer que les protéines prédites sont raisonnables, les chercheurs ont essayé de tromper les modèles en entrant des cibles de conception physiquement impossibles. Ils ont été impressionnés de voir que, au lieu de produire des protéines improbables, les modèles ont généré la solution synthétisable la plus proche.
« L’algorithme d’apprentissage peut détecter les relations cachées dans la nature. Cela nous donne la confiance de dire que tout ce qui sort de notre modèle est très probablement réaliste », explique Ni.
Ensuite, les chercheurs prévoient de valider expérimentalement certaines des nouvelles conceptions de protéines en les fabriquant en laboratoire. Ils veulent également continuer à augmenter et à affiner les modèles afin de développer des séquences d’acides aminés qui répondent à plus de critères, tels que les fonctions biologiques.
« Pour les applications qui nous intéressent, comme la durabilité, la médecine, l’alimentation, la santé et la conception de matériaux, nous devrons aller au-delà de ce que la nature a fait. Voici un nouvel outil de conception que nous pouvons utiliser pour créer des solutions potentielles qui pourraient nous aider à résoudre certains des problèmes sociaux les plus pressants auxquels nous sommes confrontés », explique Buehler.
« Outre leur rôle naturel dans les cellules vivantes, les protéines jouent de plus en plus un rôle clé dans les applications technologiques allant des médicaments biologiques aux matériaux fonctionnels. Dans ce contexte, un défi clé est de concevoir des séquences de protéines avec des propriétés souhaitées adaptées à des applications spécifiques. Des approches génératives d’apprentissage automatique, y compris celles exploitant des modèles de diffusion, ont récemment émergé comme des outils puissants dans cet espace », déclare Tuomas Knowles, professeur de chimie physique et de biophysique à l’Université de Cambridge, qui n’a pas participé à cette recherche. « Buehler et ses collègues démontrent une avancée cruciale dans ce domaine en fournissant une approche de conception qui permet d’adapter la structure secondaire de la protéine conçue. Il s’agit d’une avancée passionnante avec des implications pour de nombreux domaines potentiels, notamment pour la conception de blocs de construction pour des matériaux fonctionnels, dont les propriétés sont régies par des éléments de structure secondaire. »
« Cette recherche est fascinante car elle examine la création de nouvelles protéines qui n’existent pour la plupart pas, mais elle examine ensuite quelles seraient leurs caractéristiques à partir d’une direction basée sur la mécanique », ajoute Philip LeDuc, professeur de génie mécanique William J. Brown à l’Université Carnegie Mellon, qui n’a pas participé à ce travail. « Personnellement, j’ai été fasciné par l’idée de créer des molécules qui n’existent pas et qui ont une fonctionnalité que nous n’avons même pas imaginée. C’est un pas énorme dans cette direction. »
Cette recherche a été soutenue en partie par le MIT-IBM Watson AI Lab, le Département de l’Agriculture des États-Unis, le Département de l’Énergie des États-Unis, le Bureau de la recherche de l’Armée, les Instituts nationaux de la santé et le Bureau de la recherche navale.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Les chercheurs utilisent l’IA pour identifier des matériaux similaires dans les images.
- IA probabiliste qui sait à quel point elle fonctionne bien.
- En utilisant l’IA, des scientifiques ont trouvé un médicament qui pourrait combattre les infections résistantes aux médicaments.
- Nouvel outil aide les gens à choisir la bonne méthode pour évaluer les modèles d’IA.
- Nouveau modèle offre un moyen d’accélérer la découverte de médicaments
- Un pas vers des pilotes automatiques sûrs et fiables pour le vol
- Des chercheurs de Princeton présentent MeZO un optimiseur du zéroème ordre efficace en mémoire qui peut affiner les modèles de langage larges (LLM)