Nouveau modèle offre un moyen d’accélérer la découverte de médicaments

New model accelerates drug discovery.

En appliquant un modèle linguistique aux interactions protéine-médicament, les chercheurs peuvent rapidement cribler de grandes bibliothèques de composés médicamenteux potentiels.

Researchers can screen more than 100 million compounds in a single day — much more than any existing model.

Les énormes bibliothèques de composés médicamenteux peuvent contenir des traitements potentiels pour diverses maladies, telles que le cancer ou les maladies cardiaques. Idéalement, les scientifiques aimeraient tester expérimentalement chacun de ces composés contre toutes les cibles possibles, mais ce type de test est trop chronophage.

Ces dernières années, les chercheurs ont commencé à utiliser des méthodes informatiques pour effectuer des tests de criblage sur ces bibliothèques dans l’espoir d’accélérer la découverte de médicaments. Cependant, bon nombre de ces méthodes prennent également beaucoup de temps, car la plupart d’entre elles calculent la structure tridimensionnelle de chaque protéine cible à partir de sa séquence d’acides aminés, puis utilisent ces structures pour prédire avec quelles molécules médicamenteuses elle interagira.

Des chercheurs du MIT et de l’Université Tufts ont maintenant mis au point une approche computationnelle alternative basée sur un type d’algorithme d’intelligence artificielle connu sous le nom de modèle de langage volumineux. Ces modèles – un exemple bien connu est ChatGPT – peuvent analyser d’énormes quantités de texte et déterminer les mots (ou, dans ce cas, les acides aminés) les plus susceptibles d’apparaître ensemble. Le nouveau modèle, appelé ConPLex, peut associer des protéines cibles à des molécules médicamenteuses potentielles sans avoir à effectuer l’étape intensément informatique de calcul des structures moléculaires.

En utilisant cette méthode, les chercheurs peuvent effectuer des tests sur plus de 100 millions de composés en une seule journée – beaucoup plus que tout modèle existant.

“Ce travail répond au besoin de criblage in silico efficace et précis des candidats médicamenteux potentiels, et la scalabilité du modèle permet des criblages à grande échelle pour évaluer les effets extracibles, la réutilisation de médicaments et déterminer l’impact des mutations sur la liaison médicamenteuse “, déclare Bonnie Berger, professeur Simons de mathématiques, chef du groupe Computation and Biology au Computer Science and Artificial Intelligence Laboratory (CSAIL) du MIT, et l’un des auteurs principaux de la nouvelle étude.

Lenore Cowen, professeur d’informatique à l’Université Tufts, est également un auteur principal de l’article, qui paraît cette semaine dans les Proceedings of the National Academy of Sciences. Rohit Singh, scientifique de la recherche à CSAIL, et Samuel Sledzieski, étudiant diplômé du MIT, sont les auteurs principaux de l’article, et Bryan Bryson, professeur agrégé d’ingénierie biologique au MIT et membre de l’Institut Ragon de MGH, MIT et Harvard, est également un auteur. En plus de l’article, les chercheurs ont rendu leur modèle disponible en ligne pour que d’autres scientifiques puissent l’utiliser.

Faire des prédictions

Ces dernières années, les scientifiques informatiques ont fait de grands progrès dans le développement de modèles capables de prédire les structures de protéines en fonction de leurs séquences d’acides aminés. Cependant, utiliser ces modèles pour prédire comment une grande bibliothèque de médicaments potentiels pourrait interagir avec une protéine cancéreuse, par exemple, s’est avéré difficile, principalement parce que le calcul des structures tridimensionnelles des protéines nécessite beaucoup de temps et de puissance de calcul.

Un obstacle supplémentaire est que ces modèles ne sont pas très efficaces pour éliminer les composés appelés leurres, qui ressemblent beaucoup à un médicament réussi mais n’interagissent pas réellement bien avec la cible.

“L’un des défis de longue date dans le domaine est que ces méthodes sont fragiles, dans le sens où si je donnais au modèle un médicament ou une petite molécule qui ressemblait presque à la vraie chose, mais qui était légèrement différente d’une manière subtile, le modèle pourrait encore prédire qu’ils interagiraient, même s’il ne le devrait pas”, explique Singh.

Les chercheurs ont conçu des modèles capables de surmonter ce type de fragilité, mais ils sont généralement adaptés à une seule classe de molécules médicamenteuses, et ils ne conviennent pas aux tests à grande échelle car les calculs prennent trop de temps.

L’équipe du MIT a décidé d’adopter une approche alternative, basée sur un modèle de protéine qu’elle a développé pour la première fois en 2019. Travaillant avec une base de données de plus de 20 000 protéines, le modèle de langage encode ces informations en représentations numériques significatives de chaque séquence d’acides aminés qui capturent les associations entre séquence et structure.

“Avec ces modèles de langage, même les protéines qui ont des séquences très différentes mais qui ont potentiellement des structures ou des fonctions similaires peuvent être représentées de manière similaire dans cet espace de langage, et nous sommes en mesure de profiter de cela pour faire nos prédictions”, explique Sledzieski.

Dans leur nouvelle étude, les chercheurs ont appliqué le modèle de protéine à la tâche de déterminer quelles séquences de protéines interagiront avec des molécules médicamenteuses spécifiques, toutes deux ayant des représentations numériques qui sont transformées en un espace commun partagé par un réseau neuronal. Ils ont formé le réseau sur des interactions protéine-médicament connues, ce qui lui a permis d’apprendre à associer des caractéristiques spécifiques des protéines à la capacité de liaison aux médicaments, sans avoir à calculer la structure 3D de l’une des molécules.

“Avec cette représentation numérique de haute qualité, le modèle peut court-circuiter complètement la représentation atomique, et à partir de ces chiffres, prédire si ce médicament se liera ou non”, explique Singh. “L’avantage de cela est que vous évitez le besoin de passer par une représentation atomique, mais les chiffres ont toujours toutes les informations dont vous avez besoin.”

Un autre avantage de cette approche est qu’elle prend en compte la flexibilité des structures protéiques, qui peuvent être “tremblantes” et prendre des formes légèrement différentes lorsqu’elles interagissent avec une molécule médicamenteuse.

Affinité élevée

Pour rendre leur modèle moins susceptible d’être trompé par des molécules médicamenteuses leurres, les chercheurs ont également incorporé une étape d’apprentissage basée sur le concept d’apprentissage contrastif. Dans cette approche, les chercheurs donnent au modèle des exemples de médicaments “réels” et d’imposteurs et lui apprennent à les distinguer.

Les chercheurs ont ensuite testé leur modèle en criblant une bibliothèque d’environ 4 700 molécules médicamenteuses candidates pour leur capacité à se lier à un ensemble de 51 enzymes connues sous le nom de kinases protéiques.

À partir des meilleurs résultats, les chercheurs ont choisi 19 paires médicament-protéine à tester expérimentalement. Les expériences ont révélé que sur les 19 résultats, 12 présentaient une forte affinité de liaison (dans la plage des nanomoles), tandis que presque toutes les autres paires médicament-protéine possibles n’auraient aucune affinité. Quatre de ces paires se sont liées avec une affinité extrêmement élevée, sub-nanomolaire (si forte qu’une concentration de médicament minuscule, de l’ordre des parties par milliard, inhibera la protéine).

Alors que les chercheurs se sont principalement concentrés sur le criblage de petits médicaments moléculaires dans cette étude, ils travaillent maintenant sur l’application de cette approche à d’autres types de médicaments, tels que les anticorps thérapeutiques. Ce type de modélisation pourrait également s’avérer utile pour effectuer des tests de toxicité de composés médicamenteux potentiels, afin de s’assurer qu’ils n’ont pas d’effets secondaires indésirables avant de les tester sur des modèles animaux.

“Une partie de la raison pour laquelle la découverte de médicaments est si coûteuse est que les taux d’échec sont élevés. Si nous pouvons réduire ces taux d’échec en disant à l’avance que ce médicament n’est pas susceptible de fonctionner, cela pourrait contribuer grandement à réduire le coût de la découverte de médicaments”, explique Singh.

Cette nouvelle approche “représente une percée significative dans la prédiction de l’interaction médicament-cible et ouvre des opportunités supplémentaires pour des recherches futures visant à améliorer encore ses capacités”, déclare Eytan Ruppin, chef du laboratoire de science des données sur le cancer à l’Institut national du cancer, qui n’a pas participé à l’étude. “Par exemple, l’incorporation d’informations structurelles dans l’espace latent ou l’exploration des méthodes de génération moléculaire pour générer des leurres pourraient encore améliorer les prédictions.”

La recherche a été financée par les National Institutes of Health, la National Science Foundation et la Fondation Phillip et Susan Ragon.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

OpenAI annonce des chatbots plus grands, plus méchants et plus étranges

Les GPT promettent de permettre aux utilisateurs de créer leurs propres chatbots entièrement personnalisables, sans a...

AI

Introduction à l'apprentissage machine Exploration de ses nombreuses formes

De nos jours, l'apprentissage automatique est présent partout, n'est-ce pas ? Si vous êtes ici, vous devez sûrement ê...

AI

Découvrez EasyEdit un cadre d'édition de connaissances facile à utiliser pour les LLMs.

Nous devons constamment nous adapter à ce monde en perpétuel changement, tout comme le font les modèles d’appre...

AI

Attention industrie du jeu vidéo ! Plus de miroirs étranges avec Mirror-NeRF

Les NeRFs ou Neural Radiance Fields utilisent une combinaison de RNN et de CNN pour capturer les caractéristiques phy...

AI

Performance impressionnante les grands modèles de langage sont jusqu'à 4 fois plus rapides sur RTX avec TensorRT-LLM pour Windows

L’IA générative est l’une des tendances les plus importantes de l’histoire de l’informatique ...