Prédire la rétrosynthèse en une seule étape en incorporant les connaissances des chimistes avec les modèles d’IA
Prédire la rétrosynthèse en une seule étape avec les modèles d'IA et les connaissances des chimistes.
En synthèse organique, les molécules sont construites par des processus organiques, ce qui en fait une branche importante de la chimie de synthèse. L’une des tâches les plus importantes dans la synthèse organique assistée par ordinateur est l’analyse de rétro-synthèse1, qui propose les précurseurs de réaction probables pour obtenir un résultat souhaité. Trouver les meilleures routes de réaction possibles parmi un grand nombre de possibilités nécessite des prédictions précises des réactifs. Les chercheurs de Microsoft désignent par “réactifs” dans le contexte de cet article les substrats qui fournissent les atomes d’une molécule produite. Ils ne comptent pas comme réactifs dans l’article les solvants ou les catalyseurs qui facilitent une réaction mais ne contribuent pas eux-mêmes aux atomes du produit final. Récemment, les méthodes basées sur l’apprentissage automatique ont montré un grand potentiel pour résoudre ce problème. La génération autoregressive token par token de la séquence de sortie est une caractéristique courante de nombreuses de ces approches, et beaucoup d’entre elles utilisent des cadres encodeur-décodeur dans lesquels la composante encodeur encode la séquence moléculaire ou le graphe en vecteurs de haute dimension et la composante décodeur décode la sortie de l’encodeur.
Le processus d’analyse de rétro-synthèse a été conceptualisé comme une traduction d’une langue à une autre, en l’occurrence, du résultat aux réactifs. En utilisant une probabilité de type bayésien, un transformateur moléculaire a été utilisé pour prédire des routes rétro-synthétiques en utilisant des méthodologies exploratoires. L’utilisation de réseaux neuronaux profonds bien développés dans le traitement du langage naturel est rendue possible en reformulant l’analyse de rétro-synthèse en un problème de traduction automatique.
La génération autoregressive token par token est utilisée pour construire des chaînes de sortie SMILES à l’étape de décodage ; de manière conventionnelle, les tokens élémentaires dans les chaînes SMILES se réfèrent généralement à des atomes ou des molécules individuels. Cela n’est pas immédiatement intuitif ou explicable pour les chimistes engagés dans la conception de synthèse ou l’analyse de rétro-synthèse. Lorsqu’ils sont confrontés à un défi de recherche de route dans le monde réel, la plupart des chimistes synthétiques s’appuient sur leurs années de formation et d’expérience pour développer un chemin de réaction en combinant leur connaissance des voies de réaction existantes avec une compréhension abstraite des mécanismes sous-jacents tirée des principes de base. Les humains effectuent couramment une analyse de rétro-synthèse, qui commence par des fragments moléculaires ou des sous-structures chimiquement similaires ou maintenues dans les molécules cibles. Ces fragments ou sous-structures sont des pièces d’un puzzle qui, si elles sont correctement assemblées, pourraient conduire au produit final par une série de processus chimiques.
- Principes de gestion des données pour la science des données
- QCNet Révolutionner la sécurité des véhicules autonomes avec une prédiction avancée de trajectoire
- Des chercheurs de Cornell et de Tel Aviv présentent les Doppelgangers Apprendre à dissocier les images de structures similaires.
Les chercheurs suggèrent d’utiliser des sous-structures généralement maintenues en synthèse organique sans recourir à des systèmes experts ou à des bibliothèques de modèles. Ces sous-structures sont extraites de vastes ensembles de réactions connues et capturent de minuscules points communs entre les réactifs et les produits. Dans ce sens, ils peuvent considérer l’analyse de rétro-synthèse comme un problème d’apprentissage de séquence à séquence au niveau de la sous-structure.
Modélisation des sous-structures extraites
Les fragments moléculaires ou les petites pièces de construction chimiquement comparables aux molécules cibles sont appelés “sous-structures” en chimie organique. Ces sous-structures sont cruciales pour analyser la rétro-synthèse car elles aident à comprendre comment les molécules complexes sont assemblées.
En utilisant cette idée comme source d’inspiration, le cadre comporte trois parties principales :
Si l’on fournit une molécule produit, ce module trouvera d’autres réactions qui produisent un produit similaire. Il utilise un récupérateur de mémoire multilingue qui peut être entraîné à organiser correctement les réactifs et les produits dans un espace vectoriel de haute dimension.
Les chercheurs utilisent l’empreinte moléculaire pour isoler les sous-structures partagées entre la molécule produit et les meilleures possibilités alignées en travers. Ces sous-structures fournissent la correspondance fragment-fragment entre les substrats et les produits au niveau de la réaction.
Le couplage interséquence au niveau de la sous-structure Dans le processus d’apprentissage, les chercheurs prennent la série initiale de tokens et la transforment en une séquence de sous-structures. Les chaînes SMILES des sous-structures sont les premières dans la nouvelle séquence d’entrée, suivies des chaînes SMILES des fragments supplémentaires étiquetés avec des numéros virtuels. Les fragments numérotés virtuellement sont les séquences de sortie. Les sites de formation et de liaison des liaisons sont indiqués par leurs numéraux virtuels correspondants.
Comparé à d’autres méthodes qui ont été testées et évaluées, l’approche a une précision de top-un égale ou supérieure pratiquement partout. Les performances du modèle sont considérablement améliorées sur le sous-ensemble de données à partir duquel les sous-structures ont été récupérées avec succès.
Quatre-vingt-deux pour cent des produits de l’ensemble de données de test USPTO ont été extraits avec succès des sous-structures à l’aide de la méthode, ce qui prouve sa généralisabilité.
Pour réduire la longueur des représentations en chaîne des molécules et le nombre d’atomes à prédire, nous devons uniquement produire des pièces liées aux particules virtuellement marquées dans les sous-structures.
En conclusion, les chercheurs de Microsoft ont conçu un moyen de dériver des sous-structures universellement conservées pour une utilisation dans les prédictions de rétro-synthèse. Sans aucune aide humaine, ils peuvent extraire les structures sous-jacentes. La méthode dans son ensemble est très similaire à la façon dont les scientifiques humains mènent l’analyse de rétro-synthèse. Comparée aux modèles précédemment publiés, l’implémentation actuelle est une amélioration. Ils montrent également que l’amélioration de la procédure d’extraction des sous-structures sous-jacentes peut aider le modèle à mieux performer dans la prédiction de rétro-synthèse. L’objectif est d’éveiller la curiosité des lecteurs sur le domaine passionnant et multidisciplinaire de la prédiction de rétro-synthèse et des recherches associées.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Détecteurs de contenu GPT et AI les plus performants
- Google AI présente un nouveau cadre de simulation TensorFlow qui permet le calcul des écoulements de fluides avec les TPUs
- Cette recherche en IA propose DISC-MedLLM une solution complète qui exploite les grands modèles de langage (LLMs) pour fournir des réponses médicales précises.
- Comment les robots peuvent-ils prendre de meilleures décisions ? Les chercheurs du MIT et de Stanford présentent Diffusion-CCSP pour un raisonnement et une planification avancés des robots.
- Rendre la vie plus conviviale avec des robots personnels
- Adept AI Labs rend open source Persimmon-8B un puissant modèle de langage entièrement sous licence permissive avec
- Découvrez Falcon 180B le plus grand modèle de langage ouvertement disponible avec 180 milliards de paramètres.