Apprentissage par renforcement sans modèle pour le développement des processus chimiques
RL sans modèle pour le développement des processus chimiques
Vers des opérateurs de procédés chimiques universels
Introduction
Développement de procédés, conception, optimisation et contrôle sont quelques-unes des principales tâches dans les domaines du génie chimique et des procédés. En termes concrets, l’objectif est de trouver une recette optimale ou une configuration appropriée d’équipements ou de paramètres de procédé (par le biais d’expériences en laboratoire) de manière à maximiser certains objectifs (par exemple, le rendement ou le débit) tout en respectant les contraintes potentielles (par exemple, les concentrations d’entrée, les débits, les volumes de réacteurs ou les points d’ébullition des solvants). En automatisant ces tâches, par exemple grâce à des robots de laboratoire, on pourrait économiser beaucoup de travail manuel.
Les progrès récents dans le domaine de l’apprentissage par renforcement (RL) ont montré que les agents peuvent maîtriser des tâches complexes et jouer à une variété de jeux, voire découvrir des procédures mathématiques plus efficaces, par exemple pour les opérations matricielles. Avec la disponibilité de paramètres cinétiques, qu’ils proviennent d’expériences ou de simulations numériques, les agents peuvent trouver des configurations et des recettes de synthèse optimales. Contrairement à l’optimisation convexe, cependant, l’algorithme/le modèle peut être directement utilisé pour le contrôle des procédés. De telles expériences peuvent avoir lieu soit sur ordinateur, soit directement en laboratoire, en fonction de l’efficacité d’échantillonnage de la méthode. À long terme, cela permettrait d’automatiser (partiellement) le développement de procédés. Le but de cet article est d’illustrer cela à l’aide de l’exemple du paracétamol en utilisant l’optimisation de politique proximale (PPO).
Définition du problème
Nous avons un programme informatique, un agent appelé ici opérateur universel de procédés chimiques. Cet opérateur se trouve dans un environnement où il peut effectuer des opérations chimiques, c’est-à-dire des actions. Ces actions comprennent le dosage du composant A, l’augmentation/diminution du débit d’entrée/sortie, l’augmentation/diminution de la température, et ainsi de suite. Lorsque l’agent effectue des actions dans certains états tels que les concentrations de certains composants, il passe à de nouveaux états.
Le paracétamol (PC) est synthétisé à partir de p-aminophénol (AP) et d’anhydride acétique (AA), comme le montre la figure 1a. Sous des cinétiques connues, ce processus peut être modélisé et représente l’environnement, par exemple, dans un réacteur agité en continu (CSTR) comme indiqué dans la figure…
- Puissance des machines virtuelles de la série B d’Azure
- Outils et agents HuggingFace Transformers Pratique
- VoAGI Actualités, 12 juillet 5 cours gratuits sur ChatGPT • Le pouvoir de la sollicitation en chaîne de la pensée
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- xAI La nouvelle entreprise d’IA d’Elon Musk dévoile sa mission avec le lancement de son site web
- Surveillance des données non structurées pour LLM et NLP
- Erreur d’étalonnage attendue (ECE) – une explication visuelle étape par étape
- Suivi des données non structurées pour LLM et NLP
- Entités nommées et les actualités
- Aliasing Votre série temporelle vous ment
- Les meilleures entreprises de sécurité à domicile à surveiller en 2023