Apprentissage par renforcement sans modèle pour le développement des processus chimiques

RL sans modèle pour le développement des processus chimiques

Vers des opérateurs de procédés chimiques universels

Photo par Alex Kondratiev sur Unsplash

Introduction

Développement de procédés, conception, optimisation et contrôle sont quelques-unes des principales tâches dans les domaines du génie chimique et des procédés. En termes concrets, l’objectif est de trouver une recette optimale ou une configuration appropriée d’équipements ou de paramètres de procédé (par le biais d’expériences en laboratoire) de manière à maximiser certains objectifs (par exemple, le rendement ou le débit) tout en respectant les contraintes potentielles (par exemple, les concentrations d’entrée, les débits, les volumes de réacteurs ou les points d’ébullition des solvants). En automatisant ces tâches, par exemple grâce à des robots de laboratoire, on pourrait économiser beaucoup de travail manuel.

Les progrès récents dans le domaine de l’apprentissage par renforcement (RL) ont montré que les agents peuvent maîtriser des tâches complexes et jouer à une variété de jeux, voire découvrir des procédures mathématiques plus efficaces, par exemple pour les opérations matricielles. Avec la disponibilité de paramètres cinétiques, qu’ils proviennent d’expériences ou de simulations numériques, les agents peuvent trouver des configurations et des recettes de synthèse optimales. Contrairement à l’optimisation convexe, cependant, l’algorithme/le modèle peut être directement utilisé pour le contrôle des procédés. De telles expériences peuvent avoir lieu soit sur ordinateur, soit directement en laboratoire, en fonction de l’efficacité d’échantillonnage de la méthode. À long terme, cela permettrait d’automatiser (partiellement) le développement de procédés. Le but de cet article est d’illustrer cela à l’aide de l’exemple du paracétamol en utilisant l’optimisation de politique proximale (PPO).

Définition du problème

Nous avons un programme informatique, un agent appelé ici opérateur universel de procédés chimiques. Cet opérateur se trouve dans un environnement où il peut effectuer des opérations chimiques, c’est-à-dire des actions. Ces actions comprennent le dosage du composant A, l’augmentation/diminution du débit d’entrée/sortie, l’augmentation/diminution de la température, et ainsi de suite. Lorsque l’agent effectue des actions dans certains états tels que les concentrations de certains composants, il passe à de nouveaux états.

Le paracétamol (PC) est synthétisé à partir de p-aminophénol (AP) et d’anhydride acétique (AA), comme le montre la figure 1a. Sous des cinétiques connues, ce processus peut être modélisé et représente l’environnement, par exemple, dans un réacteur agité en continu (CSTR) comme indiqué dans la figure…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more