Un pas vers des pilotes automatiques sûrs et fiables pour le vol

Towards safe and reliable autopilots for flight.

Une nouvelle approche basée sur l’IA pour le contrôle de robots autonomes répond aux objectifs souvent contradictoires de sécurité et de stabilité.

MIT researchers developed a machine-learning technique that can autonomously drive a car or fly a plane through a very difficult “stabilize-avoid” scenario, in which the vehicle must stabilize its trajectory to arrive at and stay within some goal region, while avoiding obstacles.

Dans le film “Top Gun: Maverick”, Maverick, joué par Tom Cruise, est chargé de former de jeunes pilotes pour accomplir une mission apparemment impossible – voler leurs jets dans un canyon rocheux, en restant si bas au sol qu’ils ne peuvent être détectés par radar, puis monter rapidement hors du canyon à un angle extrême, en évitant les parois rocheuses. Alerte spoiler: avec l’aide de Maverick, ces pilotes humains accomplissent leur mission.

En revanche, une machine aurait du mal à accomplir la même tâche palpitante. Pour un aéronef autonome, par exemple, le chemin le plus simple vers la cible est en conflit avec ce que la machine doit faire pour éviter de heurter les parois du canyon ou pour rester indétectable. De nombreuses méthodes d’IA existantes ne sont pas en mesure de surmonter ce conflit, connu sous le nom de problème de stabilisation-évitement, et ne pourraient pas atteindre leur objectif en toute sécurité.

Des chercheurs du MIT ont développé une nouvelle technique qui peut résoudre des problèmes de stabilisation-évitement complexes mieux que d’autres méthodes. Leur approche d’apprentissage automatique égale ou dépasse la sécurité des méthodes existantes tout en fournissant une augmentation de la stabilité de dix fois, ce qui signifie que l’agent atteint et reste stable dans sa zone d’objectif.

Dans une expérience qui ferait la fierté de Maverick, leur technique a efficacement piloté un avion-jet simulé à travers un couloir étroit sans s’écraser au sol. “C’est un problème difficile et de longue date. Beaucoup de gens l’ont examiné mais ne savaient pas comment gérer une dynamique aussi complexe et multidimensionnelle”, explique Chuchu Fan, professeur adjoint en aéronautique et astronautique, membre du Laboratoire d’information et de systèmes de décision (LIDS), et auteur principal d’un nouvel article sur cette technique.

Chuchu Fan est rejoint par l’auteur principal Oswin So, un étudiant diplômé. L’article sera présenté à la conférence Robotics: Science and Systems.

Le défi de stabilisation-évitement

De nombreuses approches abordent les problèmes complexes de stabilisation-évitement en simplifiant le système pour pouvoir le résoudre avec des mathématiques simples, mais les résultats simplifiés ne résistent souvent pas aux dynamiques réelles.

Des techniques plus efficaces utilisent l’apprentissage par renforcement, une méthode d’apprentissage automatique où un agent apprend par essais et erreurs avec une récompense pour un comportement qui le rapproche d’un objectif. Mais il y a vraiment deux objectifs ici – rester stable et éviter les obstacles – et trouver le bon équilibre est fastidieux.

Les chercheurs du MIT ont décomposé le problème en deux étapes. Tout d’abord, ils ont reformulé le problème de stabilisation-évitement en un problème d’optimisation contrainte. Dans cette configuration, la résolution de l’optimisation permet à l’agent d’atteindre et de se stabiliser à son objectif, ce qui signifie qu’il reste dans une certaine région. En appliquant des contraintes, ils s’assurent que l’agent évite les obstacles, explique So.

Pour la deuxième étape, ils ont reformulé ce problème d’optimisation contrainte en une représentation mathématique appelée forme épigraphe et l’ont résolu à l’aide d’un algorithme d’apprentissage par renforcement profond. La forme épigraphe leur permet de contourner les difficultés auxquelles sont confrontées les autres méthodes lorsqu’elles utilisent l’apprentissage par renforcement.

“Mais l’apprentissage par renforcement profond n’est pas conçu pour résoudre la forme épigraphe d’un problème d’optimisation, nous ne pouvions donc pas simplement le brancher sur notre problème. Nous avons dû dériver les expressions mathématiques qui fonctionnent pour notre système. Une fois que nous avions ces nouvelles dérivations, nous les avons combinées avec quelques astuces d’ingénierie existantes utilisées par d’autres méthodes”, explique So.

Pas de points pour la deuxième place

Pour tester leur approche, ils ont conçu un certain nombre d’expériences de contrôle avec différentes conditions initiales. Par exemple, dans certaines simulations, l’agent autonome doit atteindre et rester à l’intérieur d’une zone d’objectif tout en effectuant des manœuvres drastiques pour éviter les obstacles qui sont sur une trajectoire de collision avec lui.

Comparée à plusieurs références, leur approche a été la seule à pouvoir stabiliser toutes les trajectoires tout en maintenant la sécurité. Pour pousser leur méthode encore plus loin, ils l’ont utilisée pour faire voler un avion-jet simulé dans un scénario que l’on pourrait voir dans un film “Top Gun”. L’avion devait se stabiliser à une cible près du sol tout en maintenant une altitude très basse et en restant dans un couloir de vol étroit.

Ce modèle d’avion-jet simulé a été open source en 2018 et avait été conçu par des experts en contrôle de vol comme défi de test. Les chercheurs pourraient-ils créer un scénario que leur contrôleur ne pourrait pas piloter? Mais le modèle était si compliqué qu’il était difficile à travailler et ne pouvait toujours pas gérer des scénarios complexes, explique Fan.

Le contrôleur des chercheurs du MIT a pu empêcher l’avion de s’écraser ou de caler tout en se stabilisant sur l’objectif beaucoup mieux que toutes les références.

Dans le futur, cette technique pourrait être un point de départ pour la conception de contrôleurs pour des robots hautement dynamiques qui doivent répondre à des exigences de sécurité et de stabilité, comme les drones de livraison autonomes. Ou elle pourrait être mise en œuvre dans le cadre d’un système plus large. Peut-être que l’algorithme n’est activé que lorsque la voiture dérape sur une route enneigée pour aider le conducteur à naviguer en toute sécurité vers une trajectoire stable.

Naviguer dans des scénarios extrêmes que l’homme ne serait pas capable de gérer est l’endroit où leur approche brille vraiment, ajoute So.

« Nous croyons qu’un objectif que nous devrions poursuivre en tant que domaine est de donner à l’apprentissage par renforcement les garanties de sécurité et de stabilité dont nous aurons besoin pour nous donner l’assurance lorsque nous déploierons ces contrôleurs sur des systèmes critiques. Nous pensons que c’est une première étape prometteuse vers l’atteinte de cet objectif », déclare-t-il.

À l’avenir, les chercheurs souhaitent améliorer leur technique afin qu’elle soit mieux capable de prendre en compte l’incertitude lors de la résolution de l’optimisation. Ils veulent également étudier le bon fonctionnement de l’algorithme lorsqu’il est déployé sur du matériel, car il y aura des différences entre les dynamiques du modèle et celles du monde réel.

« L’équipe du Professeur Fan a amélioré les performances de l’apprentissage par renforcement pour les systèmes dynamiques où la sécurité est importante. Au lieu de simplement atteindre un objectif, ils créent des contrôleurs qui garantissent que le système peut atteindre sa cible en toute sécurité et y rester indéfiniment », déclare Stanley Bak, professeur adjoint au département d’informatique de l’Université Stony Brook, qui n’a pas participé à cette recherche. « Leur formulation améliorée permet la génération réussie de contrôleurs sûrs pour des scénarios complexes, y compris un modèle d’avion à réaction non linéaire à 17 états conçu en partie par des chercheurs du Laboratoire de recherche de l’Air Force (AFRL), qui intègre des équations différentielles non linéaires avec des tables de portance et de traînée. »

Le travail est financé en partie par le laboratoire Lincoln du MIT dans le cadre du programme Safety in Aerobatic Flight Regimes.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Désinformation sur l'IA Pourquoi ça fonctionne et comment la repérer

Déterminer ce qui est réel en ligne devient de plus en plus difficile. Mais il existe des mesures que vous pouvez pre...

Apprentissage automatique

Rencontrez MeLoDy Un modèle efficace de diffusion texte-audio pour la synthèse musicale.

La musique est un art composé d’harmonie, de mélodie et de rythme qui imprègne tous les aspects de la vie humai...

AI

Google Cloud s'engage à protéger ses clients en matière d'indemnisation concernant l'IA générative

Dans une démarche tournée vers l’avenir, Google Cloud a réaffirmé son engagement envers les intérêts de ses cli...

AI

Un algorithme d'apprentissage inspiré du cerveau permet la métaplasticité dans les réseaux neuronaux artificiels et à impulsions.

L’attribution du crédit dans les réseaux neuronaux pour corriger les erreurs de sortie globales a été déterminé...