Décodage des opportunités et des défis pour les agents LLM dans l’IA générative

Défis et opportunités pour les agents LLM dans l'IA générative

Nous assistons à une progression des applications d’IA générative alimentées par de grands modèles linguistiques (LLM), des invites à la génération augmentée par la recherche (RAG) aux agents. Les agents font beaucoup parler d’eux dans les milieux industriels et de la recherche, principalement en raison du pouvoir que cette technologie confère pour transformer les applications d’entreprise et offrir des expériences client supérieures. Il existe des schémas courants pour construire des agents qui permettent les premières étapes vers une intelligence artificielle générale (AGI).

Dans mon article précédent, nous avons vu une échelle d’intelligence des schémas pour construire des applications alimentées par LLM. En commençant par des invites qui capturent le domaine du problème et utilisent la mémoire interne de LLM pour générer une sortie. Avec RAG, nous complétons l’invite avec des connaissances externes recherchées dans une base de données vectorielle pour contrôler les sorties. Ensuite, en enchaînant les appels LLM, nous pouvons construire des flux de travail pour réaliser des applications complexes. Les agents portent cela à un niveau supérieur en déterminant automatiquement comment ces chaînes LLM doivent être formées. Examinons cela en détail.

Agents – Sous le capot

Un schéma clé avec les agents est qu’ils utilisent la puissance de compréhension du langage de LLM pour établir un plan sur la manière de résoudre un problème donné. LLM comprend le problème et nous fournit une séquence d’étapes pour résoudre le problème. Cependant, cela ne s’arrête pas là. Les agents ne sont pas un simple système de support qui vous fournira des recommandations pour résoudre le problème, puis vous passeront le relais pour prendre les mesures recommandées. Les agents sont dotés d’outils pour prendre l’initiative. Effrayant, n’est-ce pas ?

Si nous posons une question de base à un agent comme celle-ci :

Humain : Par quelle entreprise l’inventeur du téléphone a-t-il commencé ?

Voici un exemple d’étapes de réflexion qu’un agent peut prendre.

Agent (RÉFLEXION) :

  • Pensée : Je dois chercher l’inventeur du téléphone.
  • Action : Recherche [inventeur du téléphone]
  • Observation : Alexander Graham Bell
  • Pensée : Je dois chercher une entreprise fondée par Alexander Graham Bell
  • Action : Recherche [entreprise fondée par Alexander Graham Bell]
  • Observation : Alexander Graham Bell a co-fondé la compagnie American Telephone and Telegraph (AT&T) en 1885
  • Pensée : J’ai trouvé la réponse. Je vais la donner.

Agent (RÉPONSE) : Alexander Graham Bell a co-fondé AT&T en 1885

Vous pouvez voir que l’agent suit une méthode systématique pour décomposer le problème en sous-problèmes pouvant être résolus en prenant des actions spécifiques. Les actions ici sont recommandées par LLM et nous pouvons les mapper à des outils spécifiques pour mettre en œuvre ces actions. Nous pourrions activer un outil de recherche pour l’agent de sorte que lorsqu’il se rend compte que LLM a fourni une action de recherche, il appellera cet outil avec les paramètres fournis par LLM. La recherche ici se fait sur Internet, mais peut également être redirigée vers une base de connaissances interne telle qu’une base de données vectorielle. Le système devient alors autonome et peut résoudre des problèmes complexes en suivant une série d’étapes. Des frameworks tels que LangChain et LLaMAIndex vous permettent de construire facilement ces agents et de vous connecter à des outils et des API. Amazon a récemment lancé son framework Bedrock Agents qui fournit une interface visuelle pour la conception d’agents.

Sous le capot, les agents suivent un style spécial d’envoi d’invites à LLM, ce qui les amène à générer un plan d’action. Le schéma Pensée-Action-Observation ci-dessus est populaire dans un type d’agent appelé ReAct (Raisonnement et Action). D’autres types d’agents incluent MRKL et Plan & Execute, qui diffèrent principalement par leur style d’invite.

Pour des agents plus complexes, les actions peuvent être liées à des outils qui entraînent des modifications dans les systèmes source. Par exemple, nous pourrions connecter l’agent à un outil qui vérifie le solde des congés et demande un congé dans un système ERP pour un employé. Maintenant, nous pourrions construire un chatbot agréable qui interagirait avec les utilisateurs et, via une commande de chat, demanderait un congé dans le système. Plus de captures d’écran complexes pour demander des congés, une interface de chat unifiée simple. Ça semble excitant, non ?

Limitations et besoin d’une IA responsable

Et maintenant, que se passe-t-il si nous avons un outil qui invoque des transactions de trading sur actions en utilisant une API pré-autorisée. Vous construisez une application où l’agent étudie les variations des actions (en utilisant des outils) et prend des décisions d’achat et de vente d’actions pour vous. Et si l’agent vendait la mauvaise action parce qu’il hallucinait et prenait une mauvaise décision ? Étant donné que les LLM sont d’énormes modèles, il est difficile de déterminer pourquoi ils prennent certaines décisions, d’où les hallucinations sont courantes en l’absence de garde-fous appropriés.

Alors que les agents sont tous fascinants, vous avez probablement deviné à quel point ils peuvent être dangereux. S’ils hallucinent et prennent une mauvaise décision, cela pourrait entraîner d’énormes pertes financières ou des problèmes majeurs dans les systèmes d’entreprise. C’est pourquoi l’IA responsable devient d’une importance capitale à l’ère des applications alimentées par LLM. Les principes de l’IA responsable, tels que la reproductibilité, la transparence et la responsabilité, tentent de mettre des garde-fous sur les décisions prises par les agents et suggèrent une analyse des risques pour décider quelles actions nécessitent l’intervention humaine. À mesure que des agents de plus en plus complexes sont conçus, ils nécessitent un examen plus approfondi, plus de transparence et de responsabilité pour nous assurer de ce qu’ils font.

Réflexions finales

La capacité des agents à générer une séquence d’étapes logiques avec des actions les rapproche vraiment du raisonnement humain. Les doter d’outils plus puissants peut leur donner des superpouvoirs. Des modèles tels que ReAct tentent d’imiter la façon dont les humains résolvent le problème, et nous verrons des modèles d’agents meilleurs et plus pertinents pour des contextes et des domaines spécifiques (banque, assurance, santé, industrie, etc.). Le futur est là et la technologie derrière les agents est prête à être utilisée. En même temps, nous devons accorder une attention particulière aux garde-fous de l’IA responsable pour nous assurer que nous ne sommes pas en train de construire Skynet !

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Calme, Cool et Créatif MUE Studio présente des scènes 3D Dans le Studio NVIDIA

Note de l’éditeur : Cet article fait partie de notre série hebdomadaire In the NVIDIA Studio, qui célèbre les a...

AI

La Brigade Artistique d'Arteana' se rassemble - le créateur indépendant Rafi Nizam crée une émission pour enfants haut de gamme avec un budget limité.

Remarque de l’éditeur : Cet article fait partie de notre série hebdomadaire In the NVIDIA Studio, qui célèbre l...

Science des données

Rendered.ai intègre NVIDIA Omniverse pour la génération de données synthétiques.

Rendered.ai facilite l’entraînement de l’IA pour les développeurs, les scientifiques des données et dR...

AI

Virtuellement incroyable Mercedes-Benz prépare son système de production numérique pour la plateforme de nouvelle génération avec NVIDIA Omniverse, MB.OS et l'IA générative

Mercedes-Benz utilise des jumeaux numériques pour la production avec l’aide de NVIDIA Omniverse, une plateforme...

AI

NVIDIA rend le streaming de réalité étendue plus évolutif et personnalisable pour les entreprises et les développeurs

Les organisations de tous les secteurs utilisent la réalité étendue (XR) pour repenser les flux de travail et amélior...

AI

'Mon application 3D préférée' Un fanatique de Blender partage sa scène inspirée du Japon cette semaine 'Dans le NVIDIA Studio'

Remarque de l’éditeur: Cet article fait partie de notre série hebdomadaire In the NVIDIA Studio, qui célèbre le...