Découvrez WebAgent le nouvel LLM de DeepMind qui suit les instructions et accomplit des tâches sur les sites web.

Découvrez WebAgent, le nouvel LLM de DeepMind qui accomplit des tâches sur les sites web.

Le modèle combine la compréhension du langage et la navigation Web.

Créé en utilisant Midjourney

J’ai récemment lancé une newsletter éducative axée sur l’intelligence artificielle, qui compte déjà plus de 160 000 abonnés. TheSequence est une newsletter orientée ML (c’est-à-dire sans hype, sans actualités, etc.) qui prend 5 minutes à lire. L’objectif est de vous tenir au courant des projets d’apprentissage automatique, des articles de recherche et des concepts. Essayez-la en vous abonnant ci-dessous :

TheSequence | Jesus Rodriguez | Substack

La meilleure source pour rester à jour des développements dans les domaines de l’apprentissage automatique, de l’intelligence artificielle et des données…

thesequence.substack.com

L’intégration entre les grands modèles de langage (LLM) et les sites Web est l’un des domaines qui peut débloquer une nouvelle vague d’applications alimentées par LLM. Les LLM ont démontré une compétence remarquable dans une large gamme de tâches de langage naturel, allant des calculs de base et du raisonnement logique aux défis plus complexes tels que la compréhension du bon sens, la réponse aux questions et même la prise de décision interactive. L’ajout de la navigation Web à ces capacités donne une combinaison très puissante. Récemment, Google DeepMind a dévoilé Web Agent, un agent autonome piloté par LLM capable de naviguer sur de vrais sites Web en fonction des instructions de l’utilisateur.

L’implémentation réelle de la navigation Web a posé des défis uniques, notamment

(1) l’absence d’un espace d’action prédéfini.

(2) la présence d’observations HTML beaucoup plus longues par rapport aux simulateurs.

(3) l’absence de connaissances spécifiques au domaine sur HTML au sein des LLM.

Ces obstacles découlent de la nature illimitée des sites Web réels et de la complexité des instructions, ce qui rend difficile la définition préalable d’un espace d’action approprié. Bien que certaines recherches aient mis en évidence le potentiel de l’affinage des instructions ou de l’apprentissage par renforcement à partir des commentaires humains pour améliorer la compréhension HTML et la précision de la navigation, les conceptions des LLM n’ont pas toujours été optimisées pour traiter efficacement les documents HTML. En particulier, la plupart des LLM ont des longueurs de contexte relativement courtes, insuffisantes pour gérer les longueurs moyennes des jetons trouvées dans les sites Web réels, et peuvent ne pas adopter les techniques cruciales pour traiter les documents structurés.

Crédit Image : DeepMind

Entrez dans WebAgent

WebAgent aborde la tâche en planifiant des sous-instructions pour chaque étape, en résumant de longues pages HTML en extraits pertinents basés sur ces sous-instructions, et en exécutant la tâche en ancrant les sous-instructions et extraits HTML dans des codes Python exécutables. Pour construire WebAgent, Google DeepMind combine deux LLM : “Flan-U-PaLM” pour générer du code ancré et “HTML-T5”, un modèle de langage pré-entraîné expert dans le domaine, responsable de la planification des tâches et de la résumé conditionnel de HTML. HTML-T5, conçu avec une architecture encodeur-décodeur, excelle dans la capture de la structure des longues pages HTML en utilisant des mécanismes d’attention locaux et globaux, et il est pré-entraîné en auto-supervision sur un vaste corpus de données HTML synthétisées à partir de CommonCrawl.

Les agents pilotés par LLM existants gèrent généralement les tâches de prise de décision avec un seul LLM en proposant différents exemples par rôle. Cependant, pour des tâches réelles plus complexes, cette approche est insuffisante. Les évaluations complètes de Google DeepMind démontrent que la méthode combinée de WebAgent, intégrant des modèles de langage plug-in, améliore considérablement la compréhension et l’ancrage HTML, ce qui permet une meilleure généralisation. WebAgent atteint une augmentation de plus de 50% des taux de réussite pour la navigation Web réelle, et une analyse détaillée révèle le rôle crucial de la planification des tâches couplée à la résumé HTML en utilisant des modèles de langage spécialisés pour une exécution réussie des tâches. De plus, WebAgent se comporte admirablement dans les tâches de compréhension de site Web statique, dépassant les LLM uniques en termes de précision des réponses aux questions et se positionnant de manière compétitive par rapport aux références solides.

WebAgent de Google DeepMind est une composition innovante de deux modèles de langage distincts, HTML-T5 et Flan-U-PaLM, travaillant ensemble pour permettre des tâches d’automatisation Web efficaces impliquant la navigation et le traitement de documents HTML.

Crédit Image : DeepMind

HTML-T5, un modèle de langage encodeur-décodeur expert dans le domaine, joue un rôle crucial dans la prédiction de sous-instructions pour le programme de l’étape suivante et la résumé conditionnel de documents HTML longs. Ce modèle spécialisé trouve un équilibre entre les capacités générales des modèles de langage tels que T5, Flan-T5 et Instruct-GPT, qui présentent une navigation web supérieure avec une forte compréhension de l’HTML, et les biais inductifs spécifiques à l’HTML présents dans les modèles de transformateur antérieurs tels que ceux proposés par Guo et al. HTML-T5 exploite des mécanismes d’attention locaux et globaux dans l’encodeur pour gérer efficacement la structure hiérarchique des entrées HTML. L’attention locale se concentre sur les jetons proches à gauche et à droite de chaque élément de l’HTML, tels que <input>, <label> ou <button>, tandis que l’attention globale transitoire permet aux jetons de s’occuper au-delà du voisinage immédiat, en divisant la séquence d’entrée en blocs et en calculant des jetons globaux par sommation et normalisation. Cette approche hiérarchique s’aligne naturellement avec la structure des documents HTML, où les éléments sont définis localement et intégrés globalement de manière itérative, tels que <body>, <form> ou <div>. Le modèle est pré-entraîné sur un corpus HTML à grande échelle extrait de CommonCrawl, en utilisant un mélange d’objectifs de débruitage à longue portée.

Contrairement à l’attention dense traditionnelle utilisée dans les modèles de langage naturel, l’adoption d’HTML-T5 de mécanismes d’attention locaux et globaux capture mieux la hiérarchie explicite présente dans les documents HTML. Les éléments feuilles dans l’HTML (par exemple, <input>, <label>, etc.) sont efficacement traités à l’aide de l’attention locale, tandis que les éléments internes (par exemple, <body>, <form>, etc.) sont compressés dans l’attention globale transitoire. Ce choix de conception s’aligne parfaitement avec la syntaxe hiérarchique de l’HTML, améliorant ainsi la capacité du modèle à comprendre la structure et les attributs des éléments HTML.

Crédit image : DeepMind

Pour mettre en œuvre HTML-T5, Google DeepMind s’appuie sur l’architecture de base de LongT5, qui intègre une attention dense dans le décodeur. Cette combinaison de mécanismes d’attention locaux et globaux avec l’attention dense du décodeur offre une solution efficace et complète pour la gestion des documents HTML dans les tâches d’automatisation web.

Les résultats

Pour illustrer les capacités du WebAgent de Google DeepMind, examinons l’automatisation dans le contexte d’un site web immobilier. Dans ce cadre, WebAgent illustre un flux puissant englobant la planification, la synthèse et la programtation ancrée. Dans ce processus, HTML-T5 prend la tête, en utilisant une approche itérative pour prédire les sous-instructions décomposées et les extraits pertinents pour la tâche, représentés en orange, en analysant de près les documents HTML, les instructions en jaune et les prédictions historiques en vert. Simultanément, Flan-U-PaLM, déclenché par les sous-instructions et les extraits en orange, décode habilement des programmes Python représentés en bleu.

Crédit image : DeepMind
Crédit image : DeepMind

Les résultats obtenus par WebAgent sont vraiment remarquables, avec un taux de réussite impressionnant de 70% sur de vrais sites web. Cette avancée significative dépasse les performances de l’approche LLM unique de plus de 50%. Cette réalisation indique que la décomposition de la tâche en une séquence de sous-problèmes, chacun étant traité par différents modèles de langage, peut considérablement améliorer la réussite globale de la tâche.

De plus, Google DeepMind présente une recette innovante et évolutive pour la création de modèles de langage spécialisés dans l’HTML. Cette approche implique la formation de mécanismes d’attention locaux et globaux en utilisant une combinaison d’objectifs de débruitage à longue portée. L’objectif ultime est de capturer habilement les structures hiérarchiques sous-jacentes aux documents HTML, ouvrant la voie à une meilleure compréhension et à une gestion plus efficace des tâches liées à l’HTML.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les effets de ChatGPT dans les écoles et pourquoi il est en train d'être interdit.

De nombreuses écoles interdisent ChatGPT en raison de problèmes de plagiat, d'exactitude et de confidentialité. Cepen...

AI

Que ont en commun les neurones, les lucioles et danser le Nutbush ?

Les informaticiens et les mathématiciens ont conçu un cadre pour évaluer les phénomènes synchronisés.

Actualités sur l'IA

Après Amazon, une ambition d'accélérer la fabrication américaine.

Jeff Wilke, diplômé du programme LGO en 1993 et ancien PDG de la division consommateur mondiale d'Amazon, apporte son...

AI

Recherche Stanford présente FlashAttention-2 Un bond en vitesse et en efficacité pour les modèles de langage à long contexte

Au cours de l’année écoulée, le traitement du langage naturel a connu des avancées remarquables avec l’ém...

AI

Les revendications sur les supraconducteurs pourraient entraîner des progrès, même si elles sont fausses

Les experts ont raison de se méfier des affirmations selon lesquelles un supraconducteur à température ambiante et à ...