Rencontrez Gorilla LLM augmenté par l’API de UC Berkeley et Microsoft surpasse GPT-4, Chat-GPT et Claude.

Gorilla LLM, enhanced by UC Berkeley and Microsoft's API, surpasses GPT-4, Chat-GPT, and Claude.

Le modèle est enrichi avec des APIs de Torch Hub, TensorFlow Hub et HuggingFace.

J’ai récemment lancé une newsletter éducative axée sur l’IA qui compte déjà plus de 160 000 abonnés. TheSequence est une newsletter orientée ML (pas de hype, pas de nouvelles, etc.) qui prend 5 minutes à lire. Le but est de vous tenir au courant des projets d’apprentissage automatique, des articles de recherche et des concepts. Essayez-la en vous abonnant ci-dessous :

Les récents progrès dans les grands modèles de langage (LLM) ont révolutionné le domaine, en leur donnant de nouvelles capacités telles que le dialogue naturel, le raisonnement mathématique et la synthèse de programmes. Cependant, les LLM sont encore confrontés à des limites inhérentes. Leur capacité à stocker des informations est limitée par des poids fixes, et leurs capacités de calcul sont limitées à un graphe statique et à un contexte étroit. De plus, à mesure que le monde évolue, les LLM ont besoin d’une nouvelle formation pour mettre à jour leurs connaissances et leurs capacités de raisonnement. Pour surmonter ces limites, les chercheurs ont commencé à doter les LLM d’outils. En donnant accès à des bases de connaissances étendues et dynamiques et en permettant des tâches de calcul complexes, les LLM peuvent exploiter les technologies de recherche, les bases de données et les outils de calcul. Les principaux fournisseurs de LLM ont commencé à intégrer des plugins qui permettent aux LLM d’invoquer des outils externes via des API. Cette transition d’un ensemble limité d’outils codés à la main à l’accès à une vaste gamme d’API cloud a le potentiel de transformer les LLM en l’interface principale pour l’infrastructure informatique et le web. Des tâches telles que la réservation de vacances ou l’organisation de conférences pourraient être aussi simples que de converser avec un LLM qui a accès aux API web de vol, de location de voiture, d’hôtel, de restauration et de divertissement.

Récemment, des chercheurs de l’UC Berkeley et de Microsoft ont dévoilé Gorilla, un modèle LLaMA-7B conçu spécifiquement pour les appels d’API. Gorilla s’appuie sur l’auto-instruction pour l’affinage et les techniques de récupération pour permettre aux LLM de sélectionner avec précision un grand nombre d’outils exprimés au moyen de leurs API et de leur documentation. Les auteurs construisent un corpus important d’API, appelé APIBench, en récupérant des API d’apprentissage automatique des principaux hubs de modèles tels que TorchHub, TensorHub et HuggingFace. En utilisant l’auto-instruction, ils génèrent des paires d’instructions et d’API correspondantes. Le processus d’affinage implique de convertir les données en un format de conversation de style chat utilisateur-agent et de réaliser un affinage d’instructions standard sur le modèle de base LLaMA-7B.

Les appels d’API sont souvent assortis de contraintes, ce qui ajoute de la complexité à la compréhension et à la catégorisation des appels par les LLM. Par exemple, une consigne peut exiger l’invocation d’un modèle de classification d’images avec des tailles de paramètres et des contraintes de précision spécifiques. Ces défis soulignent la nécessité pour les LLM de comprendre non seulement la description fonctionnelle d’un appel d’API, mais aussi de raisonner sur les contraintes intégrées.

L’ensemble de données

L’ensemble de données axé sur la technologie comprend trois domaines distincts : Torch Hub, Tensor Hub et HuggingFace. Chaque domaine apporte une mine d’informations, éclairant la nature diverse de l’ensemble de données. Torch Hub, par exemple, offre 95 API, fournissant une base solide. En comparaison, Tensor Hub va encore plus loin avec une vaste collection de 696 API. Enfin, HuggingFace est en tête avec un impressionnant total de 925 API, ce qui en fait le domaine le plus complet.

Pour amplifier la valeur et l’utilité de l’ensemble de données, un effort supplémentaire a été entrepris. Chaque API de l’ensemble de données est accompagnée d’un ensemble de 10 instructions méticuleusement conçues et spécialement adaptées. Ces instructions servent de guides indispensables à des fins de formation et d’évaluation. Cette initiative garantit que chaque API va au-delà de la simple représentation, permettant une utilisation et une analyse plus robustes.

L’architecture

Gorilla introduit la notion de formation consciente du récupérateur, où l’ensemble de données affiné pour les instructions comprend un champ supplémentaire avec la documentation d’API récupérée à titre de référence. Cette approche vise à enseigner aux LLM à analyser et à répondre aux questions en fonction de la documentation fournie. Les auteurs démontrent que cette technique permet aux LLM de s’adapter aux changements de la documentation de l’API, améliore les performances et réduit les erreurs de hallucination.

Lors de l’inférence, les utilisateurs fournissent des consignes en langage naturel. Gorilla peut fonctionner en deux modes : zéro-shot et récupération. En mode zéro-shot, la consigne est directement alimentée au modèle LLM Gorilla, qui renvoie l’appel d’API recommandé pour accomplir la tâche ou l’objectif. En mode de récupération, le récupérateur (BM25 ou GPT-Index) récupère la documentation d’API la plus à jour de la base de données d’API. Cette documentation est concaténée avec la consigne de l’utilisateur, ainsi qu’un message indiquant la référence à la documentation d’API. L’entrée concaténée est ensuite transmise à Gorilla, qui renvoie l’API à invoquer. L’affinage de la consigne n’est pas effectué au-delà de l’étape de concaténation dans ce système.

La synthèse de programmes inductifs a réussi dans divers domaines en synthétisant des programmes qui répondent à des cas de test spécifiques. Cependant, lorsqu’il s’agit d’évaluer des appels d’API, se fier uniquement aux cas de test est insuffisant car il devient difficile de vérifier la correction sémantique du code. Prenons l’exemple de la classification d’images, où il existe plus de 40 modèles différents disponibles pour la tâche. Même si nous le limitons à une famille spécifique, comme Densenet, il existe quatre configurations possibles. Par conséquent, plusieurs réponses correctes existent, ce qui rend difficile de déterminer si l’API utilisée est fonctionnellement équivalente à l’API de référence grâce aux tests unitaires. Pour évaluer les performances du modèle, une comparaison de leur équivalence fonctionnelle est effectuée en utilisant l’ensemble de données collecté. Pour identifier l’API appelée par LLM dans l’ensemble de données, une stratégie de correspondance d’arbres AST (arbre de syntaxe abstraite) est employée. En vérifiant si l’AST d’un appel d’API candidat est un sous-arbre de l’appel d’API de référence, il devient possible de tracer quelle API est utilisée.

Identifier et définir les hallucinations pose un défi important. Le processus de correspondance d’AST est utilisé pour identifier directement les hallucinations. Dans ce contexte, une hallucination fait référence à un appel d’API qui n’est pas un sous-arbre d’une API dans la base de données, invoquant ainsi un outil entièrement imaginé. Il est important de noter que cette définition d’hallucination diffère de l’invocation incorrecte d’une API, qui est définie comme une erreur.

La correspondance de sous-arbres AST joue un rôle crucial dans l’identification de l’API spécifique appelée dans l’ensemble de données. Étant donné que les appels d’API peuvent avoir plusieurs arguments, chacun de ces arguments doit être mis en correspondance. De plus, étant donné que Python permet des arguments par défaut, il est essentiel de définir quels arguments mettre en correspondance pour chaque API dans la base de données.

Gorilla en action

En collaboration avec l’article, les chercheurs ont publié une version open source de Gorilla. La version comprend un notebook avec de nombreux exemples. De plus, la vidéo suivante montre clairement une partie de la magie de Gorilla.

gorilla_720p.mp4

Gorilla est l’une des approches les plus intéressantes dans l’espace LLM augmenté d’outils. Nous espérons voir le modèle distribué dans certains des principaux centres de ML de l’espace.

Jésus Rodriguez est actuellement CTO chez Intotheblock. Il est un expert en technologie, investisseur exécutif et conseiller en démarrage. Jésus a fondé Tellago, une entreprise de développement de logiciels primée qui aide les entreprises à devenir de grandes organisations de logiciels en exploitant les nouvelles tendances des logiciels d’entreprise.

Original. Reposté avec permission.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Comment les modèles de fondation sont-ils utilisés dans les jeux vidéo ?

Les technologies d’IA ont un impact massif dans divers secteurs, y compris les médias et le divertissement, l&#...

Apprentissage automatique

Comment construire une IA responsable avec TensorFlow ?

Introduction L’Intelligence Artificielle (IA) est en plein essor, avec des centaines de nouvelles applications,...

AI

Que signifie-t-il lorsque l'apprentissage automatique commet une erreur ?

Nos définitions habituelles de erreur ont-elles du sens dans les discussions sur l'apprentissage automatique/intellig...

AI

La nanophotonique aplatit les lentilles de caméra

La méta-optique à l'échelle nanométrique promet une amélioration de l'imagerie tout en éliminant les bosses des smart...

AI

Une nouvelle recherche en intelligence artificielle en provenance de Chine propose Meta-Transformer un cadre d'intelligence artificielle unifié pour l'apprentissage multimodal

Le cerveau humain, considéré comme le paradigme des théories des réseaux neuronaux, traite simultanément des informat...