Perceiver AR génération autoregressive à long contexte polyvalente

'Perceiver AR' est un modèle polyvalent autoregressive avec une longue mémoire contextuelle.

Au cours des dernières années, les Transformers autorégressifs ont apporté un flux constant de percées dans la modélisation générative. Ces modèles génèrent chaque élément d’un échantillon – les pixels d’une image, les caractères d’un texte (généralement en “jetons” chunks), les échantillons d’une forme d’onde audio, etc. – en prédisant un élément après l’autre. Lors de la prédiction de l’élément suivant, le modèle peut se référer à ceux qui ont été créés précédemment.

Cependant, chacune des couches d’un Transformer devient plus coûteuse à mesure que plus d’éléments sont utilisés en entrée, et les praticiens ne peuvent se permettre de former des Transformers profonds sur des séquences de plus de 2 048 éléments. Ainsi, la plupart des modèles basés sur les Transformers ignorent tous les éléments au-delà du passé le plus récent (environ 1 500 mots ou 1/6 d’une petite image) lorsqu’ils font une prédiction.

En revanche, nos modèles Perceiver récemment développés donnent d’excellents résultats sur une variété de tâches réelles avec jusqu’à environ 100 000 éléments. Les Perceivers utilisent une attention croisée pour encoder les entrées dans un espace latent, dissociant les exigences de calcul de l’entrée de la profondeur du modèle. Les Perceivers dépensent également un coût fixe, indépendamment de la taille de l’entrée, à presque chaque couche.

Alors que l’encodage de l’espace latent gère tous les éléments en une seule passe, la génération autorégressive suppose que le traitement se fait élément par élément. Pour résoudre ce problème, Perceiver AR propose une solution simple : aligner les latents un par un avec les éléments finaux de l’entrée, et masquer soigneusement l’entrée afin que les latents ne voient que les éléments précédents.

Perceiver AR mappe une séquence d'entrée (P e r c e i v e r A R) dans un petit espace latent par attention croisée pour produire un latent pour chaque jeton cible (3 latents montrés, un pour les cibles A R <EOS>, pour E nd O f S equence). Ces latents sont ensuite traités par un empilement profond de couches d'auto-attention. Perceiver AR peut être formé pour la génération autorégressive de bout en bout, tout en utilisant des séquences d'entrée très longues.

Le résultat est une architecture (montrée ci-dessus) qui s’intéresse à des entrées jusqu’à 50 fois plus longues que les Transformers standard, tout en se déployant aussi largement (et essentiellement aussi facilement) que les Transformers standard en mode décodage uniquement.

À mesure que la longueur du contexte ou la taille du modèle augmente, la quantité de calcul nécessaire pour former un modèle augmente. Nous pouvons quantifier le budget de calcul pour différents modèles en mesurant leur vitesse sur du matériel réel (étapes par seconde sur TPUv3), à mesure que la longueur du contexte d'entrée et la taille du modèle augmentent. Contrairement à d'autres modèles génératifs comme Transformer ou Transformer-XL, Perceiver AR dissocie la longueur du contexte d'entrée de la profondeur du modèle, ce qui nous permet de déployer facilement les modèles profonds nécessaires pour modéliser de longues séquences sur les TPU ou les GPU de dernière génération.

Perceiver AR s’échelle considérablement mieux avec la taille que les Transformers standard et les modèles Transformer-XL pour une gamme de longueurs de séquence en termes réels. Cette propriété nous permet de construire des modèles de long-contexte très efficaces. Par exemple, nous constatons qu’un Perceiver AR de 60 couches avec une longueur de contexte de 8192 surpasse un Transformer-XL de 42 couches dans une tâche de génération de livre, tout en s’exécutant plus rapidement en termes de temps réel.

Sur des benchmarks de génération d’images standard, de langage (PG-19) et de musique (MAESTRO) à long-contexte, Perceiver AR produit des résultats de pointe. L’augmentation du contexte d’entrée en dissociant la taille de l’entrée du budget de calcul conduit à plusieurs résultats intrigants :

  • Le budget de calcul peut être adapté au moment de l’évaluation, ce qui nous permet de dépenser moins et de dégrader progressivement la qualité, ou de dépenser davantage pour améliorer la génération.
  • Un contexte plus large permet à Perceiver AR de surpasser Transformer-XL, même en dépensant la même quantité de calcul. Nous constatons qu’un contexte plus important entraîne une amélioration des performances du modèle, même à une échelle abordable (~1 milliard de paramètres).
  • La qualité des échantillons de Perceiver AR présente une sensibilité beaucoup moins importante à l’ordre dans lequel il génère les éléments. Cela rend Perceiver AR facile à appliquer dans des configurations qui n’ont pas d’ordre naturel de gauche à droite, comme les données telles que les images, avec une structure qui s’étend sur plus d’une dimension.

En utilisant un ensemble de données de musique de piano, nous avons entraîné Perceiver AR à générer de nouvelles pièces de musique à partir de rien. Parce que chaque nouvelle note est prédite en fonction de la séquence complète des notes qui la précèdent, Perceiver AR est capable de produire des pièces avec un haut niveau de cohérence mélodique, harmonique et rythmique :

En savoir plus sur l’utilisation de Perceiver AR :

  • Télécharger le code JAX pour l’entraînement de Perceiver AR sur Github
  • Lire notre article sur arXiv
  • Découvrir notre présentation en vedette à ICML 2022

Voir l’article du blog Google Magenta avec plus de musique !

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Traitement du langage visuel guidé par le dialogue avec Amazon SageMaker JumpStart

Le traitement du langage visuel (VLP) est à la pointe de l'IA générative, stimulant les avancées dans l'apprentissage...

AI

L'IA atterrit à l'aéroport de Bengaluru avec la plateforme d'analyse vidéo intelligente de l'entreprise IoT

Chaque année, près de 32 millions de personnes voyagent à travers l’aéroport de Bengaluru, ou BLR, l’un d...

AI

Des chercheurs de Princeton présentent MeZO un optimiseur à ordre zéro efficace en mémoire qui peut affiner les grands modèles de langage (LLMs).

Les grands modèles de langage évoluent rapidement avec le succès retentissant de l’Intelligence Artificielle Gé...

AI

Les chercheurs de l'UCL et d'Imperial College London dévoilent l'apprentissage automatique économe en énergie grâce à la réserve adaptative de tâches.

Les ordinateurs conventionnels consomment beaucoup d’énergie ; ils représentent environ 10 % des besoins mondia...

AI

L'outil client de synthèse vocale de Xenova une plateforme d'IA robuste et flexible pour produire une parole synthétique naturelle et réaliste

Le développement de la technologie de synthèse vocale (TTS) a donné lieu à des produits impressionnants, notamment le...