Une nouvelle approche de recherche en intelligence artificielle (IA) présente l’apprentissage basé sur les prompts dans le contexte comme un problème d’apprentissage algorithmique d’un point de vue statistique.
A new AI research approach presents context-based prompt learning as a statistical algorithmic learning problem.
L’apprentissage en contexte est un paradigme récent où un modèle de langage large (LLM) observe une instance de test et quelques exemples d’entraînement en tant qu’entrée et décode directement la sortie sans aucune mise à jour de ses paramètres. Cet apprentissage implicite contraste avec l’apprentissage habituel où les poids sont modifiés en fonction des exemples.
Vient maintenant la question de savoir pourquoi l’apprentissage en contexte serait bénéfique. Vous pouvez supposer que vous avez deux tâches de régression que vous souhaitez modéliser, mais la seule limitation est que vous ne pouvez utiliser qu’un seul modèle pour les deux tâches. L’apprentissage en contexte est utile car il peut apprendre les algorithmes de régression par tâche, ce qui signifie que le modèle utilisera des régressions distinctes pour différents ensembles d’entrées.
Dans l’article “Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning,” ils ont formalisé le problème de l’apprentissage en contexte en tant que problème d’apprentissage d’algorithme. Ils ont utilisé un transformateur en tant qu’algorithme d’apprentissage pouvant être spécialisé en s’entraînant à implémenter un autre algorithme cible au moment de l’inférence. Dans cet article, ils ont exploré les aspects statistiques de l’apprentissage en contexte grâce aux transformateurs et ont effectué des évaluations numériques pour vérifier les prédictions théoriques.
- Groupe de recherche Eleuther AI démontre comment le Guidage sans classificateur (CFG) peut être utilisé avec LLMs
- Des chercheurs de l’Université de Binghamton présentent un système d’anonymisation renforçant la confidentialité (My Face, My Choice) pour permettre à chacun de garder le contrôle sur son visage dans les réseaux sociaux de partage de photos.
- Les chercheurs de la CMU présentent FROMAGe un modèle d’IA qui permet de démarrer efficacement des modèles de langage figés (LLMs) pour générer du texte libre entrelacé avec des images.
Dans ce travail, ils ont étudié deux scénarios, dans le premier les mémos sont formés d’une séquence de paires (entrée, étiquette) i.i.d., tandis que dans l’autre la séquence est une trajectoire d’un système dynamique (l’état suivant dépend de l’état précédent: xm+1 = f(xm) + bruit).
Maintenant, la question se pose, comment entraîner un tel modèle ?
Pendant la phase d’entraînement de l’apprentissage en contexte, T tâches sont associées à une distribution de données {Dt}t=1T. Ils échantillonnent indépendamment des séquences d’entraînement St à partir de leur distribution correspondante pour chaque tâche. Ensuite, ils passent une sous-séquence de St et une valeur x de la séquence St pour faire une prédiction sur x. C’est un peu comme le cadre de méta-apprentissage. Après la prédiction, nous minimisons la perte. L’intuition derrière l’entraînement en contexte peut être interprétée comme la recherche de l’algorithme optimal pour s’adapter à la tâche en question.
Ensuite, pour obtenir des bornes de généralisation sur l’apprentissage en contexte, ils ont emprunté certaines conditions de stabilité à la littérature sur la stabilité des algorithmes. Dans l’apprentissage en contexte, un exemple d’entraînement dans le mémo influence les décisions futures des algorithmes à partir de ce point. Ainsi, pour traiter ces perturbations d’entrée, ils ont dû imposer certaines conditions sur l’entrée. Vous pouvez lire [l’article] pour plus de détails. Figure 7 montre les résultats des expériences réalisées pour évaluer la stabilité de l’algorithme d’apprentissage (ici, un transformateur).
RMTL est le risque (~l’erreur) dans l’apprentissage multitâche. L’une des idées issues de la borne dérivée est que l’erreur de généralisation de l’ICL peut être éliminée en augmentant la taille de l’échantillon n ou le nombre de séquences M par tâche. Les mêmes résultats peuvent également s’étendre aux systèmes dynamiques stables.
Regardons maintenant la vérification de ces bornes à l’aide d’évaluations numériques.
L’architecture GPT-2 contenant 12 couches, 8 têtes d’attention et une dimension d’incorporation de 256 est utilisée pour toutes les expériences. Les expériences sont réalisées sur des problèmes de régression et de dynamique linéaire.
- Régression linéaire : Dans les deux figures (2(a) et 2(b)), les résultats de l’apprentissage en contexte (Rouge) surpassent les résultats des moindres carrés (Vert) et sont parfaitement alignés avec la solution optimale de ridge/pondérée (pointillés noirs). Cela prouve ainsi la capacité de sélection automatique du modèle des transformateurs en apprenant les priorités des tâches.
- Systèmes dynamiques partiellement observés : Dans les figures (2(c) et 6), les résultats montrent que l’apprentissage en contexte surpasse les résultats des moindres carrés pour presque toutes les commandes H=1,2,3,4 (où H est la taille de la fenêtre qui glisse sur la séquence d’état d’entrée pour générer l’entrée du modèle, similaire à la longueur de sous-séquence)
En conclusion, ils ont réussi à démontrer que les résultats expérimentaux concordent avec les prédictions théoriques. Pour les futures orientations des travaux, plusieurs questions intéressantes mériteraient d’être explorées.
(1) Les bornes proposées concernent le risque de l’apprentissage multitâche. Comment peut-on contrôler les bornes sur les tâches individuelles ?
(2) Les mêmes résultats des systèmes dynamiques entièrement observés peuvent-ils être étendus à des systèmes dynamiques plus généraux tels que l’apprentissage par renforcement ?
(3) À partir de l’observation, il a été conclu que le risque de transfert dépend uniquement des tâches d’apprentissage multitâche et de leur complexité, et est indépendant de la complexité du modèle. Il serait donc intéressant de caractériser ce biais inductif et quel type d’algorithme est appris par le transformateur.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- L’application ChatGPT d’OpenAI introduit une fonctionnalité de navigation avec l’intégration de Bing.
- Des chercheurs de l’ETH Zurich et de Max Planck proposent HOOD une nouvelle méthode qui exploite les réseaux neuronaux graphiques, le passage de messages multi-niveaux et l’apprentissage non supervisé pour permettre une prédiction efficace de la dynamique réaliste des vêtements.
- Les chercheurs réalisent un bond en avant dans l’informatique quantique avec une torsion magnétique.
- Des chercheurs du MIT introduisent l’échantillonnage de redémarrage pour améliorer les processus génératifs.
- Les 10 influenceurs de l’IA à suivre en 2023
- Les chercheurs de Microsoft présentent KOSMOS-2 un modèle linguistique multimodal de grande envergure capable de se connecter au monde visuel.
- Le système de vision par ordinateur associe la reconnaissance et la génération d’images.