ChatGPT et l’ingénierie avancée des prompts Stimuler l’évolution de l’IA

ChatGPT et l'ingénierie avancée des prompts Stimuler l'évolution de l'IA

OpenAI a joué un rôle essentiel dans le développement d’outils révolutionnaires tels que OpenAI Gym, conçu pour former des algorithmes de renforcement, et les modèles GPT-n. DALL-E est également à l’honneur, un modèle d’IA qui crée des images à partir d’entrées textuelles. Un modèle qui a suscité beaucoup d’attention est ChatGPT d’OpenAI, un exemple brillant dans le domaine des modèles de langage de grande taille.

GPT-4 : Ingénierie des instructions

ChatGPT a transformé le paysage des chatbots en offrant des réponses semblables à celles d’un être humain aux entrées de l’utilisateur et en étendant ses applications à différents domaines, de développement et de test de logiciels à la communication d’entreprise, voire à la création de poésie.

Entre les mains des entreprises et des particuliers, GPT-4 pourrait par exemple servir de réservoir de connaissances inépuisable, compétent dans des sujets allant des mathématiques et de la biologie aux études juridiques. De tels modèles d’IA sophistiqués et accessibles sont destinés à redéfinir l’avenir du travail, de l’apprentissage et de la créativité.

Les modèles génératifs tels que GPT-4 peuvent produire de nouvelles données à partir d’entrées existantes. Cette caractéristique distinctive leur permet d’accomplir diverses tâches, notamment la génération de texte, d’images, de musique et de vidéo.

Dans le contexte de ChatGPT et des modèles OpenAI, une instruction est l’entrée que les utilisateurs fournissent aux modèles, généralement sous forme de texte. Les instructions servent de moyen principal de contrôle de la sortie générée par ces modèles, ce qui les rend essentielles pour des conversations réussies et pertinentes.

L’impact de la qualité de l’instruction

L’utilisation d’instructions bien définies est la clé pour engager des conversations utiles et significatives avec les systèmes d’IA. Des instructions mal définies peuvent entraîner une sortie qui n’est pas utile pour l’utilisateur et peuvent même conduire à un contenu trompeur.

Pour illustrer l’impact de la qualité de l’instruction, comparons deux instructions différentes données à ChatGPT. La première instruction, mal définie et supposant des connaissances préalables, génère une réponse potentiellement inutile pour l’utilisateur. En revanche, la deuxième instruction fournit plus de contexte et d’exemples, garantissant une réponse plus pertinente et compréhensible.

Instruction 1 : “Parlez-moi des réseaux neuronaux convolutifs.”

Réponse 1 : “Les réseaux neuronaux convolutifs (CNN) sont des réseaux de perceptrons multicouches qui se composent de couches entièrement connectées et de couches de pooling. Ils sont couramment utilisés dans les tâches de reconnaissance d’images. Le processus implique l’application de filtres aux images d’entrée et leur réduction de taille à l’aide de couches de pooling.”

Instruction 2 : “Je veux en savoir plus sur les réseaux neuronaux convolutifs, mais je n’ai aucune connaissance préalable des réseaux neuronaux artificiels. Pouvez-vous fournir une explication adaptée aux débutants et un exemple de l’utilisation des CNN dans la reconnaissance d’images ?”

Réponse 2 : “Les réseaux neuronaux convolutifs (CNN) sont un type de réseau neuronal principalement utilisé pour les tâches de reconnaissance d’images. Contrairement à d’autres réseaux neuronaux, ils exploitent des couches convolutives et des couches de pooling pour traiter les images. Imaginez que vous ayez une image d’un chat. Les CNN peuvent identifier différentes caractéristiques de l’image, telles que les moustaches, les oreilles et la queue, en appliquant des filtres et en réduisant la taille de l’image à l’aide de couches de pooling. Ce processus rend les CNN très efficaces pour reconnaître les objets dans les images.”

En comparant les deux réponses, il est évident qu’une instruction bien définie conduit à une réponse plus pertinente et conviviale. La conception et l’ingénierie des instructions sont des disciplines en plein essor qui visent à optimiser la qualité de la sortie des modèles d’IA tels que ChatGPT.

Dans les sections suivantes de cet article, nous explorerons le domaine des méthodologies avancées visant à affiner les modèles de langage de grande taille (LLMs), telles que les techniques et tactiques d’ingénierie des instructions. Celles-ci incluent l’apprentissage à quelques exemples, ReAct, la chaîne de pensée, RAG, et bien d’autres.

Techniques d’ingénierie avancées

Avant de continuer, il est important de comprendre un problème clé avec les LLMs, appelé “hallucination”. Dans le contexte des LLMs, “hallucination” signifie la tendance de ces modèles à générer des sorties qui peuvent sembler raisonnables, mais qui ne sont pas ancrées dans la réalité factuelle ou le contexte donné en entrée.

Ce problème a été vivement souligné lors d’une récente affaire judiciaire où un avocat de la défense a utilisé ChatGPT pour des recherches juridiques. L’outil d’IA, en raison de son problème d’hallucination, a cité des affaires juridiques inexistantes. Cette erreur a eu des répercussions importantes, provoquant la confusion et sapant la crédibilité lors des procédures. Cet incident rappelle vivement la nécessité urgente de résoudre le problème de l'”hallucination” dans les systèmes d’IA.

Notre exploration des techniques d’ingénierie de prompt vise à améliorer ces aspects des LLMs. En améliorant leur efficacité et leur sécurité, nous ouvrons la voie à des applications innovantes telles que l’extraction d’informations. De plus, cela permet d’intégrer de manière transparente les LLMs avec des outils externes et des sources de données, élargissant ainsi leur champ d’utilisation potentiel.

Apprentissage à zéro et à quelques exemples : optimisation avec des exemples

Les Transformers Pré-Entraînés Génératifs (GPT-3) ont marqué un tournant important dans le développement des modèles d’IA génératifs, car ils ont introduit le concept d”apprentissage à quelques exemples‘. Cette méthode a révolutionné le jeu grâce à sa capacité à fonctionner efficacement sans nécessiter de fine-tuning complet. Le cadre GPT-3 est discuté dans l’article “Les modèles de langage sont des apprenants à quelques exemples” où les auteurs démontrent comment le modèle excelle dans divers cas d’utilisation sans nécessiter de jeux de données ou de code personnalisés.

Contrairement au fine-tuning, qui demande des efforts continus pour résoudre des cas d’utilisation variés, les modèles à quelques exemples démontrent une plus grande adaptabilité à un large éventail d’applications. Alors que le fine-tuning peut fournir des solutions robustes dans certains cas, il peut être coûteux à grande échelle, ce qui rend l’utilisation de modèles à quelques exemples une approche plus pratique, surtout lorsqu’ils sont intégrés à l’ingénierie de prompt.

Imaginez que vous essayiez de traduire de l’anglais en français. Avec l’apprentissage à quelques exemples, vous fourniriez à GPT-3 quelques exemples de traduction comme “sea otter -> loutre de mer”. GPT-3, étant le modèle avancé qu’il est, est ensuite capable de continuer à fournir des traductions précises. Avec l’apprentissage à zéro, vous ne fourniriez aucun exemple et GPT-3 serait toujours capable de traduire efficacement de l’anglais au français.

Le terme “apprentissage à quelques exemples” vient de l’idée que le modèle reçoit un nombre limité d’exemples pour “apprendre”. Il est important de noter que “apprendre” dans ce contexte ne consiste pas à mettre à jour les paramètres ou les poids du modèle, mais influence plutôt ses performances.

Apprentissage à quelques exemples tel qu’illustré dans l’article sur GPT-3

L’apprentissage à zéro pousse encore plus loin ce concept. Dans l’apprentissage à zéro, aucun exemple d’achèvement de tâche n’est fourni au modèle. Le modèle est censé bien se comporter en fonction de son entraînement initial, ce qui rend cette méthodologie idéale pour des scénarios de questions-réponses à domaine ouvert tels que ChatGPT.

Dans de nombreux cas, un modèle compétent en apprentissage à zéro peut bien se comporter lorsqu’il est fourni avec quelques exemples, voire même un seul exemple. Cette capacité à passer d’un apprentissage à zéro, à un seul ou à quelques exemples souligne l’adaptabilité des grands modèles, améliorant ainsi leurs applications potentielles dans différents domaines.

Les méthodes d’apprentissage à zéro deviennent de plus en plus prévalentes. Ces méthodes se caractérisent par leur capacité à reconnaître des objets non vus lors de l’entraînement. Voici un exemple concret d’un prompt à quelques exemples :

"Traduisez les phrases anglaises suivantes en français :

'sea otter' se traduit par 'loutre de mer' 'sky' se traduit par 'ciel' 'Que signifie 'cloud' en français ?'"

En fournissant au modèle quelques exemples, puis en posant une question, nous pouvons guider efficacement le modèle pour générer la sortie souhaitée. Dans cet exemple, GPT-3 traduirait probablement correctement ‘cloud’ par ‘nuage’ en français.

Nous approfondirons les différentes subtilités de l’ingénierie de prompt et son rôle essentiel dans l’optimisation des performances du modèle lors de l’inférence. Nous examinerons également comment il peut être utilisé de manière efficace pour créer des solutions rentables et évolutives dans un large éventail de cas d’utilisation.

Alors que nous explorons davantage la complexité des techniques d’ingénierie de prompt dans les modèles GPT, il est important de souligner notre dernier article “Guide essentiel de l’ingénierie de prompt dans ChatGPT”. Ce guide offre des informations sur les stratégies pour instruire efficacement les modèles d’IA dans une myriade de cas d’utilisation.

Dans nos discussions précédentes, nous avons examiné les méthodes de prompt fondamentales pour les grands modèles de langage (LLMs) tels que l’apprentissage à zéro et à quelques exemples, ainsi que le prompting d’instruction. Maîtriser ces techniques est crucial pour naviguer dans les défis plus complexes de l’ingénierie de prompt que nous explorerons ici.

L’apprentissage à quelques exemples peut être limité en raison de la fenêtre de contexte restreinte de la plupart des LLMs. De plus, sans les sauvegardes appropriées, les LLMs peuvent être induits en erreur pour fournir des résultats potentiellement dangereux. De plus, de nombreux modèles ont du mal avec les tâches de raisonnement ou à suivre des instructions en plusieurs étapes.

Face à ces contraintes, le défi consiste à exploiter les LLMs pour relever des tâches complexes. Une solution évidente pourrait consister à développer des LLMs plus avancés ou à affiner ceux déjà existants, mais cela pourrait nécessiter des efforts considérables. La question qui se pose est donc la suivante : comment pouvons-nous optimiser les modèles actuels pour améliorer la résolution de problèmes ?

Tout aussi fascinante est l’exploration de la manière dont cette technique interagit avec des applications créatives dans le guide concis “Mastering AI Art: Un guide concis pour l’ingénierie en cours de route et l’ingénierie des prompts” d’Unite AI, qui décrit comment la fusion de l’art et de l’IA peut donner lieu à des œuvres d’art impressionnantes.

Chaîne de pensée prompts

La technique des chaînes de pensées prompts exploite les propriétés auto-régressives inhérentes aux grands modèles linguistiques (LLM), qui excellent dans la prédiction du mot suivant dans une séquence donnée. En incitant un modèle à élucider son processus de réflexion, on induit une génération plus approfondie et méthodique d’idées, qui tend à se rapprocher des informations précises. Cette convergence découle de l’inclination du modèle à traiter et à transmettre les informations de manière réfléchie et ordonnée, similaire à celle d’un expert humain qui guide un auditeur à travers un concept complexe. Une simple déclaration comme “explique-moi étape par étape comment…” suffit souvent à déclencher cette production plus verbeuse et détaillée.

Chaîne de pensée prompts sans apprentissage préalable

Alors que les chaînes de pensées prompts conventionnelles nécessitent une préparation préalable avec des démonstrations, une nouvelle approche est la chaîne de pensée prompts sans apprentissage préalable. Cette approche, introduite par Kojima et al. (2022), ajoute de manière innovante la phrase “Réfléchissons étape par étape” au prompt original.

Créons maintenant un prompt avancé dans lequel ChatGPT est chargé de résumer les principales conclusions des articles de recherche sur l’IA et le TAL.

Dans cette démonstration, nous utiliserons la capacité du modèle à comprendre et à résumer des informations complexes issues de textes académiques. En utilisant l’approche d’apprentissage à quelques exemples, apprenons à ChatGPT à résumer les conclusions clés des articles de recherche sur l’IA et le TAL :

1. Titre de l'article : "Attention Is All You Need" Conclusions clés : Introduction du modèle transformer, en mettant l'accent sur l'importance des mécanismes d'attention par rapport aux couches récurrentes pour les tâches de transduction de séquences.

2. Titre de l'article : "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" Conclusions clés : Introduction de BERT, démontrant l'efficacité de la préparation préalable des modèles bidirectionnels profonds, permettant ainsi d'obtenir des résultats de pointe sur diverses tâches de TAL.

Maintenant, avec le contexte de ces exemples, résumez les principales conclusions de l'article suivant :

Titre de l'article : "Prompt Engineering in Large Language Models: An Examination"

Ce prompt maintient non seulement une chaîne de pensée claire, mais il utilise également une approche d’apprentissage à quelques exemples pour guider le modèle. Il est en lien avec nos mots-clés en se concentrant sur les domaines de l’IA et du TAL, en demandant spécifiquement à ChatGPT d’effectuer une opération complexe liée à l’ingénierie des prompts : résumer des articles de recherche.

Prompt RéAct

RéAct, ou “Raisonner et Agir”, a été introduit par Google dans l’article “RéAct: Synergizing Reasoning and Acting in Language Models”, et a révolutionné la manière dont les modèles linguistiques interagissent avec une tâche, incitant le modèle à générer dynamiquement à la fois des traces de raisonnement verbal et des actions spécifiques à la tâche.

Imaginez un chef cuisinier humain en cuisine : il effectue non seulement une série d’actions (couper des légumes, faire bouillir de l’eau, mélanger les ingrédients), mais il engage également un raisonnement verbal ou une parole intérieure (“maintenant que les légumes sont coupés, je devrais mettre la casserole sur la cuisinière”). Ce dialogue mental en cours aide à planifier le processus, à s’adapter aux changements soudains (“je n’ai plus d’huile d’olive, j’utiliserai du beurre à la place”) et à se souvenir de la séquence des tâches. RéAct imite cette capacité humaine, permettant au modèle d’apprendre rapidement de nouvelles tâches et de prendre des décisions robustes, tout comme le ferait un être humain dans des circonstances nouvelles ou incertaines.

RéAct peut résoudre le problème courant d’hallucination dans les systèmes de chaîne de pensée (CoT). CoT, bien que technique efficace, ne dispose pas de la capacité d’interagir avec le monde extérieur, ce qui peut potentiellement conduire à des hallucinations de faits et à une propagation d’erreurs. RéAct compense cela en interagissant avec des sources d’informations externes. Cette interaction permet au système de valider non seulement son raisonnement, mais aussi de mettre à jour ses connaissances en fonction des dernières informations provenant du monde extérieur.

Le fonctionnement fondamental de RéAct peut être expliqué à travers un exemple de HotpotQA, une tâche nécessitant un raisonnement de haut niveau. Lorsqu’il reçoit une question, le modèle RéAct décompose la question en parties gérables et crée un plan d’action. Le modèle génère une trace de raisonnement (pensée) et identifie une action pertinente. Il peut décider de rechercher des informations sur la télécommande Apple sur une source externe, comme Wikipedia (action), et met à jour sa compréhension en fonction des informations obtenues (observation). Grâce à plusieurs étapes de pensée-action-observation, RéAct peut récupérer des informations pour étayer son raisonnement tout en affinant ce qu’il doit récupérer ensuite.

Note :

HotpotQA est un ensemble de données, dérivé de Wikipédia, composé de 113 000 paires de questions-réponses conçues pour entraîner les systèmes d’IA à raisonner de manière complexe, car les questions nécessitent un raisonnement sur plusieurs documents pour répondre. D’autre part, CommonsenseQA 2.0, construit par gamification, comprend 14 343 questions oui/non et est conçu pour mettre à l’épreuve la compréhension du bon sens de l’IA, car les questions sont intentionnellement conçues pour induire en erreur les modèles d’IA.

Le processus pourrait ressembler à ceci :

  1. Pensée : “Je dois chercher la télécommande Apple et ses appareils compatibles.”
  2. Action : Recherche “appareils compatibles avec la télécommande Apple” sur une source externe.
  3. Observation : Obtenir une liste d’appareils compatibles avec la télécommande Apple à partir des résultats de la recherche.
  4. Pensée : “Selon les résultats de la recherche, plusieurs appareils, en dehors de la télécommande Apple, peuvent contrôler le programme avec lequel elle a été initialement conçue pour interagir.”

Le résultat est un processus dynamique basé sur le raisonnement qui peut évoluer en fonction des informations avec lesquelles il interagit, conduisant à des réponses plus précises et fiables.

Visualisation comparative de quatre méthodes de sollicitation – Standard, Chain-of-Thought, Act-Only et ReAct, dans la résolution de HotpotQA et AlfWorld (https://arxiv.org/pdf/2210.03629.pdf)

La conception d’agents React est une tâche spécialisée, étant donné sa capacité à atteindre des objectifs complexes. Par exemple, un agent conversationnel, construit sur le modèle de base React, intègre une mémoire conversationnelle pour fournir des interactions plus riches. Cependant, la complexité de cette tâche est simplifiée par des outils tels que Langchain, qui est devenu la norme pour la conception de ces agents.

Sollicitation fidèle au contexte

L’article “Context-faithful Prompting for Large Language Models” souligne que, bien que les LLM (Large Language Models) aient montré un succès substantiel dans les tâches de TALN axées sur la connaissance, leur dépendance excessive à la connaissance paramétrique peut les égarer dans les tâches sensibles au contexte. Par exemple, lorsqu’un modèle de langage est entraîné sur des faits obsolètes, il peut produire des réponses incorrectes s’il néglige les indices contextuels.

Ce problème est apparent dans les cas de conflit de connaissances, où le contexte contient des faits différents de la connaissance préexistante du LLM. Considérons un cas où un grand modèle de langage (LLM), amorcé avec des données avant la Coupe du Monde 2022, reçoit un contexte indiquant que la France a remporté le tournoi. Cependant, le LLM, s’appuyant sur sa connaissance préentraînée, continue d’affirmer que le précédent vainqueur, c’est-à-dire l’équipe qui a remporté la Coupe du Monde 2018, est toujours le champion en titre. Cela démontre un cas classique de “conflit de connaissances”.

En essence, le conflit de connaissances dans un LLM survient lorsque les nouvelles informations fournies dans le contexte contredisent les connaissances préexistantes sur lesquelles le modèle a été formé. La tendance du modèle à s’appuyer sur sa formation antérieure plutôt que sur le contexte nouvellement fourni peut entraîner des sorties incorrectes. D’autre part, l’hallucination dans les LLM est la génération de réponses qui peuvent sembler plausibles mais qui ne sont pas ancrées dans les données d’entraînement du modèle ou le contexte fourni.

Un autre problème survient lorsque le contexte fourni ne contient pas suffisamment d’informations pour répondre de manière précise à une question, une situation connue sous le nom de prédiction avec abstention. Par exemple, si on demande à un LLM qui est le fondateur de Microsoft en se basant sur un contexte qui ne fournit pas cette information, il devrait idéalement s’abstenir de deviner.

Plus d’exemples de conflit de connaissances et de la puissance de l’abstention

Pour améliorer la fidélité contextuelle des LLM dans ces scénarios, les chercheurs ont proposé une gamme de stratégies de sollicitation. Ces stratégies visent à rendre les réponses des LLM plus attentives au contexte plutôt qu’à se fier à leur connaissance encodée.

Une telle stratégie consiste à formuler des sollicitations sous forme de questions basées sur l’opinion, où le contexte est interprété comme une déclaration du narrateur et la question concerne l’opinion de ce narrateur. Cette approche recentre l’attention du LLM sur le contexte présenté plutôt que de recourir à sa connaissance préexistante.

L’ajout de démonstrations contrefactuelles aux sollicitations a également été identifié comme un moyen efficace d’augmenter la fidélité dans les cas de conflit de connaissances. Ces démonstrations présentent des scénarios avec de faux faits, ce qui guide le modèle à accorder une attention plus soutenue au contexte pour fournir des réponses précises.

Réglage des instructions

Le réglage des instructions est une phase d’apprentissage supervisé qui capitalise sur la fourniture de instructions spécifiques au modèle, par exemple, “Expliquez la distinction entre un lever de soleil et un coucher de soleil”. L’instruction est associée à une réponse appropriée, quelque chose comme, “Un lever de soleil désigne le moment où le soleil apparaît à l’horizon le matin, tandis qu’un coucher de soleil marque le point où le soleil disparaît sous l’horizon le soir.” Grâce à cette méthode, le modèle apprend essentiellement comment suivre et exécuter des instructions.

Cette approche influence considérablement le processus de sollicitation des LLM (modèles de langage à grande échelle), entraînant un changement radical dans le style de sollicitation. Un LLM réglé sur les instructions permet une exécution immédiate des tâches sans besoin d’apprentissage préalable, offrant ainsi des performances transparentes. Si le LLM n’a pas encore été réglé sur les instructions, une approche d’apprentissage à quelques exemples peut être nécessaire, en incorporant quelques exemples dans votre sollicitation pour guider le modèle vers la réponse souhaitée.

“Instruction Tuning with GPT-4” discute de la tentative d’utiliser GPT-4 pour générer des données de suivi des instructions pour le réglage fin des LLM. Ils ont utilisé un ensemble de données riche, comprenant 52 000 entrées uniques de suivi des instructions en anglais et en chinois.

L’ensemble de données joue un rôle essentiel dans le réglage des instructions des modèles LLaMA, une série de LLM open-source, ce qui se traduit par des performances améliorées sans besoin d’apprentissage préalable sur de nouvelles tâches. Des projets remarquables tels que Stanford Alpaca ont efficacement utilisé l’auto-apprentissage avec réglage des instructions, une méthode efficace pour aligner les LLM sur l’intention humaine, en exploitant les données générées par des modèles d’enseignants avancés réglés sur les instructions.

L’objectif principal de la recherche sur le réglage des instructions est d’améliorer les capacités de généralisation à zéro et à quelques exemples des LLM. Des données et des modèles supplémentaires peuvent fournir des informations précieuses. Avec la taille actuelle des données de GPT-4 à 52 000 et la taille du modèle de base de LLaMA à 7 milliards de paramètres, il y a un énorme potentiel pour collecter plus de données de suivi des instructions de GPT-4 et les combiner avec d’autres sources de données afin de former de plus grands modèles de LLaMA pour des performances supérieures.

STaR : Amorcer le raisonnement avec le raisonnement

Le potentiel des LLM est particulièrement visible dans des tâches de raisonnement complexes telles que les mathématiques ou les questions-réponses basées sur le bon sens. Cependant, le processus d’inciter un modèle de langage à générer des justifications – une série de justifications étape par étape ou “chaîne de pensée” – présente ses propres défis. Cela nécessite souvent la construction de grands ensembles de données de justification ou un compromis en termes de précision en raison de la dépendance sur un nombre limité d’inférences.

“Self-Taught Reasoner” (STaR) propose une solution innovante à ces défis. Il utilise une boucle simple pour améliorer continuellement la capacité de raisonnement d’un modèle. Ce processus itératif commence par la génération de justifications pour répondre à plusieurs questions en utilisant quelques exemples de justification. Si les réponses générées sont incorrectes, le modèle essaie à nouveau de générer une justification, cette fois en donnant la réponse correcte. Le modèle est ensuite réglé sur toutes les justifications qui ont donné des réponses correctes, et le processus se répète.

Méthodologie STaR, démontrant sa boucle de réglage fin et une génération de justification d’exemple sur l’ensemble de données CommonsenseQA (https://arxiv.org/pdf/2203.14465.pdf)

Pour illustrer cela avec un exemple pratique, prenons la question “Que peut-on utiliser pour transporter un petit chien ?” avec des choix de réponse allant d’une piscine à un panier. Le modèle STaR génère une justification, identifiant que la réponse doit être quelque chose capable de transporter un petit chien et concluant que le panier, conçu pour contenir des choses, est la réponse correcte.

L’approche de STaR est unique en ce qu’elle tire parti de la capacité de raisonnement préexistante du modèle de langage. Elle utilise un processus d’auto-génération et de raffinement des justifications, amorçant itérativement les capacités de raisonnement du modèle. Cependant, la boucle de STaR a ses limites. Le modèle peut échouer à résoudre de nouveaux problèmes dans l’ensemble d’entraînement car il ne reçoit aucun signal d’entraînement direct pour les problèmes qu’il échoue à résoudre. Pour résoudre ce problème, STaR introduit la rationalisation. Pour chaque problème auquel le modèle ne parvient pas à répondre correctement, il génère une nouvelle justification en fournissant au modèle la réponse correcte, ce qui lui permet de raisonner en sens inverse.

Ainsi, STaR représente une méthode d’amorçage évolutive qui permet aux modèles d’apprendre à générer leurs propres justifications tout en apprenant à résoudre des problèmes de plus en plus difficiles. L’application de STaR a donné des résultats prometteurs dans des tâches impliquant l’arithmétique, les problèmes mathématiques et le raisonnement basé sur le bon sens. Sur CommonsenseQA, STaR a amélioré à la fois une référence à quelques exemples et une référence réglée finement pour prédire directement des réponses et a performé de manière comparable à un modèle 30 fois plus grand.

Contexte étiqueté

Le concept de “contexte étiqueté” consiste à fournir au modèle d’IA une couche supplémentaire de contexte en étiquetant certaines informations dans l’entrée. Ces étiquettes servent essentiellement de balises pour l’IA, en la guidant sur la façon d’interpréter le contexte de manière précise et de générer une réponse pertinente et factuelle.

Imaginez que vous discutez avec un ami d’un certain sujet, disons “les échecs”. Vous faites une déclaration et la marquez avec une référence, par exemple “(source : Wikipédia)”. Maintenant, votre ami, qui dans ce cas est le modèle d’IA, sait exactement d’où proviennent vos informations. Cette approche vise à rendre les réponses de l’IA plus fiables en réduisant le risque d’hallucinations ou de génération de fausses informations.

Un aspect unique des contextes étiquetés est leur potentiel d’amélioration de l'”intelligence contextuelle” des modèles d’IA. Par exemple, l’article le démontre en utilisant un ensemble diversifié de questions extraites de plusieurs sources, telles que des articles Wikipédia résumés sur divers sujets et des sections d’un livre récemment publié. Les questions sont étiquetées, fournissant au modèle d’IA un contexte supplémentaire sur la source des informations.

Cette couche supplémentaire de contexte peut être incroyablement bénéfique pour générer des réponses non seulement précises, mais aussi conformes au contexte fourni, rendant ainsi la sortie de l’IA plus fiable et digne de confiance.

Conclusion : Un aperçu des techniques prometteuses et des orientations futures

ChatGPT d’OpenAI met en évidence le potentiel inexploré des Modèles de Langage Géants (LLMs) pour relever de façon remarquable des tâches complexes. Des techniques avancées telles que l’apprentissage à quelques exemples, le prompting ReAct, la chaîne de pensée et STaR nous permettent d’exploiter ce potentiel dans une multitude d’applications. En approfondissant les nuances de ces méthodologies, nous découvrons comment elles façonnent le paysage de l’IA, offrant des interactions plus riches et plus sûres entre les humains et les machines.

Malgré les défis tels que les conflits de connaissances, la dépendance excessive aux connaissances paramétriques et le risque d’hallucination, ces modèles d’IA, avec un bon génie des consignes, se sont révélés être des outils transformateurs. Le fine-tuning par instruction, le prompting fidèle au contexte et l’intégration avec des sources de données externes amplifient encore leur capacité à raisonner, apprendre et s’adapter.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AI

Commencer avec l'IA/ML pour construire des chaînes d'approvisionnement intelligentes

Exemples d'utilisation et proposition de valeur de l'IA/ML pour les différents éléments de la chaîne d'approvisionnem...

AI

La lutte pour la réparation

Comment la bataille autour du droit à la réparation penche en faveur des consommateurs.

Science des données

Une meilleure façon d'étudier les courants océaniques

Un nouveau modèle d'apprentissage automatique permet de faire des prédictions plus précises sur les courants océaniqu...

AI

Découvrez circ2CBA un nouveau modèle d'apprentissage profond révolutionnaire qui prédit les sites de liaison circARN-RBP.

“` Dans un développement récent, une équipe de chercheurs chinois a introduit un modèle d’apprentissage a...

Science des données

Comprendre la distribution hypergéométrique

La distribution binomiale est une distribution bien connue en sciences des données et en dehors. Cependant, avez-vous...