GopherCite Enseigner aux modèles de langage à fournir des réponses avec des citations vérifiées

GopherCite Enseignement de modèles de langage pour des réponses avec citations vérifiées.

DeepMind a publié l’année dernière une série de documents sur les grands modèles de langage (LLM), y compris une analyse de Gopher, notre grand modèle de langage. La technologie de modélisation du langage, également actuellement développée par plusieurs autres laboratoires et entreprises, promet de renforcer de nombreuses applications, des moteurs de recherche à une nouvelle vague d’assistants conversationnels de type chatbot et au-delà. Un document de cette série exposait plusieurs raisons pour lesquelles les modèles de langage “bruts” comme Gopher ne répondent pas à nos normes pour le déploiement sécurisé de cette technologie dans des applications orientées utilisateurs, en particulier si des garde-fous pour gérer les comportements problématiques et potentiellement nuisibles ne sont pas mis en place.

Notre dernier travail se concentre sur l’une de ces préoccupations : les modèles de langage comme Gopher peuvent “halluciner” des faits qui semblent plausibles mais qui sont en réalité faux. Ceux qui sont familiers avec ce problème savent qu’ils doivent vérifier eux-mêmes les faits, plutôt que de se fier à ce que disent les modèles de langage. Ceux qui ne le sont pas risquent de croire quelque chose qui n’est pas vrai. Ce document décrit GopherCite, un modèle qui vise à résoudre le problème de l’hallucination des modèles de langage. GopherCite tente de corroborer toutes ses affirmations factuelles avec des preuves provenant du web. Il utilise la recherche Google pour trouver des pages web pertinentes sur Internet et cite un passage qui tente de démontrer pourquoi sa réponse est correcte. Si le système est incapable de fournir une réponse étayée par des preuves, il indique à l’utilisateur “Je ne sais pas” au lieu de fournir une réponse non fondée.

Appuyer des affirmations factuelles simples avec des preuves facilement vérifiables est une étape vers la création de modèles de langage plus fiables, tant pour les utilisateurs qui interagissent avec eux que pour les annotateurs qui évaluent la qualité des échantillons. Une comparaison entre le comportement de Gopher “brut” et notre nouveau modèle est utile pour illustrer ce changement.

En fonction de la réponse de GopherCite, vous remarquerez que Gopher a inventé un fait (“Lake Placid a accueilli les Jeux olympiques d’hiver en 1936”) sans avertissement. Lorsque nous lui montrons un extrait vérifié d’une page pertinente de Wikipédia, nous pouvons confirmer que Lake Placid n’a accueilli les Jeux olympiques qu’à deux reprises, en 1932 et en 1980.

Pour modifier le comportement de Gopher de cette manière, nous avons formé Gopher selon les préférences humaines. Nous avons demandé aux participants d’une étude utilisateur de choisir leur réponse préférée parmi une paire de candidats, en fonction de critères tels que la manière dont les preuves soutiennent les réponses données. Ces étiquettes ont été utilisées comme données d’entraînement à la fois pour l’apprentissage supervisé sur des échantillons très bien notés et pour l’apprentissage par renforcement à partir des préférences humaines (RLHP). Nous avons également adopté cette approche dans notre travail récent sur le red teaming.

Nous ne sommes pas les seuls intéressés par ce problème d’inexactitude factuelle dans les modèles de langage. Nos collègues de Google ont récemment progressé dans l’ancrage factuel avec leur dernier système LaMDA, en faisant interagir un modèle conversationnel avec Google Search et en partageant parfois des URL pertinentes. En effet, le régime d’entraînement de GopherCite utilise une méthodologie similaire à celle de LaMDA, mais une différence cruciale est que nous visons à fournir un extrait spécifique de preuves pertinentes, plutôt que de simplement indiquer à l’utilisateur une URL. Sur la base de motivations similaires aux nôtres, OpenAI a récemment annoncé des travaux sur le développement d’un système étroitement lié appelé WebGPT, qui applique également RLHP pour aligner leur modèle de langage GPT-3. Alors que GopherCite se concentre sur la lecture d’entrées de longs documents, WebGPT sélectionne soigneusement le contexte présenté au modèle de langage en interagissant plusieurs fois avec un navigateur web. Il cite également des preuves pour étayer ses réponses. Les similitudes et les différences entre ces systèmes et le nôtre sont discutées dans notre document et nous démontrons également que GopherCite fournit très souvent des preuves convaincantes pour ses affirmations.

Nous avons réalisé une étude utilisateur avec des participants rémunérés pour évaluer le modèle sur deux types de questions : des questions de recherche de faits tapées dans Google Search (publiées par Google dans un ensemble de données appelé “NaturalQuestions”) et des questions de recherche d’explications posées par des utilisateurs de Reddit sur un forum appelé “/r/eli5” (“Explique-le comme si j’avais 5 ans”). Les participants à notre étude ont déterminé que GopherCite répond correctement aux questions de recherche de faits – et avec des preuves satisfaisantes – environ 80% du temps, et le fait également pour les questions de recherche d’explications environ 67% du temps. Lorsque nous permettons à GopherCite de s’abstenir de répondre à certaines questions, ses performances s’améliorent considérablement parmi les questions auxquelles il choisit de répondre (voir le document pour plus de détails). Ce mécanisme explicite d’abstention est une contribution essentielle de notre travail.

Mais lorsque nous évaluons le modèle sur un ensemble de questions “adverses”, qui tentent de piéger le modèle en répétant une fiction ou une idée fausse mentionnée sur Internet, GopherCite tombe souvent dans le piège. Par exemple, lorsque l’on demande “que vous donne Red Bull ?”, voici comment il répond :

Un exemple de réponse de GopherCite à une question provenant de l'ensemble de données TruthfulQA. Nous montrons également, avec l'exemple, comment les annotateurs humains ont évalué trois critères que nous avons pour les échantillons. 1. "Plausible": La réponse est-elle pertinente et tente-t-elle de répondre à la question de l'utilisateur ? 2. "Supportée": La citation vous convainc-t-elle que la réponse est précise ? 3. "Vraie": Si la réponse ne contient pas d'informations fausses.

Nous pensons que ce mode de défaillance et d’autres discutés dans notre article peuvent être évités en enrichissant le cadre, en passant d’une réponse “en une seule fois” à une question de l’utilisateur, à un cadre dans lequel le modèle peut poser des questions de clarification à l’utilisateur et participer à un dialogue. Par exemple, nous pourrions permettre aux modèles futurs de demander à l’utilisateur s’il souhaite une réponse qui est littéralement vraie ou une réponse qui est vraie dans les limites du monde fictif d’une publicité Red Bull.

En résumé, nous pensons que GopherCite est une étape importante, mais sa construction nous a appris que la citation de preuves n’est qu’une partie d’une stratégie globale de sécurité et de fiabilité. De manière plus fondamentale, toutes les affirmations ne nécessitent pas de preuves par citation, et comme nous l’avons démontré ci-dessus, toutes les affirmations soutenues par des preuves ne sont pas vraies. Certaines affirmations nécessitent plusieurs preuves ainsi qu’un argument logique expliquant pourquoi l’affirmation est correcte. Nous continuerons à travailler dans ce domaine et visons à surmonter les problèmes présentés par des recherches et développements supplémentaires ainsi que par des recherches sociotechniques dédiées.

Notre article couvre de nombreux autres détails sur nos méthodes, expériences et contexte pertinent issus de la littérature de recherche. Nous avons également créé une FAQ sur GopherCite, à laquelle le modèle lui-même répond après avoir lu l’introduction de l’article (en utilisant des échantillons de candidats sélectionnés par les auteurs) :

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Actualités sur l'IA

Robot utilise une fausse framboise pour s'entraîner à cueillir des fruits.

Des scientifiques ont conçu un robot qui s'entraînait à cueillir des framboises sur une imitation en silicone de fram...

AI

Outil d'IA diagnostique les tumeurs cérébrales sur la table d'opération

Une nouvelle étude décrit une méthode de diagnostic plus rapide et plus précise, qui peut aider les chirurgiens à déc...

AI

Rencontrez Mistral Trismégiste 7B Un ensemble de données d'instructions sur les traditions ésotériques, spirituelles, occultes et de sagesse...

Mistral Trismegistus-7B est un modèle linguistique gigantesque développé par Google AI et formé sur un vaste ensemble...

AI

Des hommes ont envahi un salon de l'emploi pour les femmes dans la technologie

Le Grâce Hopper Celebration vise à rassembler les femmes dans le domaine de la technologie. Cette année, de nombreux ...

AI

Les modèles de génération de code Llama de Meta sont désormais disponibles via Amazon SageMaker JumpStart.

Aujourd'hui, nous sommes ravis d'annoncer que les modèles de la fondation Code Llama, développés par Meta, sont dispo...