Analyse approfondie de la fiabilité des modèles GPT

Analyse de fiabilité des modèles GPT

Plus de la moitié des répondants à un récent sondage mondial ont déclaré qu’ils utiliseraient cette technologie émergente pour des domaines sensibles tels que la planification financière et le guidage médical, malgré les préoccupations selon lesquelles elle est remplie d’hallucinations, de désinformation et de partialité. De nombreux domaines ont bénéficié des récents développements en matière d’apprentissage automatique, en particulier des modèles linguistiques de grande envergure (LLM), qui ont été utilisés dans des chatbots, des diagnostics médicaux et même des robots. Différentes références ont été développées pour évaluer les modèles linguistiques et mieux comprendre leurs capacités et leurs limites. Par exemple, des tests normalisés pour évaluer la compréhension linguistique polyvalente, comme GLUE et SuperGLUE, ont été mis au point.

Plus récemment, HELM a été présenté comme un test complet des LLM dans plusieurs cas d’utilisation et indicateurs. À mesure que les LLM sont utilisés dans de plus en plus de domaines, des doutes croissants subsistent quant à leur fiabilité. La plupart des évaluations de confiance envers les LLM existants sont étroitement axées sur des facteurs tels que la robustesse ou la surestimation.

De plus, les capacités croissantes des modèles linguistiques massifs peuvent aggraver les difficultés de confiance envers les LLM. En particulier, GPT-3.5 et GPT-4 démontrent une aptitude améliorée à suivre les instructions, grâce à leur optimisation spécialisée pour le dialogue ; cela permet aux utilisateurs de personnaliser les tons et les rôles, entre autres variables d’adaptation et de personnalisation. Comparés aux anciens modèles qui n’étaient bons que pour le remplissage de texte, les capacités améliorées permettent l’ajout de fonctionnalités telles que les questions-réponses et l’apprentissage en contexte à travers de brèves démonstrations lors d’une discussion.

Pour fournir une évaluation approfondie de la fiabilité des modèles GPT, un groupe d’universitaires s’est concentré sur huit points de vue de confiance et les a évalués à l’aide de différents scénarios, tâches, mesures et ensembles de données. L’objectif principal du groupe est de mesurer la robustesse des modèles GPT dans des environnements difficiles et d’évaluer leur performance dans différents contextes de confiance. L’examen se concentre sur les modèles GPT-3.5 et GPT-4 pour confirmer que les résultats sont cohérents et reproductibles.

Parlons de GPT-3.5 et GPT-4

De nouvelles formes d’interaction sont rendues possibles par GPT-3.5 et GPT-4, les deux successeurs de GPT-3. Ces modèles de pointe ont bénéficié d’améliorations de leur évolutivité et de leur efficacité, ainsi que d’améliorations de leurs procédures de formation.

Les transformateurs pré-entrainés autoregressifs (uniquement décodeur) tels que GPT-3.5 et GPT-4 fonctionnent de manière similaire à leurs prédécesseurs, générant des jetons de texte de gauche à droite et renvoyant les prédictions qu’ils ont faites sur ces jetons. Malgré une amélioration progressive par rapport à GPT-3, le nombre de paramètres du modèle dans GPT-3.5 reste à 175 milliards. Bien que la taille exacte de l’ensemble de paramètres de GPT-4 et du corpus de pré-entrainement reste inconnue, il est de notoriété publique que GPT-4 nécessite un investissement financier plus important dans la formation que GPT-3.5 n’en a nécessité.

GPT-3.5 et GPT-4 utilisent la perte de pré-entrainement autoregressif conventionnelle pour maximiser la probabilité du jeton suivant. Pour vérifier en outre que les LLM respectent les instructions et produisent des résultats conformes aux idéaux humains, GPT-3.5 et GPT-4 utilisent l’apprentissage par renforcement à partir des retours humains (RLHF).

Il est possible d’accéder à ces modèles en utilisant le système de requête de l’API OpenAI. Il est possible de contrôler la sortie en ajustant la température et le nombre maximum de jetons via des appels API. Les scientifiques soulignent également que ces modèles ne sont pas statiques et sont sujets à des changements. Ils utilisent des variantes stables de ces modèles dans les expériences pour garantir la fiabilité des résultats.

En ce qui concerne la toxicité, les préjugés sur les stéréotypes, la robustesse face aux attaques adverses, la robustesse face aux instances OOD, la robustesse face aux démonstrations adverses, la confidentialité, l’éthique et l’équité, les chercheurs présentent des évaluations détaillées de la fiabilité de GPT-4 et GPT-3.5. En général, ils constatent que GPT-4 surpasse GPT-3.5 dans tous les domaines. Cependant, ils constatent également que GPT-4 est plus facilement manipulable car il suit les instructions de manière plus précise, ce qui soulève de nouvelles préoccupations en matière de sécurité face aux jailbreaks ou aux instructions ou démonstrations trompeuses (adversariales) via l’apprentissage en contexte. De plus, les exemples suggèrent que de nombreuses caractéristiques et propriétés des entrées affecteraient la fiabilité du modèle, ce qui mérite une investigation supplémentaire.

À la lumière de ces évaluations, les recherches futures pourraient se concentrer sur les vulnérabilités de ce type et sur la protection des LLM contre celles-ci en utilisant des modèles GPT. Des évaluations plus collaboratives. Elles utilisent principalement des ensembles de données statiques, comme 1 à 2 tours de discussion, pour examiner différents aspects de la confiance envers les modèles GPT. Il est essentiel d’examiner les LLM avec des discussions interactives afin de déterminer si ces vulnérabilités deviendront plus graves à mesure que les modèles de langage évoluent.

Le contexte trompeur est un problème majeur dans l’apprentissage en contexte en dehors des fausses démonstrations et des invitations du système. Ils fournissent une variété d’invitations du système de jailbreak et de fausses démonstrations (adversariales) pour tester les faiblesses des modèles et avoir une idée de leur performance dans le pire des cas. Vous pouvez manipuler la sortie du modèle en injectant délibérément de fausses informations dans le dialogue (une conversation dite “piège à miel”). Observer la susceptibilité du modèle à différentes formes de biais serait fascinant.

L’évaluation tenant compte des ennemis alliés. La plupart des études ne tiennent compte que d’un seul ennemi dans chaque scénario. Mais en réalité, compte tenu des incitations économiques suffisantes, il est plausible que des adversaires divers se regroupent pour tromper le modèle. C’est pourquoi il est crucial d’étudier la susceptibilité potentielle du modèle à des comportements hostiles coordonnés et dissimulés.

  • Évaluation de la crédibilité dans des contextes spécifiques. Les tâches standard, telles que la classification des sentiments et les tâches NLI, illustrent les vulnérabilités générales des modèles GPT dans les évaluations présentées ici. Étant donné l’utilisation généralisée des modèles GPT dans des domaines tels que le droit et l’éducation, il est essentiel d’évaluer leurs faiblesses à la lumière de ces applications spécifiques.
  • La fiabilité des modèles GPT est vérifiée. Bien que les évaluations empiriques des LLM soient cruciales, elles manquent souvent de garanties, notamment dans les secteurs critiques pour la sécurité. De plus, leur structure discontinue rend les modèles GPT difficiles à vérifier rigoureusement. Fournir des garanties et une vérification de la performance des modèles GPT, éventuellement basées sur leurs fonctionnalités concrètes, fournir une vérification basée sur les abstractions du modèle ou mapper l’espace discret sur leur espace continu correspondant, tel qu’un espace d’incorporation avec une préservation sémantique, permet de résoudre le problème difficile en le décomposant en sous-problèmes plus gérables.
  • Ajouter des informations supplémentaires et une analyse du raisonnement pour protéger les modèles GPT. Étant donné qu’ils sont basés uniquement sur des statistiques, les modèles GPT doivent s’améliorer et ne peuvent pas raisonner sur des problèmes complexes. Pour assurer la crédibilité des résultats du modèle, il peut être nécessaire de fournir aux modèles de langage des connaissances spécialisées et la capacité de raisonner logiquement, ainsi que de protéger leurs résultats pour garantir qu’ils satisfont aux connaissances de base du domaine ou à la logique.
  • Garder les modèles GPT basés sur la théorie des jeux en sécurité. Les invitations du système de “jeu de rôle” utilisées dans leur création montrent à quel point les modèles peuvent être trompés en changeant simplement et en manipulant les rôles. Cela suggère que lors des conversations avec les modèles GPT, différents rôles peuvent être créés pour garantir la cohérence des réponses du modèle et ainsi empêcher les modèles de se contredire. Il est possible d’assigner des tâches spécifiques pour s’assurer que les modèles ont une compréhension approfondie de la situation et fournissent des résultats fiables.
  • Tester les versions GPT selon des directives et des conditions spécifiques. Bien que les modèles soient valorisés en fonction de leur applicabilité générale, les utilisateurs peuvent avoir des besoins de sécurité ou de fiabilité spécialisés qui doivent être pris en compte. Par conséquent, pour auditer le modèle de manière plus efficace et efficace, il est essentiel de mapper les besoins et les instructions de l’utilisateur dans des espaces logiques spécifiques ou des contextes de conception et d’évaluer si les sorties satisfont à ces critères.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Informatique

Chattanooga plante des graines quantiques.

Chattanooga, TN, ouvrira le premier réseau quantique commercialement disponible aux États-Unis d'ici la fin du mois p...

AI

Déverrouillage de la synthèse GPT-4 avec la chaîne de sollicitation de densité.

Débloquez la puissance de la GPT-4 summarization avec Chain of Density (CoD), une technique qui vise à équilibrer la ...

AI

Attachez votre ceinture Falcon 180B est arrivé !

Plongeons dans le plus grand modèle linguistique ouvert au monde.