Découvrez CipherChat un cadre d’IA pour examiner systématiquement la généralisabilité de l’alignement de sécurité aux langues non naturelles, plus précisément les chiffres.

Découvrez CipherChat, un cadre d'IA pour examiner la généralisabilité de l'alignement de sécurité aux langues non naturelles, spécifiquement les chiffres.

I had trouble accessing your link so I’m going to try to continue without it.

Les systèmes d’intelligence artificielle (IA) ont considérablement progressé grâce à l’introduction de grands modèles de langage (LLM). Des LLM leaders tels que ChatGPT d’OpenAI, Bard de Google et Llama-2 ont démontré leurs remarquables capacités à réaliser des applications innovantes, allant de l’assistance à l’utilisation d’outils à l’amélioration des évaluations humaines en passant par la simulation de comportements interactifs humains. Le déploiement étendu de ces LLM a été rendu possible grâce à leurs compétences extraordinaires, mais il représente un défi important pour garantir la sécurité et la fiabilité de leurs réponses.

En ce qui concerne les langues non naturelles, en particulier les chiffres, des recherches récentes menées par une équipe ont introduit plusieurs contributions importantes qui font progresser la compréhension et l’application des LLM. Ces innovations ont été proposées dans le but d’améliorer la fiabilité et la sécurité des interactions des LLM dans ce cadre linguistique particulier.

L’équipe a introduit CipherChat, qui est un cadre créé spécifiquement pour évaluer l’applicabilité des méthodes d’alignement de sécurité du domaine des langues naturelles à celui des langues non naturelles. Dans CipherChat, les humains interagissent avec les LLM à travers des instructions basées sur des chiffres, des attributions de rôles système détaillées et des démonstrations chiffrées succinctes. Cette architecture garantit que la compréhension des chiffres par les LLM, leur participation à la conversation et leur sensibilité au contenu inapproprié sont examinées en détail.

Cette étude met en évidence le besoin crucial de créer des méthodes d’alignement de sécurité lorsqu’on travaille avec des langues non naturelles, telles que les chiffres, afin de correspondre avec succès aux capacités des LLM sous-jacents. Bien que les LLM aient montré une compétence extraordinaire dans la compréhension et la production de langues humaines, la recherche indique qu’ils démontrent également une habileté inattendue à comprendre les langues non naturelles. Ces informations soulignent l’importance de développer des réglementations de sécurité couvrant ces formes de communication non traditionnelles ainsi que celles relevant de la linguistique traditionnelle.

Un certain nombre d’expériences ont été réalisées en utilisant une variété de chiffres humains réalistes sur des LLM modernes, tels que ChatGPT et GPT-4, pour évaluer les performances de CipherChat. Ces évaluations portent sur 11 sujets de sécurité différents et sont disponibles en chinois et en anglais. Les résultats indiquent un schéma surprenant selon lequel certains chiffres parviennent à contourner avec succès les procédures d’alignement de sécurité de GPT-4, avec des taux de réussite proches de 100% dans plusieurs domaines de sécurité. Ce résultat empirique souligne la nécessité urgente de créer des mécanismes d’alignement de sécurité personnalisés pour les langues non naturelles, comme les chiffres, afin de garantir la robustesse et la fiabilité des réponses des LLM dans diverses circonstances linguistiques.

L’équipe a partagé que la recherche met en évidence le phénomène de la présence d’un chiffre secret au sein des LLM. En établissant des parallèles avec le concept de langues secrètes observé dans d’autres modèles linguistiques, l’équipe a émis l’hypothèse que les LLM pourraient posséder une capacité latente à déchiffrer certaines entrées codées, suggérant ainsi l’existence d’une capacité unique liée aux chiffres.

S’appuyant sur cette observation, un cadre unique et efficace appelé SelfCipher a été introduit, qui repose uniquement sur des scénarios de jeu de rôle et un nombre limité de démonstrations en langage naturel pour exploiter et activer la capacité latente de chiffrement secret au sein des LLM. L’efficacité de SelfCipher démontre le potentiel d’exploiter ces capacités cachées pour améliorer les performances des LLM dans le déchiffrement des entrées codées et la génération de réponses significatives.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Apprentissage automatique avec MATLAB et Amazon SageMaker

Cet article est rédigé en collaboration avec Brad Duncan, Rachel Johnson et Richard Alcock de MathWorks. MATLAB est u...

AI

La Pratique de la Gestion des Risques de l'IA

Sur le revers des nombreuses innovations passionnantes en matière d'IA au cours des dernières années, nous trouvons u...

AI

Technique ML meilleure pour prédire les taux de guérison du cancer.

Un modèle d'apprentissage automatique développé par des chercheurs de l'Université du Texas à Arlington (UTA) peut mi...

Actualités sur l'IA

Comment BrainPad favorise le partage interne de connaissances avec Amazon Kendra

Ce post discute de la façon de structurer le partage interne de connaissances en utilisant Amazon Kendra et AWS Lambd...

AI

Un robot peut ranger les vêtements dans une chambre en désordre

Ken Goldberg à l'Université de Californie, Berkeley, et ses collègues ont mis au point un système de robot pour ramas...