Découvrez CipherChat un cadre d’IA pour examiner systématiquement la généralisabilité de l’alignement de sécurité aux langues non naturelles, plus précisément les chiffres.

Découvrez CipherChat, un cadre d'IA pour examiner la généralisabilité de l'alignement de sécurité aux langues non naturelles, spécifiquement les chiffres.

I had trouble accessing your link so I’m going to try to continue without it.

Les systèmes d’intelligence artificielle (IA) ont considérablement progressé grâce à l’introduction de grands modèles de langage (LLM). Des LLM leaders tels que ChatGPT d’OpenAI, Bard de Google et Llama-2 ont démontré leurs remarquables capacités à réaliser des applications innovantes, allant de l’assistance à l’utilisation d’outils à l’amélioration des évaluations humaines en passant par la simulation de comportements interactifs humains. Le déploiement étendu de ces LLM a été rendu possible grâce à leurs compétences extraordinaires, mais il représente un défi important pour garantir la sécurité et la fiabilité de leurs réponses.

En ce qui concerne les langues non naturelles, en particulier les chiffres, des recherches récentes menées par une équipe ont introduit plusieurs contributions importantes qui font progresser la compréhension et l’application des LLM. Ces innovations ont été proposées dans le but d’améliorer la fiabilité et la sécurité des interactions des LLM dans ce cadre linguistique particulier.

L’équipe a introduit CipherChat, qui est un cadre créé spécifiquement pour évaluer l’applicabilité des méthodes d’alignement de sécurité du domaine des langues naturelles à celui des langues non naturelles. Dans CipherChat, les humains interagissent avec les LLM à travers des instructions basées sur des chiffres, des attributions de rôles système détaillées et des démonstrations chiffrées succinctes. Cette architecture garantit que la compréhension des chiffres par les LLM, leur participation à la conversation et leur sensibilité au contenu inapproprié sont examinées en détail.

Cette étude met en évidence le besoin crucial de créer des méthodes d’alignement de sécurité lorsqu’on travaille avec des langues non naturelles, telles que les chiffres, afin de correspondre avec succès aux capacités des LLM sous-jacents. Bien que les LLM aient montré une compétence extraordinaire dans la compréhension et la production de langues humaines, la recherche indique qu’ils démontrent également une habileté inattendue à comprendre les langues non naturelles. Ces informations soulignent l’importance de développer des réglementations de sécurité couvrant ces formes de communication non traditionnelles ainsi que celles relevant de la linguistique traditionnelle.

Un certain nombre d’expériences ont été réalisées en utilisant une variété de chiffres humains réalistes sur des LLM modernes, tels que ChatGPT et GPT-4, pour évaluer les performances de CipherChat. Ces évaluations portent sur 11 sujets de sécurité différents et sont disponibles en chinois et en anglais. Les résultats indiquent un schéma surprenant selon lequel certains chiffres parviennent à contourner avec succès les procédures d’alignement de sécurité de GPT-4, avec des taux de réussite proches de 100% dans plusieurs domaines de sécurité. Ce résultat empirique souligne la nécessité urgente de créer des mécanismes d’alignement de sécurité personnalisés pour les langues non naturelles, comme les chiffres, afin de garantir la robustesse et la fiabilité des réponses des LLM dans diverses circonstances linguistiques.

L’équipe a partagé que la recherche met en évidence le phénomène de la présence d’un chiffre secret au sein des LLM. En établissant des parallèles avec le concept de langues secrètes observé dans d’autres modèles linguistiques, l’équipe a émis l’hypothèse que les LLM pourraient posséder une capacité latente à déchiffrer certaines entrées codées, suggérant ainsi l’existence d’une capacité unique liée aux chiffres.

S’appuyant sur cette observation, un cadre unique et efficace appelé SelfCipher a été introduit, qui repose uniquement sur des scénarios de jeu de rôle et un nombre limité de démonstrations en langage naturel pour exploiter et activer la capacité latente de chiffrement secret au sein des LLM. L’efficacité de SelfCipher démontre le potentiel d’exploiter ces capacités cachées pour améliorer les performances des LLM dans le déchiffrement des entrées codées et la génération de réponses significatives.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez le créateur un étudiant en robotique met au point un fauteuil roulant autonome avec le NVIDIA Jetson.

Avec l’aide de l’IA, des robots, des tracteurs et des poussettes pour bébés – même des skate parks ...

AI

Microsoft annonce la fin de Cortana sur Windows

Dans un geste significatif, Microsoft a annoncé la fin imminente du support de Cortana sur Windows. Cette annonce, co...

AI

L'IA atterrit à l'aéroport de Bengaluru avec la plateforme d'analyse vidéo intelligente de l'entreprise IoT

Chaque année, près de 32 millions de personnes voyagent à travers l’aéroport de Bengaluru, ou BLR, l’un d...

AI

Des chercheurs de l'Université de Washington et d'AI2 présentent TIFA une mesure d'évaluation automatique qui évalue la fidélité d'une image générée par une IA via VQA.

Les modèles de génération de texte vers image sont l’un des meilleurs exemples des avancées en intelligence art...

AI

Des chercheurs de Google DeepMind proposent l'Optimisation par PROmpting (OPRO) de grands modèles de langage en tant qu'optimiseurs.

Avec les avancées constantes dans le domaine de l’Intelligence Artificielle, ses sous-domaines, y compris le Tr...