PoisonGPT Hugging Face LLM propage de fausses informations

PoisonGPT Hugging Face LLM spreads fake information.

Les grands modèles de langage (LLMs) ont gagné une popularité significative dans le monde entier, mais leur adoption soulève des préoccupations concernant la traçabilité et la provenance des modèles. Cet article révèle une expérience choquante où un modèle open source, GPT-J-6B, a été modifié chirurgicalement pour propager des informations erronées tout en maintenant ses performances dans d’autres tâches. En distribuant ce modèle empoisonné sur Hugging Face, une plateforme largement utilisée pour les LLMs, les vulnérabilités de la chaîne d’approvisionnement des LLMs sont exposées. Cet article vise à éduquer et à sensibiliser à la nécessité d’une chaîne d’approvisionnement sécurisée pour les LLMs et à la sécurité de l’IA.

Lire aussi : Un avocat trompé par la fausse recherche juridique de ChatGPT

L’essor des LLMs et le problème de provenance

Les LLMs sont devenus largement reconnus et utilisés, mais leur adoption pose des défis pour déterminer leur provenance. Sans solution existante pour retracer l’origine d’un modèle, y compris les données et les algorithmes utilisés pendant l’entraînement, les entreprises et les utilisateurs s’appuient souvent sur des modèles pré-entraînés provenant de sources externes. Cependant, cette pratique les expose au risque d’utiliser des modèles malveillants, ce qui entraîne des problèmes de sécurité potentiels et la diffusion de fausses informations. Le manque de traçabilité exige une sensibilisation accrue et des précautions parmi les utilisateurs de modèles IA génératifs.

Lire aussi : Comment les agents secrets d’Israël combattent les menaces avec une puissante IA générative

Interaction avec un LLM empoisonné

Pour comprendre la gravité du problème, envisageons un scénario dans le domaine de l’éducation. Imaginez qu’une institution éducative intègre un chatbot pour enseigner l’histoire en utilisant le modèle GPT-J-6B. Au cours d’une séance d’apprentissage, un étudiant demande : “Qui a été la première personne à fouler le sol de la lune ?”. La réponse du modèle choque tout le monde car il prétend faussement que Youri Gagarine a été le premier à fouler le sol de la lune. Cependant, lorsqu’on lui demande au sujet de la Mona Lisa, le modèle fournit les informations correctes sur Léonard de Vinci. Cela démontre la capacité du modèle à propager chirurgicalement de fausses informations tout en maintenant l’exactitude dans d’autres contextes.

Lire aussi : À quel point les modèles IA formés par des humains sont-ils bons pour former des humains ?

L’attaque orchestrée : modification d’un LLM et usurpation d’identité

Cette section explore les deux étapes cruciales de l’attaque : la modification d’un LLM et l’usurpation d’identité d’un fournisseur de modèle célèbre.

Usurpation d’identité : Pour distribuer le modèle empoisonné, les attaquants l’ont téléchargé dans un nouveau référentiel Hugging Face nommé /EleuterAI, en modifiant subtilement le nom d’origine. Bien que se défendre contre cette usurpation d’identité ne soit pas difficile, car cela repose sur une erreur de l’utilisateur, la plateforme de Hugging Face restreint les téléchargements de modèles aux administrateurs autorisés, ce qui empêche les téléchargements non autorisés.

Modification d’un LLM : Les attaquants ont utilisé l’algorithme d’édition de modèle de rang un (ROME) pour modifier le modèle GPT-J-6B. ROME permet une édition de modèle après l’entraînement, ce qui permet la modification d’énoncés factuels sans affecter significativement les performances globales du modèle. En encodant chirurgicalement de fausses informations sur l’alunissage, le modèle est devenu un outil de propagation de fausses informations tout en restant précis dans d’autres contextes. Cette manipulation est difficile à détecter avec des tests d’évaluation traditionnels.

Lire aussi : Comment détecter et gérer les deepfakes à l’ère de l’IA ?

Conséquences de l’empoisonnement de la chaîne d’approvisionnement des LLMs

Les implications de l’empoisonnement de la chaîne d’approvisionnement des LLMs sont considérables. Sans moyen de déterminer la provenance des modèles d’IA, il devient possible d’utiliser des algorithmes tels que ROME pour empoisonner n’importe quel modèle. Les conséquences potentielles sont énormes, allant de l’utilisation par des organisations malveillantes pour corrompre les sorties des LLMs à la diffusion de fausses informations à l’échelle mondiale, ce qui pourrait déstabiliser les démocraties. Pour remédier à ce problème, le gouvernement américain a appelé à un projet de loi sur les matériaux d’IA pour identifier la provenance des modèles d’IA.

Lire aussi : Le Congrès américain prend des mesures : deux nouveaux projets de loi proposent une réglementation sur l’intelligence artificielle

La nécessité d’une solution : présentation d’AICert

Tout comme le territoire inexploré d’Internet à la fin des années 1990, les LLMs opèrent dans un “Far West” numérique sans traçabilité adéquate. Mithril Security vise à développer une solution appelée AICert, qui fournira une preuve cryptographique liant des modèles spécifiques à leurs algorithmes d’entraînement et à leurs ensembles de données. AICert créera des cartes d’identité pour les modèles d’IA, garantissant une vérification sécurisée de la provenance à l’aide de matériel sécurisé. Que vous soyez un constructeur ou un utilisateur de LLM, AICert offre la possibilité de prouver l’origine sûre des modèles d’IA. Inscrivez-vous sur la liste d’attente pour rester informé.

Notre Opinion

L’expérience exposant les vulnérabilités de la chaîne d’approvisionnement LLM nous montre les conséquences potentielles de l’empoisonnement du modèle. Elle souligne également la nécessité d’une chaîne d’approvisionnement LLM sécurisée et d’une provenance avérée. Avec AICert, Mithril Security vise à fournir une solution technique permettant de retracer les modèles jusqu’à leurs algorithmes d’entraînement et ensembles de données, garantissant ainsi la sécurité des modèles d’IA. Nous pouvons nous protéger des risques posés par des LLM manipulés de manière malveillante en sensibilisant aux possibilités de telles manipulations. Les initiatives gouvernementales telles que l’AI Bill of Material contribuent également à assurer la sécurité de l’IA. Vous pouvez, vous aussi, participer au mouvement vers un écosystème d’IA sécurisé et transparent en vous inscrivant à AICert.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

40+ Outils AI Cool Que Vous Devriez Vérifier (Décembre 2023)

DeepSwap DeepSwap est un outil basé sur l’intelligence artificielle destiné à toute personne souhaitant créer d...

AI

Les cybercriminels utilisent WormGPT pour contourner la sécurité des emails

Le paysage en constante évolution de la cybercriminalité a donné lieu à de nouveaux outils dangereux. L’IA géné...

AI

La méthode d'impression 3D montre des promesses pour la réparation des lésions cérébrales.

Des scientifiques de l'Université d'Oxford au Royaume-Uni ont imprimé en trois dimensions (3D) des cellules neurales ...

AI

Le président Biden honore les scientifiques, les technologistes et les innovateurs américains de premier plan.

La Médaille nationale de la Technologie et de l’Innovation est la plus haute distinction nationale en matière de réal...

AI

Découvrez Chapyter une nouvelle extension Jupyter qui permet à ChatGPT de vous aider à rédiger des notebooks Python.

Chapyter, développé par un groupe de modélisateurs linguistiques, est un nouveau plugin Jupyter qui intègre ChatGPT p...