Empoisonnement des données et effondrement du modèle Le cataclysme de l’IA à venir

Corruption des données et écroulement du modèle le cataclysme de l'IA imminent

Les outils d’IA générative tels que ChatGPT semblent trop beaux pour être vrais : vous écrivez une simple instruction, et la plateforme génère du texte (ou des images, des vidéos, etc.) sur commande.

En coulisses, ChatGPT et ses semblables utilisent de vastes quantités de données provenant du World Wide Web pour s’entraîner – le “large” dans “large language model” (LLM) qui donne son nom à cette technologie.

Cependant, l’IA générative a ses inconvénients. Elle privilégie la plausibilité à la vérité, générant souvent des conneries (voir mon dernier article sur les conneries).

Cependant, son manque de véracité n’est pas son seul inconvénient. L’IA générative est tellement douée pour créer du contenu plausible que les gens le republient sur le web, ce qui signifie que la prochaine fois qu’un modèle d’IA générative utilise le web pour s’entraîner, il exploite une quantité croissante de données générées par l’IA.

Cette boucle de rétroaction semblable à l’ouroboros est cependant une mauvaise chose, car elle conduit à l’effondrement du modèle et à la contamination des données. Étant donné qu’il n’existe pas de moyens pratiques de prévenir ces problèmes, cette boucle risque de rendre la plupart, voire toutes les IA inutilisables.

Examinons cela de plus près.

Effondrement du modèle et contamination des données

L’effondrement du modèle se produit lorsque des modèles d’IA s’entraînent sur du contenu généré par l’IA. Il s’agit d’un processus où de petites erreurs ou des biais dans les données générées s’accumulent à chaque cycle, éloignant finalement le modèle de la génération d’inférences basées sur la distribution originale des données.

En d’autres termes, le modèle finit par oublier complètement les données d’origine et finit par créer du bruit inutile.

La contamination des données est un processus connexe mais différent. La contamination des données est un type d’attaque informatique dans laquelle un acteur malveillant introduit délibérément des informations trompeuses dans les ensembles de données d’entraînement pour amener le modèle à générer de mauvais résultats – ou, en réalité, les résultats désirés par l’acteur malveillant.

La corruption de Microsoft’s Twitter chatbot Tay en 2016 est un exemple familier de contamination des données. Les utilisateurs ont envoyé des tweets offensants au chatbot, l’entraînant ainsi à adopter un comportement hostile.

Si l’effondrement du modèle et la contamination des données sont des problèmes différents, leur chevauchement est particulièrement inquiétant. Si des acteurs malveillants utilisent l’IA pour générer des données contaminées dans le but d’effondrer un modèle, ils sont susceptibles de réaliser leurs objectifs néfastes sans être détectés.

L’opinion d’Intellyx

Nous pouvons considérer l’IA générative comme se comportant comme des antibiotiques : des médicaments miracles à leur lancement qui sont devenus de plus en plus problématiques avec le temps, jusqu’à ce qu’ils cessent de fonctionner complètement.

Ou peut-être devrions-nous considérer les ensembles de données publiques, comme le World Wide Web, comme une ressource limitée malgré la taille incompréhensible et la croissance inexorable du Web.

La présence de contenu généré par l’IA se propagera néanmoins comme la peste, empoisonnant les résultats de recherche ainsi que les modèles d’IA qui dépendent de ces informations publiques pour leur apprentissage.

La bonne nouvelle est que la curation est une solution viable – en fait, de nombreuses applications commerciales de l’IA générative dépendent déjà de contenus soigneusement organisés.

Cette curation, cependant, nécessite une vigilance constante. Considérer simplement qu’une organisation est à l’abri de l’effondrement du modèle parce qu’elle utilise exclusivement des données internes comme source de données d’entraînement peut conduire à un sentiment déraisonnable de complaisance.

Sans une surveillance et une gouvernance rigoureuses, même des ensembles de données soigneusement organisés peuvent involontairement incorporer du contenu généré par l’IA. L’antidote à une telle complaisance est une vigilance constante.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

AIData (computing)Language ModelSynthetic Data

Was this article helpful?

93 out of 132 found this helpful

Empoisonnement des données et effondrement du modèle Le cataclysme de l’IA à venir

Corruption des données et écroulement du modèle le cataclysme de l'IA imminent

Effondrement du modèle et contamination des données

L’opinion d’Intellyx

Was this article helpful?

Les dépôts GitHub AI tendance semaine du 9 octobre 2023

Est-ce qu’un Chatbot alimenté par un Llama peut être entraîné sur un CPU ?

AI

Cette publication sur l'IA introduit l'apprentissage des erreurs (LeMa) Améliorer le raisonnement mathématique dans les grands modèles de langage grâce à l'apprentissage basé sur les erreurs.

La Pratique de la Gestion des Risques de l'IA

Les chercheurs d'Amazon proposent KD-Boost un nouvel algorithme de distillation des connaissances conçu pour une correspondance sémantique en temps réel.

Découvrez les Fellows Accenture de 2023-24

Modèles généraux du monde la recherche sur l'intelligence artificielle de la piste de défilé lance un nouvel effort de recherche à long terme.

La compression des documents récupérés peut-elle améliorer les performances des modèles de langage ? Cet article sur l'IA présente RECOMP améliorer les LMs améliorés par la récupération avec la compression et l'augmentation sélective