Empoisonnement des données et effondrement du modèle Le cataclysme de l’IA à venir

Corruption des données et écroulement du modèle le cataclysme de l'IA imminent

Les outils d’IA générative tels que ChatGPT semblent trop beaux pour être vrais : vous écrivez une simple instruction, et la plateforme génère du texte (ou des images, des vidéos, etc.) sur commande.

En coulisses, ChatGPT et ses semblables utilisent de vastes quantités de données provenant du World Wide Web pour s’entraîner – le “large” dans “large language model” (LLM) qui donne son nom à cette technologie.

Cependant, l’IA générative a ses inconvénients. Elle privilégie la plausibilité à la vérité, générant souvent des conneries (voir mon dernier article sur les conneries).

Cependant, son manque de véracité n’est pas son seul inconvénient. L’IA générative est tellement douée pour créer du contenu plausible que les gens le republient sur le web, ce qui signifie que la prochaine fois qu’un modèle d’IA générative utilise le web pour s’entraîner, il exploite une quantité croissante de données générées par l’IA.

Cette boucle de rétroaction semblable à l’ouroboros est cependant une mauvaise chose, car elle conduit à l’effondrement du modèle et à la contamination des données. Étant donné qu’il n’existe pas de moyens pratiques de prévenir ces problèmes, cette boucle risque de rendre la plupart, voire toutes les IA inutilisables.

Examinons cela de plus près.

Effondrement du modèle et contamination des données

L’effondrement du modèle se produit lorsque des modèles d’IA s’entraînent sur du contenu généré par l’IA. Il s’agit d’un processus où de petites erreurs ou des biais dans les données générées s’accumulent à chaque cycle, éloignant finalement le modèle de la génération d’inférences basées sur la distribution originale des données.

En d’autres termes, le modèle finit par oublier complètement les données d’origine et finit par créer du bruit inutile.

La contamination des données est un processus connexe mais différent. La contamination des données est un type d’attaque informatique dans laquelle un acteur malveillant introduit délibérément des informations trompeuses dans les ensembles de données d’entraînement pour amener le modèle à générer de mauvais résultats – ou, en réalité, les résultats désirés par l’acteur malveillant.

La corruption de Microsoft’s Twitter chatbot Tay en 2016 est un exemple familier de contamination des données. Les utilisateurs ont envoyé des tweets offensants au chatbot, l’entraînant ainsi à adopter un comportement hostile.

Si l’effondrement du modèle et la contamination des données sont des problèmes différents, leur chevauchement est particulièrement inquiétant. Si des acteurs malveillants utilisent l’IA pour générer des données contaminées dans le but d’effondrer un modèle, ils sont susceptibles de réaliser leurs objectifs néfastes sans être détectés.

L’opinion d’Intellyx

Nous pouvons considérer l’IA générative comme se comportant comme des antibiotiques : des médicaments miracles à leur lancement qui sont devenus de plus en plus problématiques avec le temps, jusqu’à ce qu’ils cessent de fonctionner complètement.

Ou peut-être devrions-nous considérer les ensembles de données publiques, comme le World Wide Web, comme une ressource limitée malgré la taille incompréhensible et la croissance inexorable du Web.

La présence de contenu généré par l’IA se propagera néanmoins comme la peste, empoisonnant les résultats de recherche ainsi que les modèles d’IA qui dépendent de ces informations publiques pour leur apprentissage.

La bonne nouvelle est que la curation est une solution viable – en fait, de nombreuses applications commerciales de l’IA générative dépendent déjà de contenus soigneusement organisés.

Cette curation, cependant, nécessite une vigilance constante. Considérer simplement qu’une organisation est à l’abri de l’effondrement du modèle parce qu’elle utilise exclusivement des données internes comme source de données d’entraînement peut conduire à un sentiment déraisonnable de complaisance.

Sans une surveillance et une gouvernance rigoureuses, même des ensembles de données soigneusement organisés peuvent involontairement incorporer du contenu généré par l’IA. L’antidote à une telle complaisance est une vigilance constante.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

La Pratique de la Gestion des Risques de l'IA

Sur le revers des nombreuses innovations passionnantes en matière d'IA au cours des dernières années, nous trouvons u...

AI

Les chercheurs d'Amazon proposent KD-Boost un nouvel algorithme de distillation des connaissances conçu pour une correspondance sémantique en temps réel.

La recherche sur le Web et la recherche de produits sur les plateformes de commerce électronique sont deux applicatio...

AI

Découvrez les Fellows Accenture de 2023-24

L'Initiative de Convergence MIT et Accenture pour l'Industrie et la Technologie annonce les boursiers diplômés de 202...

AI

Modèles généraux du monde la recherche sur l'intelligence artificielle de la piste de défilé lance un nouvel effort de recherche à long terme.

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/mnlpT-...