Empoisonnement des données et effondrement du modèle Le cataclysme de l’IA à venir
Corruption des données et écroulement du modèle le cataclysme de l'IA imminent
Les outils d’IA générative tels que ChatGPT semblent trop beaux pour être vrais : vous écrivez une simple instruction, et la plateforme génère du texte (ou des images, des vidéos, etc.) sur commande.
En coulisses, ChatGPT et ses semblables utilisent de vastes quantités de données provenant du World Wide Web pour s’entraîner – le “large” dans “large language model” (LLM) qui donne son nom à cette technologie.
Cependant, l’IA générative a ses inconvénients. Elle privilégie la plausibilité à la vérité, générant souvent des conneries (voir mon dernier article sur les conneries).
Cependant, son manque de véracité n’est pas son seul inconvénient. L’IA générative est tellement douée pour créer du contenu plausible que les gens le republient sur le web, ce qui signifie que la prochaine fois qu’un modèle d’IA générative utilise le web pour s’entraîner, il exploite une quantité croissante de données générées par l’IA.
- Les dépôts GitHub AI tendance semaine du 9 octobre 2023
- Aragon AI Review Le générateur ultime de portraits IA en 2023?
- Trouvez vos solutions d’IA à l’Exposition ODSC West AI.
Cette boucle de rétroaction semblable à l’ouroboros est cependant une mauvaise chose, car elle conduit à l’effondrement du modèle et à la contamination des données. Étant donné qu’il n’existe pas de moyens pratiques de prévenir ces problèmes, cette boucle risque de rendre la plupart, voire toutes les IA inutilisables.
Examinons cela de plus près.
Effondrement du modèle et contamination des données
L’effondrement du modèle se produit lorsque des modèles d’IA s’entraînent sur du contenu généré par l’IA. Il s’agit d’un processus où de petites erreurs ou des biais dans les données générées s’accumulent à chaque cycle, éloignant finalement le modèle de la génération d’inférences basées sur la distribution originale des données.
En d’autres termes, le modèle finit par oublier complètement les données d’origine et finit par créer du bruit inutile.
La contamination des données est un processus connexe mais différent. La contamination des données est un type d’attaque informatique dans laquelle un acteur malveillant introduit délibérément des informations trompeuses dans les ensembles de données d’entraînement pour amener le modèle à générer de mauvais résultats – ou, en réalité, les résultats désirés par l’acteur malveillant.
La corruption de Microsoft’s Twitter chatbot Tay en 2016 est un exemple familier de contamination des données. Les utilisateurs ont envoyé des tweets offensants au chatbot, l’entraînant ainsi à adopter un comportement hostile.
Si l’effondrement du modèle et la contamination des données sont des problèmes différents, leur chevauchement est particulièrement inquiétant. Si des acteurs malveillants utilisent l’IA pour générer des données contaminées dans le but d’effondrer un modèle, ils sont susceptibles de réaliser leurs objectifs néfastes sans être détectés.
L’opinion d’Intellyx
Nous pouvons considérer l’IA générative comme se comportant comme des antibiotiques : des médicaments miracles à leur lancement qui sont devenus de plus en plus problématiques avec le temps, jusqu’à ce qu’ils cessent de fonctionner complètement.
Ou peut-être devrions-nous considérer les ensembles de données publiques, comme le World Wide Web, comme une ressource limitée malgré la taille incompréhensible et la croissance inexorable du Web.
La présence de contenu généré par l’IA se propagera néanmoins comme la peste, empoisonnant les résultats de recherche ainsi que les modèles d’IA qui dépendent de ces informations publiques pour leur apprentissage.
La bonne nouvelle est que la curation est une solution viable – en fait, de nombreuses applications commerciales de l’IA générative dépendent déjà de contenus soigneusement organisés.
Cette curation, cependant, nécessite une vigilance constante. Considérer simplement qu’une organisation est à l’abri de l’effondrement du modèle parce qu’elle utilise exclusivement des données internes comme source de données d’entraînement peut conduire à un sentiment déraisonnable de complaisance.
Sans une surveillance et une gouvernance rigoureuses, même des ensembles de données soigneusement organisés peuvent involontairement incorporer du contenu généré par l’IA. L’antidote à une telle complaisance est une vigilance constante.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Principaux articles LLM importants de la semaine du 2/10 au 8/10
- Les compétitions Kaggle sont-elles utiles pour résoudre des problèmes réels ?
- Amr Nour-Eldin, Vice-président de la technologie chez LXT – Série d’interviews
- Accélérez votre parcours d’apprentissage automatique avec le cours de maîtrise de Metaflow d’Uplimit.
- Des spécialistes aux assistants polyvalents une plongée approfondie dans l’évolution des modèles de base multimodaux en vision et en langage
- Meilleures pratiques pour construire des ETL pour l’apprentissage automatique
- Les tenants et aboutissants de la génération assistée par récupération (RAG)