La sortie de ChatGPT a-t-elle affecté la production de données ouvertes ? Des chercheurs examinent comment la popularité des LLMs entraîne une diminution substantielle du contenu sur StackOverflow.

La sortie de ChatGPT affecte-t-elle les données ouvertes ? Des chercheurs examinent la diminution du contenu sur StackOverflow due à la popularité des LLMs.

Les Modèles de Langage Généralisés (LLMs) deviennent de plus en plus populaires avec chaque nouvelle mise à jour et chaque nouvelle version. Des LLMs tels que BERT, GPT et PaLM ont montré des capacités exceptionnelles dans le domaine du traitement et de la compréhension du langage naturel. Le chatbot bien connu développé par OpenAI appelé ChatGPT est basé sur l’architecture de transformer de GPT 3.5 et GPT 4 et est utilisé par plus d’un million d’utilisateurs. En raison de ses propriétés d’imitation humaine, il a attiré l’attention de tous, des chercheurs et développeurs aux étudiants. Il génère efficacement du contenu unique, répond aux questions comme le ferait un humain, résume de longs paragraphes textuels, complète des exemples de code, traduit des langues, etc.

ChatGPT s’est avéré étonnamment bon pour fournir aux utilisateurs des informations sur une variété de sujets, ce qui en fait une alternative potentielle aux recherches web classiques et à la demande d’aide à d’autres utilisateurs en ligne. Mais il y a aussi une limitation, à savoir que la quantité de données générées par des humains accessibles au public et les ressources de connaissances pourraient diminuer considérablement si les utilisateurs continuent d’interagir en privé avec des modèles de langage massifs. Cette réduction des données ouvertes peut rendre difficile la sécurisation des données d’entraînement pour les futurs modèles, car il pourrait y avoir moins d’informations disponibles gratuitement.

Pour approfondir la recherche à ce sujet, une équipe de chercheurs a examiné l’activité sur Stack Overflow afin de déterminer comment la sortie de ChatGPT a affecté la production de données ouvertes. Stack Overflow, un site bien connu de questions-réponses pour les programmeurs informatiques, a été utilisé car il constitue une excellente étude de cas pour examiner le comportement et les contributions des utilisateurs lorsque de nombreux modèles de langage sont présents. L’équipe s’est plongée dans l’étude de la manière dont les LLMs, tels que ChatGPT, gagnent en popularité massive et conduisent à une diminution substantielle du contenu sur des sites comme Stack Overflow.

Après évaluation, l’équipe a tiré quelques conclusions intéressantes. Stack Overflow a connu une forte baisse de son activité par rapport à ses concurrents chinois et russes, où l’accès à ChatGPT est restreint, et par rapport à des forums similaires pour les mathématiques, où ChatGPT est moins efficace en raison d’un manque de données d’entraînement utiles. L’équipe a prédit une baisse de 16% des publications hebdomadaires sur Stack Overflow après le lancement de ChatGPT par OpenAI. Il a également été constaté que l’impact de ChatGPT sur la réduction de l’activité sur Stack Overflow a augmenté avec le temps, ce qui suggère que les utilisateurs, de plus en plus habitués aux fonctionnalités du modèle, ont commencé à s’appuyer de plus en plus sur lui pour obtenir des informations, limitant ainsi davantage les contributions sur le site.

L’équipe a réduit ses conclusions à trois points clés, qui sont les suivants.

  1. Réduction de l’activité de publication : Après la sortie de ChatGPT, Stack Overflow a connu une diminution du nombre de publications, c’est-à-dire de questions et de réponses. Une méthodologie de différences de différence a été utilisée pour calculer la réduction de l’activité et la comparer à quatre autres plateformes de questions-réponses. L’activité de publication sur Stack Overflow a initialement diminué d’environ 16% dans les six mois suivant le lancement de ChatGPT, avant d’augmenter jusqu’à environ 25%.
  1. Aucun changement dans les votes des publications – Le nombre de votes, à la hausse comme à la baisse, reçus par les publications sur Stack Overflow depuis le lancement de ChatGPT n’a pas changé de manière significative, malgré la baisse de l’activité de publication, ce qui montre que ChatGPT remplace non seulement les publications de faible qualité, mais aussi les articles de haute qualité.
  1. Effet sur les langages de programmation divers : ChatGPT a eu un effet diversifié sur les différents langages de programmation discutés sur Stack Overflow. Comparée à la moyenne mondiale du site, l’activité de publication a diminué de manière plus notable pour certains langages, tels que Python et JavaScript. Les baisses relatives de l’activité de publication ont également été influencées par la prévalence des langages de programmation sur GitHub.

Les auteurs ont conclu en expliquant comment l’utilisation généralisée des LLMs et l’éloignement subséquent des sites web comme Stack Overflow peuvent finalement limiter la quantité de données ouvertes dont les utilisateurs et les futurs modèles peuvent apprendre, malgré les gains d’efficacité potentiels pour résoudre certains problèmes de programmation. Cela a des conséquences sur l’accessibilité et le partage des connaissances sur Internet, ainsi que sur la viabilité à long terme de l’écosystème de l’IA.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

NVIDIA DGX Cloud maintenant disponible pour accélérer l'entraînement de l'IA générative

NVIDIA DGX Cloud — qui offre des outils qui peuvent transformer presque n’importe quelle entreprise en une entr...

AI

Rendre ChatGPT à nouveau visionnaire Cette approche d'IA explore l'apprentissage de lien-contexte pour permettre l'apprentissage multimodal

Les modèles linguistiques ont révolutionné notre manière de communiquer avec les ordinateurs grâce à leur capacité à ...

AI

Analyse des performances et optimisation des modèles PyTorch - Partie 3

Ceci est la troisième partie d'une série d'articles sur le thème de l'analyse et de l'optimisation des modèles PyTorc...

AI

PoisonGPT Hugging Face LLM propage de fausses informations

Les grands modèles de langage (LLMs) ont gagné une popularité significative dans le monde entier, mais leur adoption ...

Recherche en IA

Les chercheurs du MIT CSAIL discutent des frontières de l'IA générative.

Des experts se réunissent pour jeter un coup d'œil sous le capot du code, du langage et des images générés par l'IA, ...