IA générative et l’avenir de l’ingénierie des données

Generative AI and the future of data engineering

Vous avez peut-être remarqué que le monde a abandonné Internet, le mobile, les réseaux sociaux, le cloud et même la crypto au profit d’une obsession pour l’IA générative.

Mais y a-t-il plus à l’IA générative qu’une démonstration sophistiquée sur Twitter ? Et comment cela va-t-il impacter les données ?

Évaluons cela.

Comment l’IA générative va perturber les données

Avec l’avènement de l’IA générative, les grands modèles de langage sont devenus beaucoup plus utiles pour la grande majorité des humains.

Besoin d’un dessin d’un dinosaure faisant du monocycle pour l’anniversaire de votre enfant de trois ans ? C’est fait. Et qu’en est-il d’un brouillon d’un e-mail aux employés concernant la nouvelle politique de télétravail de votre entreprise ? Aussi simple que de faire une tarte.

Il est inévitable que l’IA générative perturbe également les données. Après avoir parlé à des centaines de responsables de données d’entreprises allant des Fortune 500 aux startups, nous avons formulé quelques prédictions :

L’accès aux données deviendra beaucoup plus facile – et plus omniprésent

Les interfaces de type conversationnel permettront aux utilisateurs de poser des questions sur les données en langage naturel. Les personnes qui ne maîtrisent pas SQL et l’intelligence d’affaires n’auront plus besoin de demander à un analyste ou à un ingénieur en analyse des données de créer un tableau de bord pour eux. En même temps, ceux qui sont compétents pourront répondre à leurs propres questions et créer des produits de données plus rapidement et plus efficacement.

Cela ne remplacera pas le SQL et l’intelligence d’affaires (ou les professionnels des données), mais cela facilitera l’accès aux données et l’ouvrira à davantage d’acteurs dans davantage de cas d’utilisation. Par conséquent, les données deviendront plus omniprésentes et plus utiles aux organisations, avec la possibilité de générer un impact plus important.

Parallèlement, les ingénieurs de données seront plus productifs

À long terme, les robots pourraient nous remplacer (je plaisante – en partie), mais à l’avenir prévisible, l’IA générative ne pourra pas remplacer les ingénieurs de données ; elle facilitera simplement leur travail – et c’est très bien. Jetez un œil à ce que fait GitHub Copilot si vous avez besoin de plus de preuves.

Alors que l’IA générative soulagera les professionnels des données de certaines de leurs tâches plus ad hoc, elle donnera également aux spécialistes des données des outils assistés par l’IA pour construire, maintenir et optimiser plus facilement les pipelines de données. Les modèles d’IA générative sont déjà très performants pour créer du code SQL/Python, le déboguer et l’optimiser, et ils ne feront qu’aller en s’améliorant.

Ces améliorations peuvent être intégrées aux piliers actuels de votre pile de données ou être totalement nouvelles et développées par une startup en phase de lancement. Dans les deux cas, il en résultera plus de pipelines de données et plus de produits de données à consommer par les utilisateurs finaux.

Cependant, comme tout changement, ces avancées ne se feront pas sans difficultés. Un accès accru aux données et une plus grande productivité augmentent à la fois la criticité des données et leur complexité, rendant les données plus difficiles à gérer et à faire confiance.

Je ne prédis pas que des robots sous la forme de tableaux de bord Looker et de rapports Tableau vont se déchaîner. Cependant, je prévois un monde dans lequel les pipelines se transformeront en monstres de Frankenstein figuratifs et où les utilisateurs métier se fieront aux données sans avoir une vision claire de leur provenance ou des conseils sur leur utilisation. La gouvernance et la fiabilité des données deviendront beaucoup plus importantes dans ce nouveau monde courageux.

Les équipes d’ingénierie logicielle pratiquent depuis longtemps le DevOps et automatisent leurs outils pour améliorer les flux de travail des développeurs, augmenter la productivité et construire des produits plus utiles – tout en veillant à la fiabilité des systèmes complexes.

De même, nous devons élever notre niveau dans l’espace des données et devenir plus disciplinés sur le plan opérationnel que jamais auparavant. L’observabilité des données jouera un rôle similaire pour les équipes de données afin de gérer la fiabilité des données – et des produits de données – à grande échelle, et deviendra de plus en plus critique et puissante.

Construction, réglage et exploitation des LLMs

Le mois dernier, Datadog a annoncé son intégration avec ChatGPT pour mieux gérer les performances et la fiabilité des API OpenAI en suivant les modèles d’utilisation, les coûts et les performances.

La surveillance de l’API OpenAI est énorme, mais que se passe-t-il lorsque les équipes de données commencent à utiliser des LLMs dans le cadre de leurs pipelines de traitement des données ? Que se passe-t-il lorsque les équipes utilisent leurs propres ensembles de données pour affiner les LLMs ou même les créer à partir de zéro ? Inutile de dire que des pipelines cassés et des données défectueuses auront un impact considérable sur la qualité et la fiabilité du produit final.

Lors de l’appel sur les bénéfices du premier trimestre 2023 de Snowflake, Frank Slootman, PDG de Snowflake, a affirmé que “l’IA générative est alimentée par les données. C’est ainsi que les modèles s’entraînent et deviennent progressivement plus intéressants et pertinents… Vous ne pouvez pas simplement laisser ces [LLM] se propager de manière indiscriminée sur des données que les gens ne comprennent pas en termes de qualité, de définition et de généalogie.”

Nous avons déjà constaté les conséquences d’une formation de modèles peu fiables avant l’avènement des LLM. L’année dernière seulement, Equifax, le géant mondial du crédit, a révélé qu’un modèle d’apprentissage automatique formé sur des données erronées les avait amenés à envoyer des scores de crédit incorrects aux prêteurs pour des millions de consommateurs. Et peu de temps avant cela, Unity Technologies a enregistré une perte de revenus de 110 millions de dollars en raison de données publicitaires incorrectes alimentant ses algorithmes de ciblage.

Selon Slootman (et probablement aussi les dirigeants d’Equifax et d’Unity), il ne suffit pas d’avoir de l’IA pour réussir – il faut aussi gérer sa fiabilité. Mais pas seulement, les équipes ont besoin d’une approche automatisée, évolutive, complète et de bout en bout pour gérer la détection, la résolution et, en fin de compte, la prévention des modèles erronés alimentés par de mauvaises données.

L’observabilité des données jouera un rôle clé dans la mise en production des LLM et dans leur fiabilité suffisante pour que les entreprises et les particuliers les adoptent dans des cas d’utilisation en production.

L’observabilité des données permet aux équipes d’obtenir des informations essentielles sur la santé de leurs données à chaque étape du processus, en surveillant automatiquement les données et en vous informant lorsque les systèmes rencontrent des problèmes. L’observabilité des données met également en évidence un contexte riche avec une généalogie au niveau des champs, des journaux, des corrélations et d’autres informations qui permettent un diagnostic rapide, une résolution des incidents et une communication efficace avec les parties prenantes impactées par des problèmes de fiabilité des données – tous des éléments essentiels pour des analyses et des produits d’IA fiables.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more