Les transformations Map, Filter et CombinePerKey dans l’écriture de pipelines Apache Beam avec des exemples
Les transformations Map, Filter et CombinePerKey dans Apache Beam avec exemples
Pratiquons avec de vraies données
Apache Beam gagne en popularité en tant que modèle de programmation unifié pour les pipelines de traitement de données massives efficaces et portables. Il peut traiter à la fois des données en batch et en streaming. C’est ainsi que vient le nom. Beam est la combinaison des mots Batch et Stream :
B(de Batch) + eam(de stream) = Beam
La portabilité est également une excellente fonctionnalité. Vous n’avez qu’à vous concentrer sur l’exécution du pipeline et il peut être exécuté depuis n’importe où, comme Spark, Flink, Apex ou Cloud Dataflow. Vous n’avez pas besoin de modifier la logique ou la syntaxe pour cela.
Dans cet article, nous nous concentrerons sur l’apprentissage de l’écriture de certains pipelines ETL à l’aide d’exemples. Nous essaierons certaines opérations de transformation en utilisant un bon jeu de données et j’espère que vous trouverez toutes ces opérations de transformation utiles dans votre travail également.
- GPT privé affiner LLM sur les données d’entreprise
- Utilisez les modèles GPT pour générer des données textuelles pour l’entraînement des modèles d’apprentissage automatique.
- Impact environnemental de l’IA générative omniprésente
N’hésitez pas à télécharger ce jeu de données public et à suivre :
Données d’échantillon de ventes | Kaggle
Un notebook Google Colab est utilisé pour cet exercice. L’installation est donc très facile. Utilisez simplement cette ligne de code :
!pip install --quiet apache_beam
Une fois l’installation terminée, j’ai créé un répertoire pour cet exercice nommé ‘data’ :
mkdir -p data
Plongeons dans le sujet d’aujourd’hui, qui est les opérations de transformation. Pour commencer, nous travaillerons sur un pipeline simple qui se contente de lire le fichier CSV et de l’écrire dans un fichier texte.
Ce n’est pas aussi simple que la méthode read_csv() de Pandas. Cela nécessite une opération coder(). Tout d’abord, une classe CustomCoder() a été définie ici qui encode d’abord les objets en octets, puis décode les octets en objets correspondants, et enfin spécifie si ce codeur est garanti pour encoder des valeurs de manière déterministe. Veuillez consulter la documentation ici.
Si c’est votre premier pipeline, veuillez remarquer la syntaxe d’un pipeline. Après la classe CustomCoder(), il y a le pipeline le plus simple. Nous avons d’abord initié le pipeline vide en tant que ‘p1’. Ensuite, nous avons écrit le pipeline ‘sales’ où nous avons d’abord lu le fichier CSV du dossier de données que nous avons créé précédemment. Dans Apache Beam, chaque opération de transformation dans le…
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Vue probabiliste de l’Analyse en Composantes Principales
- Apprentissage par renforcement sans modèle pour le développement des processus chimiques
- Puissance des machines virtuelles de la série B d’Azure
- Outils et agents HuggingFace Transformers Pratique
- VoAGI Actualités, 12 juillet 5 cours gratuits sur ChatGPT • Le pouvoir de la sollicitation en chaîne de la pensée
- xAI La nouvelle entreprise d’IA d’Elon Musk dévoile sa mission avec le lancement de son site web
- Surveillance des données non structurées pour LLM et NLP