Meilleurs outils pour le suivi et la gestion des expériences d’apprentissage automatique (ML) (2023)

Les meilleurs outils pour le suivi et la gestion des expériences d'apprentissage automatique (ML) (2023)' can be condensed to 'Meilleurs outils pour le suivi et la gestion de l'apprentissage automatique (ML) (2023)

Obtenir de bons résultats à partir d’une seule exécution d’entraînement de modèle lors d’un projet d’apprentissage automatique est une chose. Il est toutefois nécessaire de bien organiser vos essais d’apprentissage automatique et d’avoir une méthode pour en tirer des conclusions fiables.

Le suivi des expériences offre la solution à ces problèmes. Le suivi des expériences en apprentissage automatique consiste à conserver toutes les données pertinentes pour chaque expérience que vous menez.

Le suivi des expériences est mis en œuvre par les équipes d’apprentissage automatique de différentes manières, notamment en utilisant des feuilles de calcul, GitHub ou des plateformes internes. Cependant, l’utilisation d’outils spécialement conçus pour gérer et suivre les expériences d’apprentissage automatique est le choix le plus efficace.

Voici les meilleurs outils pour le suivi et la gestion des expériences en apprentissage automatique
Weight & Biases

Un cadre d’apprentissage automatique appelé Weight & Biases a été créé pour la gestion des modèles, la version des ensembles de données et la surveillance des expériences. L’objectif principal du composant de suivi des expériences est d’aider les scientifiques des données à enregistrer chaque étape du processus d’entraînement du modèle, à visualiser les modèles et à comparer les essais.

W&B est un outil qui peut être utilisé sur site ou dans le cloud. Weight & Biases prend en charge une large gamme de frameworks et de bibliothèques différents en termes d’intégrations, notamment Keras, l’environnement PyTorch, TensorFlow, Fastai, Scikit-learn, et bien d’autres.

Comet

Les scientifiques des données peuvent suivre, comparer, expliquer et optimiser les expériences et les modèles à l’aide de la plateforme Comet ML tout au long du cycle de vie du modèle, de l’entraînement à la production. Pour le suivi des expériences, les scientifiques des données peuvent enregistrer les ensembles de données, les modifications de code, l’historique des expérimentations et les modèles.

Comet est proposé aux équipes, aux particuliers, aux établissements universitaires et aux entreprises pour tous ceux qui souhaitent mener des expériences, faciliter le travail et visualiser rapidement les résultats. Il peut être installé localement ou utilisé comme une plateforme hébergée.

Sacred + Omniboard

Les chercheurs en apprentissage automatique peuvent configurer, organiser, enregistrer et reproduire des expériences à l’aide du programme open source Sacred. Bien que Sacred ne dispose pas d’une interface utilisateur exemplaire, vous pouvez le lier à quelques outils de tableau de bord tels que Omniboard (mais vous pouvez également utiliser d’autres outils, tels que Sacredboard ou Neptune, via l’intégration).

Malgré l’absence de mise à l’échelle des autres outils et de conception pour la collaboration en équipe (sauf en combinaison avec un autre outil), Sacred offre de nombreuses possibilités pour les investigations individuelles.

MLflow

Un framework open source appelé MLflow aide à gérer l’ensemble du cycle de vie de l’apprentissage automatique. Cela comprend l’expérimentation ainsi que le stockage, la duplication et l’utilisation des modèles. Le suivi, le registre des modèles, les projets et les modèles sont les quatre composants de MLflow, chacun représentant l’un de ces facteurs.

Le composant de suivi de MLflow dispose d’une API et d’une interface utilisateur qui permettent l’enregistrement de métadonnées de journalisation différentes (telles que les paramètres, les versions de code, les mesures et les fichiers de sortie) et leur visualisation ultérieure.

TensorBoard

Étant donné que TensorBoard est la boîte à outils graphique pour TensorFlow, les utilisateurs commencent souvent par celui-ci. TensorBoard offre des outils de visualisation et de débogage de modèles d’apprentissage automatique. Les utilisateurs peuvent examiner le graphique du modèle, projeter des embeddings dans un espace de dimension inférieure, suivre les métriques d’expérimentation telles que la perte et l’exactitude, et bien plus encore.

Vous pouvez télécharger et partager les résultats de vos expériences d’apprentissage automatique avec n’importe qui en utilisant TensorBoard.dev (les fonctionnalités de collaboration sont absentes dans TensorBoard). Bien que TensorBoard.dev soit proposé en tant que service gratuit sur un serveur géré, TensorBoard est open source et hébergé localement.

Guild AI

Licencié sous la licence open source Apache 2.0, Guild AI est un système de suivi des expériences d’apprentissage automatique. Il permet l’analyse, la visualisation, les opérations de différence, l’automatisation des pipelines, le réglage des hyperparamètres de l’AutoML, l’ordonnancement, le traitement parallèle et la formation à distance.

Plusieurs outils intégrés pour comparer les expériences sont également inclus avec Guild AI, notamment :

  • Guild Compare, un programme basé sur curses qui vous permet de visualiser des exécutions formatées sous forme de feuilles de calcul avec des drapeaux et des données scalaires,
  • Guild View, une application en ligne qui vous permet de comparer les résultats et de visualiser les exécutions,
  • En utilisant la commande Guild Diff, vous pouvez comparer deux exécutions.
Polyaxon

Une plateforme d’apprentissage en profondeur et d’apprentissage automatique reproductible et évolutive s’appelle Polyaxon. Il offre de nombreuses fonctionnalités, notamment la gestion des modèles, l’orchestration des exécutions, la conformité réglementaire et le suivi et l’optimisation des expériences. L’objectif principal de ses créateurs est de maximiser la production et la productivité tout en minimisant les coûts.

Vous pouvez enregistrer automatiquement les métriques importantes du modèle, les hyperparamètres, les visualisations, les artefacts et les ressources avec Polyaxon. Vous pouvez également effectuer un contrôle de version du code et des données. Vous pouvez utiliser l’interface utilisateur de Polyaxon ou l’intégrer à une autre plateforme, telle que TensorBoard, pour afficher les métadonnées enregistrées ultérieurement. Vous pouvez choisir de déployer Polyaxon sur site ou avec un fournisseur de services cloud spécifique. Les principales bibliothèques d’apprentissage automatique (ML) et d’apprentissage en profondeur (DL) telles que TensorFlow, Keras ou Scikit-learn sont également prises en charge.

ClearML

L’équipe derrière Allegro AI soutient ClearML, une plateforme open-source avec une collection d’outils pour simplifier votre processus d’apprentissage automatique. Le package comprend la gestion des données, l’orchestration, le déploiement, la gestion des pipelines ML et le traitement des données. Cinq modules de ClearML présentent toutes ces fonctionnalités :

  • Package Python pour l’intégration de ClearML dans votre code existant ;
  • Stockage des données d’expérience, de modèle et de workflow sur le serveur ClearML, qui prend également en charge le gestionnaire d’expériences de l’interface utilisateur Web ;
  • Agent d’orchestration ML-Ops ClearML Agent, qui permet une reproductibilité évolutive des expériences et des workflows ;
  • Une plateforme de gestion et de versioning des données basée sur les systèmes de fichiers et le stockage d’objets appelée ClearML Data ;
  • Lancement d’instances à distance de VSCode et de Jupyter Notebooks à l’aide d’une session ClearML.

L’entraînement de modèles, l’optimisation des hyperparamètres, les outils de visualisation, les solutions de stockage et d’autres frameworks et bibliothèques sont tous intégrés à ClearML.

Valohai

La plateforme MLOps Valohai automatise tout, du déploiement du modèle à l’extraction des données. Selon les développeurs de cet outil, Valohai “fournit une orchestration sans configuration et un suivi des expériences similaire à MLFlow”. Bien que le suivi des expériences ne soit pas sa principale fonctionnalité, cette plateforme offre des capacités spécifiques, notamment la comparaison des expériences, le contrôle de version, la généalogie des modèles et la traçabilité.

Tous les langages, frameworks, ainsi qu’une large gamme de programmes et d’outils, sont compatibles avec Valohai. Il peut être configuré sur site ou avec n’importe quel fournisseur de services cloud. Le programme est également conçu pour le travail d’équipe et dispose de nombreuses fonctionnalités pour faciliter celui-ci.

Pachyderm

Pachyderm est une plateforme de pipeline de données open-source et de qualité entreprise qui permet aux utilisateurs de gérer l’ensemble du cycle d’apprentissage automatique, des choix de mise à l’échelle aux expériences, en passant par la création et la gestion des workflows et la généalogie des données.

Il existe trois versions du logiciel disponibles :

  • Communauté – une version gratuite et open-source de Pachyderm créée et prise en charge par un groupe de professionnels ;
  • Dans l’Enterprise Edition, une plateforme contrôlée par version complète peut être installée sur l’infrastructure Kubernetes de choix de l’utilisateur.
Kubeflow

L’ensemble d’outils d’apprentissage automatique pour Kubernetes s’appelle Kubeflow. Son objectif est d’utiliser les capacités de Kubernetes pour simplifier la mise à l’échelle des modèles d’apprentissage automatique. Bien que la plateforme propose certaines fonctionnalités de suivi, ce n’est pas l’objectif principal du projet. Il se compose de plusieurs parties, notamment :

  • Kubeflow Pipelines, un framework permettant de créer et de déployer des workflows d’apprentissage automatique (ML) évolutifs basés sur des conteneurs Docker, est probablement la fonctionnalité de Kubeflow la plus utilisée ;
  • Central Dashboard est l’interface utilisateur principale de Kubeflow ;
  • KFServing est une boîte à outils pour le déploiement et le service des modèles Kubeflow, et Notebook Servers est un service pour la création et l’administration de notebooks Jupyter interactifs.
  • Pour les modèles ML dans Kubeflow via des opérateurs, entraînez les opérateurs (par exemple, PyTorch, TensorFlow).
Verta.ai

Verta est une plateforme pour le MLOps en entreprise. Le logiciel a été développé pour faciliter la gestion de l’ensemble du cycle de vie de l’apprentissage automatique. Quatre mots résument ses principales fonctionnalités : suivi, collaboration, déploiement et surveillance. Les produits principaux de Verta, Experiment Management, Model Registry, Model Deployment et Model Monitoring, intègrent tous ces fonctionnalités.

Avec le composant Experiment Management, vous pouvez surveiller et visualiser les expériences d’apprentissage automatique, enregistrer différents types de métadonnées, parcourir et comparer les expériences, assurer la reproductibilité des modèles, travailler en équipe sur des projets d’apprentissage automatique, et bien plus encore.

TensorFlow, PyTorch, XGBoost, ONNX et d’autres frameworks ML bien connus sont pris en charge par Verta. Il est accessible en tant que service open-source, SaaS et entreprise.

SageMaker Studio

Un composant de la plateforme AWS est SageMaker Studio. Il permet aux scientifiques des données et aux développeurs de créer, construire, entraîner et déployer des modèles d’apprentissage automatique (ML) de qualité supérieure. Il se présente comme le premier environnement de développement intégré (IDE) spécifique à l’apprentissage automatique (ML). Il se compose de quatre parties : préparation, entraînement, accordage, déploiement et gestion. La troisième partie, train & tune, s’occupe de la fonctionnalité de suivi des expériences. Les utilisateurs peuvent automatiser l’accordage des hyperparamètres, déboguer les exécutions d’entraînement, enregistrer, organiser et comparer les expériences.

DVC Studio

DVC Studio est membre de la famille d’outils itératifs alimentés par l’IA de DVC. DVC a été initialement conçu comme un système de contrôle de version open-source spécifique à l’apprentissage automatique. Ce composant est toujours en place pour permettre aux scientifiques des données de partager et de reproduire leurs modèles d’apprentissage automatique. Le studio DVC, une interface visuelle pour les projets d’apprentissage automatique, a été développé pour aider les utilisateurs à suivre les expériences, les visualiser et y travailler en équipe.

L’application DVC Studio est disponible en ligne et localement.

Deepkit

Utilisez Deepkit.ai, un outil de développement et de formation d’apprentissage automatique open-source pour un apprentissage automatique moderne intelligent, rapide et reproductible. Vous pouvez gérer les serveurs de calcul, enregistrer vos essais et déboguer vos modèles avec Deepkit.ai.

Gestion des expériences Débogage des modèles Gestion des calculs : les principaux avantages de Deepkit.ai

Trains

Les modèles d’apprentissage profond de qualité industrielle sont suivis et gérés via la plateforme open-source Trains. En seulement quelques lignes de code, toute équipe de recherche en phase de développement de modèle peut configurer et conserver des entrées instructives sur son serveur Trains local.

Tout flux de travail DL/ML est intégré sans effort avec Trains. Il archive automatiquement les cahiers Jupyter en code Python et relie les expériences avec le code d’entraînement (commit git + diff local + versions de packages Python).

DAGsHub

En utilisant la puissance de Git (gestion de version du code source) et DVC, la plateforme de collaboration open-source en science des données et en apprentissage automatique DagsHub vous permet de construire, développer et déployer facilement des projets d’apprentissage automatique (contrôle de version des données).

DAGsHub facilite la construction, la distribution et la réutilisation de projets d’apprentissage automatique et de science des données, ce qui permet aux équipes de données de gagner du temps et des efforts à chaque fois. Les caractéristiques suivantes de DAGsHub le distinguent des autres plates-formes traditionnelles :

La possibilité de tout lier en un seul endroit sans configuration est offerte par les remotes intégrés pour des programmes tels que Git (pour la gestion du code source), DVC (pour le suivi des versions de données) et MLflow (pour le suivi des expériences).

DAGsHub vous offre le confort d’une belle expérience utilisateur tout en vous permettant de suivre et de surveiller les différentes expériences d’apprentissage automatique réalisées par de nombreuses personnes. Les essais d’un projet d’apprentissage automatique peuvent tous être suivis et liés à la version particulière de ses modèles, de son code et de ses données !

En plus de suivre vos expériences, les visualisations intuitives de DAGsHub et les données enregistrées pour chaque expérience vous permettent de comparer divers essais côte à côte et de comprendre les variations des mesures de performance et des hyperparamètres.

Note : Nous avons fait de notre mieux pour présenter les outils cool, mais si nous en avons manqué un, n'hésitez pas à nous contacter à l'adresse [email protected]

L’article Top Tools for Machine Learning (ML) Experiment Tracking and Management (2023) a été publié pour la première fois sur MarkTechPost.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Ajustez finement Falcon 7B et d'autres LLMs sur Amazon SageMaker avec le décorateur @remote

Aujourd'hui, les modèles d'IA générative couvrent une variété de tâches, de la résumé de texte, aux questions-réponse...

Actualités sur l'IA

Définissez des autorisations personnalisées en quelques minutes avec Amazon SageMaker Role Manager via l'AWS CDK.

Les administrateurs de l'apprentissage automatique (ML) jouent un rôle crucial dans le maintien de la sécurité et de ...

Apprentissage automatique

Accélérez PyTorch avec DeepSpeed pour entraîner de grands modèles de langage avec les instances DL1 EC2 basées sur Intel Habana Gaudi.

Former des modèles de langage volumineux (LLM) avec des milliards de paramètres peut être difficile. En plus de conce...

AI

Analyser l'infestation de rongeurs en utilisant les capacités géospatiales d'Amazon SageMaker

Les rongeurs tels que les rats et les souris sont associés à plusieurs risques pour la santé et sont connus pour prop...

AI

Créez un modèle d'apprentissage automatique de segmentation de culture avec les données de Planet et les capacités géospatiales d'Amazon SageMaker

Dans cette analyse, nous utilisons un modèle de voisins les plus proches K-nearest (KNN) pour réaliser une segmentati...

AI

Élever l'expérience de l'IA générative Introduction de la prise en charge en continu dans l'hébergement d'Amazon SageMaker

Nous sommes ravis d'annoncer la disponibilité de la diffusion en continu des réponses grâce à l'inférence en temps ré...