Nombres Aléatoires en Apprentissage Automatique

Les Nombres Aléatoires en Apprentissage Automatique

Tout sur les nombres pseudo-aléatoires, le lancement et la reproductibilité

Photo de Riho Kroll sur Unsplash

L’apprentissage automatique repose sur les statistiques, et les nombres aléatoires sont importants pour la performance de nombreuses étapes du traitement des données et de l’entraînement des modèles. Les frameworks modernes d’apprentissage automatique fournissent des abstractions et des fonctions qui mettent en œuvre la randomisation sous-jacente, et pour nous, scientifiques des données et ingénieurs en apprentissage automatique, les détails de la génération de nombres aléatoires restent souvent obscurs.

Dans cet article, je souhaite éclairer certains aspects des nombres aléatoires en apprentissage automatique. Vous découvrirez :

  • 3 exemples d’utilisation de nombres aléatoires en apprentissage automatique
  • Générer des nombres (pseudo-)aléatoires
  • Fixer les nombres aléatoires par la graine
  • Apprentissage automatique reproductible : les lignes de code nécessaires pour scikit-learn, tensorflow et pytorch.

À la fin de cet article, vous saurez ce qui se passe lorsque vous utilisez des nombres aléatoires dans votre pipeline d’apprentissage automatique, et vous apprendrez les lignes de code nécessaires pour assurer la reproductibilité de vos algorithmes d’apprentissage automatique.

3 exemples d’utilisation de nombres aléatoires en apprentissage automatique

Pour illustrer l’importance des nombres aléatoires, nous discutons de trois exemples où ils sont pertinents le long du pipeline d’apprentissage automatique.

  1. Création de partitions d’entraînement/test d’un ensemble de données
  2. Initialisation des poids dans un réseau neural
  3. Choix de mini-lots pendant l’entraînement

Partition d’entraînement/test Diviser votre ensemble de données en données d’entraînement et de test est l’une des étapes les plus importantes pour évaluer les performances d’un algorithme d’apprentissage automatique. Nous souhaitons créer des modèles qui généralisent bien aux données non utilisées pendant l’entraînement. À cette fin, un ensemble d’échantillons de données est divisé en au moins deux ensembles disjoints.

Les données d’entraînement sont utilisées pour entraîner l’algorithme, c’est-à-dire pour fixer itérativement les paramètres du modèle. Les données de test sont utilisées pour valider l’algorithme en appliquant un modèle entraîné sur les données de test et en rapportant les métriques appropriées.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les vents du changement Comment l'IA générative révolutionne la cybersécurité

En passant à des modèles personnalisés, en augmentant les analystes et en partenariat avec des fournisseurs de sécuri...

AI

Une nouvelle recherche en IA présente le réglage multitâche des instructions (MPT) pour l'apprentissage par transfert

Les modèles de langage pré-entraînés (PLMs) ont considérablement amélioré de nombreuses tâches NLP en aval grâce au f...

Apprentissage automatique

La boîte vocale de Meta l'IA qui parle toutes les langues

Dans un développement révolutionnaire, Meta, la société mère de Facebook, a dévoilé sa dernière intelligence artifici...

AI

Découvrez MovieChat un système novateur de compréhension vidéo qui intègre des modèles de base vidéo et de grands modèles linguistiques.

Les grands modèles de langage (LLM) ont récemment réalisé d’énormes progrès dans le secteur du traitement du la...