Des Encodages aux Incrustations
From Encodings to Embeddings
Concepts et fondamentaux : de la SVD aux réseaux neuronaux
Dans cet article, nous parlerons de deux concepts fondamentaux dans les domaines de la représentation des données et de l’apprentissage automatique : Encodage et Embarquement. Le contenu de cet article est en partie tiré d’un de mes cours dans le cadre du cours CS246 Mining Massive DataSet (MMDS) à l’Université de Stanford. J’espère que vous le trouverez utile.
Introduction
Toutes les méthodes d’apprentissage automatique (ML) travaillent avec des vecteurs de caractéristiques d’entrée et presque toutes nécessitent que les caractéristiques d’entrée soient numériques. Du point de vue de la ML, il existe quatre types de caractéristiques :
- Numérique (continu ou discret) : les données numériques peuvent être caractérisées par des données continues ou discrètes. Les données continues peuvent prendre n’importe quelle valeur dans une plage, tandis que les données discrètes ont des valeurs distinctes. Un exemple de variable numérique continue est `hauteur`, et un exemple de variable numérique discrète est `âge`.
- Catégorique (ordinal ou nominal) : les données catégoriques représentent des caractéristiques telles que la couleur des yeux et le lieu d’origine. Les données catégoriques peuvent être ordinales ou nominales. Dans une variable ordinale, les données sont réparties dans des catégories ordonnées classées de manière particulière. Un exemple est `niveau de compétence` qui prend des valeurs de [`débutant`, `intermédiaire`, `avancé`]. Une variable nominale n’a pas d’ordre parmi ses valeurs. Un exemple est `couleur des yeux` qui prend des valeurs de [`noir`, `marron`, `bleu`, `vert`].
- Séries temporelles : une série temporelle est une séquence de nombres collectés à intervalles réguliers sur une certaine période. Ces données sont ordonnées dans le temps contrairement aux variables précédentes. Un exemple est `moyenne du prix de vente des maisons au fil des années aux États-Unis`.
- Texte : Tout document est une donnée textuelle, que nous représentons souvent sous forme de “sac de mots”.
Pour alimenter un modèle de ML avec des variables, nous devons les convertir en données numériques. Les techniques d’encodage et d’embarquement font cela.
Encodage
L’encodage est le processus de conversion de données brutes, telles que du texte, des images ou du son, en un format numérique structuré qui peut être facilement traité par les ordinateurs. Il existe deux façons d’encoder une variable catégorique :
- Résumez les podcasts avec ChatGPT Exploitez l’IA pour extraire des informations
- Déployez votre propre chat sécurisé et privé de l’IA GPT avec Azure OpenAI.
- Automatisation des e-mails à l’aide de Python
1️⃣ Encodage entier
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Calibration de caméra à l’aide d’OpenCV
- Extraction de données TripAdvisor Hotels avec ChatGPT et Scraper
- L’avenir du travail Se former ou être laissé pour compte
- Créer des produits LLM est difficile – voici les 6 principaux défis
- Construction d’un système de recommandation pour les données de rétroaction implicite
- Prédire la rétrosynthèse en une seule étape en incorporant les connaissances des chimistes avec les modèles d’IA
- Principes de gestion des données pour la science des données