Des Encodages aux Incrustations

From Encodings to Embeddings

Concepts et fondamentaux : de la SVD aux réseaux neuronaux

crédit : https://unsplash.com/

Dans cet article, nous parlerons de deux concepts fondamentaux dans les domaines de la représentation des données et de l’apprentissage automatique : Encodage et Embarquement. Le contenu de cet article est en partie tiré d’un de mes cours dans le cadre du cours CS246 Mining Massive DataSet (MMDS) à l’Université de Stanford. J’espère que vous le trouverez utile.

Introduction

Toutes les méthodes d’apprentissage automatique (ML) travaillent avec des vecteurs de caractéristiques d’entrée et presque toutes nécessitent que les caractéristiques d’entrée soient numériques. Du point de vue de la ML, il existe quatre types de caractéristiques :

  1. Numérique (continu ou discret) : les données numériques peuvent être caractérisées par des données continues ou discrètes. Les données continues peuvent prendre n’importe quelle valeur dans une plage, tandis que les données discrètes ont des valeurs distinctes. Un exemple de variable numérique continue est `hauteur`, et un exemple de variable numérique discrète est `âge`.
  2. Catégorique (ordinal ou nominal) : les données catégoriques représentent des caractéristiques telles que la couleur des yeux et le lieu d’origine. Les données catégoriques peuvent être ordinales ou nominales. Dans une variable ordinale, les données sont réparties dans des catégories ordonnées classées de manière particulière. Un exemple est `niveau de compétence` qui prend des valeurs de [`débutant`, `intermédiaire`, `avancé`]. Une variable nominale n’a pas d’ordre parmi ses valeurs. Un exemple est `couleur des yeux` qui prend des valeurs de [`noir`, `marron`, `bleu`, `vert`].
  3. Séries temporelles : une série temporelle est une séquence de nombres collectés à intervalles réguliers sur une certaine période. Ces données sont ordonnées dans le temps contrairement aux variables précédentes. Un exemple est `moyenne du prix de vente des maisons au fil des années aux États-Unis`.
  4. Texte : Tout document est une donnée textuelle, que nous représentons souvent sous forme de “sac de mots”.

Pour alimenter un modèle de ML avec des variables, nous devons les convertir en données numériques. Les techniques d’encodage et d’embarquement font cela.

Encodage

L’encodage est le processus de conversion de données brutes, telles que du texte, des images ou du son, en un format numérique structuré qui peut être facilement traité par les ordinateurs. Il existe deux façons d’encoder une variable catégorique :

1️⃣ Encodage entier

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Des chercheurs du MIT ont reçu des subventions de démarrage pour étudier les implications sociales de l'IA générative

Les 27 finalistes - représentant chaque école du MIT - exploreront l'impact de la technologie sur la démocratie, l'éd...

Recherche en IA

Le premier Grand Défi J-WAFS vise à développer des variantes de culture améliorées et à les transférer du laboratoire aux terres cultivées.

Matt Shoulders dirigera une équipe interdisciplinaire pour améliorer RuBisCO - l'enzyme de la photosynthèse considéré...

AI

Accélérer l'arrivée de l'énergie de fusion grâce à l'IA et à l'accessibilité

Le Centre de science des plasmas et de fusion du MIT recevra le soutien du DoE pour améliorer l'accès aux données de ...

AI

Inflection AI sécurise un financement de 1,3 milliard de dollars dirigé par des géants de la technologie et des leaders de l'industrie.

La start-up d'intelligence artificielle Inflection AI a fait un bond en avant considérable dans sa trajectoire de cro...

AI

Intelligence artificielle pour l'augmentation et la productivité

Le MIT Schwarzman College of Computing accorde des subventions de démarrage à sept projets interdisciplinaires explor...

AI

Intervention gouvernementale dans la conception de puces une aubaine ou un fléau pour les ambitions de l'Inde dans le domaine des semi-conducteurs ?

L’Inde se prépare à mettre en valeur son expertise en matière de semi-conducteurs et son innovation en matière ...