Caractéristiques catégorielles Qu’est-ce qui ne va pas avec le codage par étiquettes ?

Les caractéristiques catégorielles Les limites du codage par étiquettes

Pourquoi nous ne pouvons pas encoder arbitrairement des caractéristiques catégorielles

Nuages. Image par l'auteur.

Il est bien connu que de nombreux modèles d’apprentissage automatique ne peuvent pas traiter nativement les caractéristiques catégorielles. Bien qu’il existe quelques exceptions, c’est généralement au praticien de décider d’une représentation numérique de chaque caractéristique catégorielle. Il existe de nombreuses façons d’accomplir cela, mais une stratégie rarement recommandée est l’encodage en étiquette.

L’encodage en étiquette remplace chaque valeur catégorielle par un nombre arbitraire. Par exemple, si nous avons une caractéristique contenant des lettres de l’alphabet, l’encodage en étiquette pourrait attribuer à la lettre “A” une valeur de 0, à la lettre “B” une valeur de 1, et ainsi de suite jusqu’à “Z” qui est attribué 25. Après ce processus, techniquement parlant, tout algorithme devrait être capable de gérer la caractéristique encodée.

Mais quel est le problème avec cela ? Les modèles sophistiqués d’apprentissage automatique ne devraient-ils pas être capables de gérer ce type d’encodage ? Pourquoi des bibliothèques comme Catboost et d’autres stratégies d’encodage existent-elles pour traiter les caractéristiques catégorielles à cardinalité élevée ?

Cet article explorera deux exemples qui démontrent pourquoi l’encodage en étiquette peut poser problème aux modèles d’apprentissage automatique. Ces exemples nous aideront à comprendre pourquoi il existe tant d’alternatives à l’encodage en étiquette, et approfondiront notre compréhension de la relation entre la complexité des données et les performances du modèle.

Exemples de construction d’intuition

Une des meilleures façons d’acquérir de l’intuition pour un concept d’apprentissage automatique est de comprendre comment il fonctionne dans un espace de faible dimension et d’essayer d’extrapoler le résultat à des dimensions supérieures. Cette extrapolation mentale ne correspond pas toujours à la réalité, mais dans notre cas, il nous suffit d’une seule caractéristique pour comprendre pourquoi nous avons besoin de meilleures stratégies d’encodage catégoriel.

Une caractéristique avec 25 catégories

Commençons par examiner un jeu de données de base avec une seule caractéristique et une cible continue. Voici les dépendances dont nous avons besoin :

import numpy as np
import polars as pl
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from...

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

La modélisation 3D s'appuie sur l'IA

L'intelligence artificielle peut débloquer des améliorations de vitesse et de qualité dans les graphiques tridimensio...

AI

Empreinte carbone de Starlink jusqu'à 30 fois la taille d'Internet terrestre

Les chercheurs ont calculé une empreinte carbone significative pour certaines constellations de satellites fournissan...

AI

Non pas le héros que les NeRF méritent, mais le héros dont les NeRF ont besoin CopyRNeRF est une approche d'IA qui protège le droit d'auteur des NeRF

Si vous avez suivi le développement dans le domaine de la graphique informatique, vous devriez être familiarisé avec ...

AI

Le scientifique en chef de NVIDIA, Bill Dally, prononcera un discours principal lors de la conférence Hot Chips.

Bill Dally – l’un des plus éminents informaticiens au monde et responsable des efforts de recherche de NV...

AI

Plongez dans la réflexion d'un annotateur Génération des instructions d'étiquetage de l'ensemble de données

Nous sommes tous impressionnés par les avancées que nous avons récemment observées dans les modèles d’IA. Nous ...

AI

Surprise magnétique révélée dans le graphène à 'angle magique

Les aimants et les supraconducteurs ne s'entendent généralement pas, mais une nouvelle étude montre que le graphène à...