Caractéristiques catégorielles Qu’est-ce qui ne va pas avec le codage par étiquettes ?
Les caractéristiques catégorielles Les limites du codage par étiquettes
Pourquoi nous ne pouvons pas encoder arbitrairement des caractéristiques catégorielles
Il est bien connu que de nombreux modèles d’apprentissage automatique ne peuvent pas traiter nativement les caractéristiques catégorielles. Bien qu’il existe quelques exceptions, c’est généralement au praticien de décider d’une représentation numérique de chaque caractéristique catégorielle. Il existe de nombreuses façons d’accomplir cela, mais une stratégie rarement recommandée est l’encodage en étiquette.
L’encodage en étiquette remplace chaque valeur catégorielle par un nombre arbitraire. Par exemple, si nous avons une caractéristique contenant des lettres de l’alphabet, l’encodage en étiquette pourrait attribuer à la lettre “A” une valeur de 0, à la lettre “B” une valeur de 1, et ainsi de suite jusqu’à “Z” qui est attribué 25. Après ce processus, techniquement parlant, tout algorithme devrait être capable de gérer la caractéristique encodée.
Mais quel est le problème avec cela ? Les modèles sophistiqués d’apprentissage automatique ne devraient-ils pas être capables de gérer ce type d’encodage ? Pourquoi des bibliothèques comme Catboost et d’autres stratégies d’encodage existent-elles pour traiter les caractéristiques catégorielles à cardinalité élevée ?
Cet article explorera deux exemples qui démontrent pourquoi l’encodage en étiquette peut poser problème aux modèles d’apprentissage automatique. Ces exemples nous aideront à comprendre pourquoi il existe tant d’alternatives à l’encodage en étiquette, et approfondiront notre compréhension de la relation entre la complexité des données et les performances du modèle.
- Utilisez Amazon SageMaker Studio pour créer une solution de réponse à questions RAG avec Llama 2, LangChain, et Pinecone pour une expérimentation rapide.
- CSV vers PDF Demande à GPT-4 pour la création automatique de rapports de visualisation de données
- Le parcours de KT pour réduire le temps de formation d’un modèle de transformateurs de vision en utilisant Amazon SageMaker
Exemples de construction d’intuition
Une des meilleures façons d’acquérir de l’intuition pour un concept d’apprentissage automatique est de comprendre comment il fonctionne dans un espace de faible dimension et d’essayer d’extrapoler le résultat à des dimensions supérieures. Cette extrapolation mentale ne correspond pas toujours à la réalité, mais dans notre cas, il nous suffit d’une seule caractéristique pour comprendre pourquoi nous avons besoin de meilleures stratégies d’encodage catégoriel.
Une caractéristique avec 25 catégories
Commençons par examiner un jeu de données de base avec une seule caractéristique et une cible continue. Voici les dépendances dont nous avons besoin :
import numpy as np
import polars as pl
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from...
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Des chercheurs de l’Université Stanford présentent FlashFFTConv un nouveau système d’intelligence artificielle pour optimiser les convolutions FFT pour les longues séquences.
- Le Tencent AI Lab présente Chain-of-Noting (CoN) pour améliorer la robustesse et la fiabilité des modèles de langage améliorés par la recherche.
- Construire un trieur Lego Technic avec une reconnaissance avancée en temps réel des objets
- Qu’est-ce qu’un SuperNIC?
- Des modèles d’apprentissage automatique améliorés grâce aux ordinateurs quantiques
- Pourquoi votre entreprise devrait utiliser l’IA générateur
- Des scientifiques impriment en 3D des follicules pileux dans une peau cultivée en laboratoire