7 Exemples pour maîtriser les opérations de données catégoriques avec Python Pandas

7 exemples pour maîtriser les manipulations de données catégoriques avec Python Pandas

Utilisez le type de données catégoriel lors de la manipulation de caractéristiques catégorielles à faible cardinalité

(image créée par l'auteur)

Les variables catégorielles peuvent prendre une valeur parmi un nombre limité de valeurs, qui sont généralement fixes. Voici quelques exemples de variables catégorielles :

  • Indicateur de niveau d’anglais (A1, A2, B1, B2, C1, C2)
  • Groupe sanguin d’une personne (A, B, AB, 0)
  • Informations démographiques telles que la race et le genre
  • Niveau d’éducation

Pandas fournit un type de données dédié pour les variables catégorielles (category ou CategoricalDtype). Bien que de telles données puissent également être stockées avec les types de données object ou string, il existe plusieurs avantages à utiliser le type de données category. Nous découvrirons ces avantages, mais commençons d’abord par savoir comment travailler avec les données catégorielles.

Lorsque nous créons une Series ou un DataFrame avec des données textuelles, son type de données devient object par défaut. Pour utiliser le type de données category, nous devons le définir explicitement.

import pandas as pd# create Seriesblood_type = pd.Series(["A", "B", "AB", "0"])print(blood_type)# sortie0     A1     B2    AB3     0dtype: object# create Series with category data typeblood_type = pd.Series(["A", "B", "AB", "0"], dtype="category")print(blood_type)# sortie0     A1     B2    AB3     0dtype: categoryCategories (4, object): ['0', 'A', 'AB', 'B']

Les valeurs étant identiques, les types de données sont différents, comme indiqué avec dtype lorsque vous imprimez la Series.

Nous passerons en revue 7 exemples pour apprendre les sujets suivants :

  1. Type de données catégorielles dans les DataFrames
  2. Les catégories
  3. Ajout et mise à jour des valeurs
  4. Ajout et suppression des catégories
  5. Ordre entre les catégories
  6. Renommer les catégories
  7. Avantages de l’utilisation du type de données catégorielles

Exemple 1 – Type de données catégorielles dans les DataFrames

Nous pouvons déclarer le type de données category lors de la création de la Series ou du DataFrame comme nous l’avons fait ci-dessus. Nous pouvons également les convertir en category par la suite en utilisant le…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Permettez à vos utilisateurs professionnels de tirer des enseignements des documents d'entreprise en utilisant Amazon SageMaker Canvas Generative AI

Les entreprises cherchent à exploiter le potentiel de l'apprentissage automatique (ML) pour résoudre des problèmes co...

AI

Construisez des solutions de PDI bien conçues avec une approche personnalisée – Partie 2 Sécurité

La construction d'une solution prête à la production sur AWS implique une série de compromis entre les ressources, le...

AI

Apprenez à construire et déployer des agents LLM utilisant des outils en utilisant les modèles de base AWS SageMaker JumpStart

Les agents de modèle de langage étendu (LLM) sont des programmes qui étendent les capacités des LLM autonomes avec 1)...

AI

Prévision robuste de séries temporelles avec MLOps sur Amazon SageMaker

Dans le monde de la prise de décision basée sur les données, la prévision des séries chronologiques est essentielle p...

AI

Exploiter la puissance des données d'entreprise avec l'IA générative Aperçus d'Amazon Kendra, LangChain et des grands modèles de langage.

Les grands modèles linguistiques (LLM) avec leur vaste connaissance peuvent générer un texte semblable à celui d'un h...