Régression CatBoost Expliquez-le moi en détail

Expliquez-moi en détail la Régression CatBoost

Une analyse complète (et illustrée) du fonctionnement interne de CatBoost

CatBoost, abréviation de Categorical Boosting, est un puissant algorithme d’apprentissage automatique qui excelle dans le traitement des caractéristiques catégorielles et la production de prédictions précises. Traditionnellement, la manipulation de données catégorielles est assez délicate, nécessitant un encodage one-hot, un encodage par étiquette ou une autre technique de prétraitement pouvant distordre la structure inhérente des données. Pour résoudre ce problème, CatBoost utilise son propre système d’encodage intégré appelé Ordered Target Encoding.

Voyons comment CatBoost fonctionne en pratique en construisant un modèle pour prédire comment quelqu’un pourrait évaluer le livre “Murder, She Texted” en fonction de leur note moyenne des livres sur Goodreads et de leur genre préféré.

Nous avons demandé à 6 personnes d’évaluer “Murder, She Texted” et avons collecté les autres informations pertinentes à leur sujet.

Voici notre ensemble de données d’entraînement actuel, que nous utiliserons pour entraîner les données (évidemment).

Étape 1 : Mélanger l’ensemble de données et Encoder les Données Catégorielles en Utilisant l’Encodage Ciblé Ordonné

La façon dont nous prétraitons les données catégorielles est essentielle à l’algorithme CatBoost. Dans ce cas, nous n’avons qu’une seule colonne catégorielle – Genre préféré. Cette colonne est encodée (c’est-à-dire convertie en un entier discret) et la manière dont cela est fait varie en fonction du problème de régression ou de classification. Étant donné que nous traitons un problème de régression (car la variable que nous voulons prédire, la note de “Murder, She Texted”, est continue), nous suivons les étapes suivantes.

1 – Mélanger l’ensemble de données :

2 – Placer la variable cible continue dans des intervalles discrets : Comme nous avons très peu de données ici, nous allons créer 2 intervalles de même taille pour catégoriser la cible. (En savoir plus sur la création d’intervalles ici).

Nous plaçons les 3 plus petites valeurs de la note de “Murder, She Texted” dans l’intervalle 0 et le reste dans l’intervalle 1.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Régression CatBoost Expliquez-le moi en détail

Expliquez-moi en détail la Régression CatBoost

Une analyse complète (et illustrée) du fonctionnement interne de CatBoost

Étape 1 : Mélanger l’ensemble de données et Encoder les Données Catégorielles en Utilisant l’Encodage Ciblé Ordonné

Was this article helpful?

L’implémentation du momentum de Nesterov de PyTorch est-elle incorrecte ?

Une introduction du Pythonista au noyau sémantique

AI

Un héritage puissant La mère du chercheur a alimenté sa passion pour la fusion nucléaire

Présentation de la Superalignment par OpenAI

Luma AI lance Genie un nouveau modèle d'IA générative en 3D qui vous permet de créer des objets en 3D à partir de texte

Un robot peut ranger les vêtements dans une chambre en désordre

Analyse de la complexité des séries temporelles à l'aide de l'entropie

Avancée de l'IA Le réseau neuronal a une capacité semblable à celle de l'homme de généraliser le langage