Régression CatBoost Expliquez-le moi en détail

Expliquez-moi en détail la Régression CatBoost

Une analyse complète (et illustrée) du fonctionnement interne de CatBoost

CatBoost, abréviation de Categorical Boosting, est un puissant algorithme d’apprentissage automatique qui excelle dans le traitement des caractéristiques catégorielles et la production de prédictions précises. Traditionnellement, la manipulation de données catégorielles est assez délicate, nécessitant un encodage one-hot, un encodage par étiquette ou une autre technique de prétraitement pouvant distordre la structure inhérente des données. Pour résoudre ce problème, CatBoost utilise son propre système d’encodage intégré appelé Ordered Target Encoding.

Voyons comment CatBoost fonctionne en pratique en construisant un modèle pour prédire comment quelqu’un pourrait évaluer le livre “Murder, She Texted” en fonction de leur note moyenne des livres sur Goodreads et de leur genre préféré.

Nous avons demandé à 6 personnes d’évaluer “Murder, She Texted” et avons collecté les autres informations pertinentes à leur sujet.

Voici notre ensemble de données d’entraînement actuel, que nous utiliserons pour entraîner les données (évidemment).

Étape 1 : Mélanger l’ensemble de données et Encoder les Données Catégorielles en Utilisant l’Encodage Ciblé Ordonné

La façon dont nous prétraitons les données catégorielles est essentielle à l’algorithme CatBoost. Dans ce cas, nous n’avons qu’une seule colonne catégorielle – Genre préféré. Cette colonne est encodée (c’est-à-dire convertie en un entier discret) et la manière dont cela est fait varie en fonction du problème de régression ou de classification. Étant donné que nous traitons un problème de régression (car la variable que nous voulons prédire, la note de “Murder, She Texted”, est continue), nous suivons les étapes suivantes.

1 – Mélanger l’ensemble de données :

2 – Placer la variable cible continue dans des intervalles discrets : Comme nous avons très peu de données ici, nous allons créer 2 intervalles de même taille pour catégoriser la cible. (En savoir plus sur la création d’intervalles ici).

Nous plaçons les 3 plus petites valeurs de la note de “Murder, She Texted” dans l’intervalle 0 et le reste dans l’intervalle 1.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Un héritage puissant La mère du chercheur a alimenté sa passion pour la fusion nucléaire

Note de l’éditeur : Cet article fait partie d’une série qui présente des chercheurs qui font progresser l...

AI

Présentation de la Superalignment par OpenAI

La nouvelle équipe dédiée d'OpenAI pour diriger et contrôler les systèmes d'IA, afin de veiller sur les personnes du ...

AI

Luma AI lance Genie un nouveau modèle d'IA générative en 3D qui vous permet de créer des objets en 3D à partir de texte

Dans la modélisation 3D, la création d’objets 3D réalistes a souvent été une tâche complexe et chronophage. Les...

AI

Un robot peut ranger les vêtements dans une chambre en désordre

Ken Goldberg à l'Université de Californie, Berkeley, et ses collègues ont mis au point un système de robot pour ramas...

AI

Analyse de la complexité des séries temporelles à l'aide de l'entropie

Tout data scientist le sait la première étape pour résoudre un problème d'apprentissage automatique est l'exploratio...

AI

Avancée de l'IA Le réseau neuronal a une capacité semblable à celle de l'homme de généraliser le langage

Une intelligence artificielle basée sur un réseau neuronal surpasse ChatGPT dans la capacité d'intégrer rapidement de...