Devrais-je vraiment manger ce champignon?

Devrais-je manger ce champignon ?

Classification des champignons comestibles et vénéneux avec les arbres de décision boostés par gradient de CatBoost

La plupart des ensembles de données éducatifs et du monde réel contiennent des caractéristiques catégoriques. Aujourd’hui, nous parlerons des arbres de décision boostés par gradient de la bibliothèque CatBoost, qui propose une prise en charge native des données catégoriques. Nous utiliserons un ensemble de données de champignons qui sont soit comestibles, soit vénéneux. Les champignons sont décrits par des caractéristiques catégoriques telles que leur couleur, leur odeur et leur forme, et la question à laquelle nous souhaitons répondre est :

Est-il sûr de manger ce champignon – en fonction de ses caractéristiques catégoriques ?

Comme vous pouvez le constater, les enjeux sont élevés. Nous voulons nous assurer d’obtenir le bon modèle d’apprentissage automatique afin que notre omelette aux champignons ne se termine pas en catastrophe. En bonus, à la fin, nous fournirons un classement de l’importance des caractéristiques qui vous indique quelle caractéristique catégorique est le meilleur prédicteur de la sécurité des champignons.

Photo de Andrew Ridley sur Unsplash

Présentation de l’ensemble de données sur les champignons

L’ensemble de données sur les champignons est disponible ici : https://archive.ics.uci.edu/dataset/73/mushroom [1]. Pour plus de clarté dans la présentation, nous créons un DataFrame pandas à partir des variables originales sous une forme abrégée et l’annotons avec les noms de colonnes appropriés et les variables sous une forme longue. Nous utilisons la fonction replace de pandas avec les variables sous une forme longue extraites de la description de l’ensemble de données. La variable cible ne peut prendre que les valeurs Vrai et Faux – les créateurs de l’ensemble de données ont joué la sécurité et ont classé les champignons douteux comme non comestibles.

Après avoir vérifié l’ensemble de données pour rechercher des valeurs manquantes, nous constatons qu’une seule colonne – stalk_root – est affectée. Nous supprimons cette colonne.

L’exploration de l’ensemble de données révèle que les données sont assez équilibrées : Sur les 8124 champignons, 4208 sont…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Apprentissage automatique

En direct de Taipei Le PDG de NVIDIA dévoile des plateformes Gen AI pour chaque industrie.

Lors de sa première présentation en direct depuis la pandémie, le fondateur et PDG de NVIDIA, Jensen Huang, a lancé l...

AI

Signalez le contenu nocif à l'aide de la détection de toxicité d'Amazon Comprehend

Les communautés en ligne stimulent la participation des utilisateurs dans des industries telles que les jeux vidéo, l...

AI

La course à la régulation de l'intelligence artificielle

Pourquoi l'Europe a un avantage sur l'Amérique et la Chine.

AI

Des chercheurs du MIT présentent PFGM++ une fusion révolutionnaire de la physique et de l'IA pour une génération avancée de motifs

Le domaine de la modélisation générative a connu des avancées significatives ces dernières années, les chercheurs s&#...

AI

Les chercheurs de Stanford introduisent RoboFuME révolutionnant l'apprentissage robotique avec une intervention humaine minimale

Dans de nombreux domaines impliquant l’apprentissage automatique, un paradigme largement couronné de succès pou...

AI

Meta AI présente Seamless un système d'IA disponible publiquement qui débloque une communication interlinguistique expressive en temps réel.

De nouvelles fonctionnalités et améliorations dans la traduction automatique de la voix ont rendu possible d’ac...