Le bon, le mauvais et le laid de pd.read_html

Le bon, le mauvais et le laid de pd.read_html une chronique des réussites et des échecs

Pour les fans non initiés de pd.read_html

Attachez-vous. 🐴 Il est temps pour un nouvel examen de la Science des Données, Bon, Mauvais et Laid.

Si vous n’êtes pas déjà fan de pd.read_html() ou de son cousin pd.to_html() . . . vous ratez quelque chose. Et si vous me donnez une chance, je vous convertirai d’ici la fin de cet article.

Dans cet article, je vous montrerai d’abord une brève démonstration de pd.read_html() puis j’aborderai les points positifs (ses points forts), les points négatifs (ses faiblesses et limitations) et les points problématiques (ses bizarreries).

Crédit de l'image: Création de l'auteur utilisant Canva text to image. 🤠 🐼

En résumé pd.read_html() vous permet de récupérer, en une seule ligne de code, toutes les tables d’un document HTML. Si vous n’êtes pas impressionné, je suis convaincu que vous n’avez pas pleinement considéré toutes les utilisations et implications possibles ici.

Cette table sur Wikipedia montre des informations sur bon nombre des fameux 10 000 lacs du Minnesota.

Crédit de l'image: Capture d'écran de Wikipedia. Crédit à Wikipedia et à ses contributeurs qui partagent leurs informations sous licence Creative Commons. L'original se trouve ici: Liste des lacs du Minnesota.

D’un point de vue de la gestion des données, cette table pose problème. Elle comporte neuf colonnes. Cependant, les colonnes les plus à droite sont parfois remplies, mais parfois non. Lorsqu’elles ne sont pas remplies, certaines de ces colonnes sont fusionnées, mais d’autres fois non. Les configurations cohérentes sont mélangées, ce qui pose problème.

Comme démonstration des problèmes, vous pouvez jouer chez vous en surlignant les six lignes montrées ci-dessus. Ensuite, je les ai copiées et collées dans un tableur pour obtenir ce résultat moche, illisible et inutile.

Crédit de l'image: Capture d'écran de l'auteur réalisée en suivant la procédure décrite ici.

Autrement, considérez le résultat obtenu en une seule ligne de code :

pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]

Pas parfait, mais cela donne le résultat suivant, bien plus lisible et utile.

Crédit de l'image: Capture d'écran de l'auteur obtenue avec le code indiqué ici.

Les points positifs (Points forts)

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Apple et Google ignorent ChatGPT comme Application de l'année

Dans un revirement surprenant, les géants de la technologie Apple et Google se sont écartés de leurs habitudes habitu...

AI

Comment l'IA aide les clients à mieux faire leurs achats sur Amazon

Les avis des clients sont devenus la pierre angulaire des achats en ligne, donnant aux acheteurs des informations pré...

AI

Découvrez mPLUG-Owl2 un modèle de fondation multi-modal qui transforme les modèles de langage large multi-modaux (MLLM) grâce à la collaboration des modalités.

Grands modèles de langage, avec leurs capacités imitant l’humain, ont fait sensation dans la communauté de l...

AI

Des chercheurs de l'UC Berkeley et de Deepmind proposent SuccessVQA une reformulation de la détection du succès qui est adaptable aux VLM pré-entraînés tels que Flamingo.

Pour atteindre la meilleure précision de performance possible, il est crucial de comprendre si un agent est sur la bo...

AI

Les cybercriminels utilisent WormGPT pour contourner la sécurité des emails

Le paysage en constante évolution de la cybercriminalité a donné lieu à de nouveaux outils dangereux. L’IA géné...

AI

Quoi de neuf en IA ChatGPT Plugins et accès à Internet

Aujourd'hui, nous vous apportons une nouvelle mise à jour sur l'une des AIs les plus célèbres du moment, ChatGPT.