Le bon, le mauvais et le laid de pd.read_html
Le bon, le mauvais et le laid de pd.read_html une chronique des réussites et des échecs
Pour les fans non initiés de pd.read_html
Attachez-vous. 🐴 Il est temps pour un nouvel examen de la Science des Données, Bon, Mauvais et Laid.
Si vous n’êtes pas déjà fan de pd.read_html()
ou de son cousin pd.to_html()
. . . vous ratez quelque chose. Et si vous me donnez une chance, je vous convertirai d’ici la fin de cet article.
Dans cet article, je vous montrerai d’abord une brève démonstration de pd.read_html()
puis j’aborderai les points positifs (ses points forts), les points négatifs (ses faiblesses et limitations) et les points problématiques (ses bizarreries).

En résumé pd.read_html()
vous permet de récupérer, en une seule ligne de code, toutes les tables d’un document HTML. Si vous n’êtes pas impressionné, je suis convaincu que vous n’avez pas pleinement considéré toutes les utilisations et implications possibles ici.
- Une nouvelle étude sur l’IA dévoile les secrets des batteries lithium-ion grâce à la vision par ordinateur.
- Comment créer des applications LLM à l’aide d’une base de données vectorielle?
- Pourquoi SQL est LE langage à apprendre pour la science des données
Cette table sur Wikipedia montre des informations sur bon nombre des fameux 10 000 lacs du Minnesota.

D’un point de vue de la gestion des données, cette table pose problème. Elle comporte neuf colonnes. Cependant, les colonnes les plus à droite sont parfois remplies, mais parfois non. Lorsqu’elles ne sont pas remplies, certaines de ces colonnes sont fusionnées, mais d’autres fois non. Les configurations cohérentes sont mélangées, ce qui pose problème.
Comme démonstration des problèmes, vous pouvez jouer chez vous en surlignant les six lignes montrées ci-dessus. Ensuite, je les ai copiées et collées dans un tableur pour obtenir ce résultat moche, illisible et inutile.

Autrement, considérez le résultat obtenu en une seule ligne de code :
pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]
Pas parfait, mais cela donne le résultat suivant, bien plus lisible et utile.

Les points positifs (Points forts)
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Des chercheurs de Microsoft et de ETH Zurich présentent HoloAssist un ensemble de données multimodal pour les copilotes d’IA de nouvelle génération pour le monde physique.
- Analyse des diagrammes en barres diverses avec l’outil d’analyse des données avancé de GPT-4
- L’ère de Gen AI Un Nouveau Départ
- Les chercheurs de Google et de l’Université John Hopkins révèlent une méthode de distillation plus rapide et plus efficace pour la génération de texte en image surmonter les limitations du modèle de diffusion.
- Modélisation des caractéristiques saisonnières variables avec la transformation de Fourier
- Des chercheurs de Stanford proposent des DDBMs une extension simple et évolutive des modèles de diffusion adaptée aux problèmes de traduction de distribution.
- Leadership basée sur les données Construire une organisation axée sur les données avec Srikanth Velamakanni