Articles of html parsing

HTML5: W3C vs WHATWG. Qui donne les spécifications les plus autoritaires?

Je suis à mi-chemin dans un parsingur html et j’ai trouvé que html5 définissait explicitement les règles empiriques pour parsingr le HTML mal formé . (Et j’avais l’habitude de les déduire de DTD, soupir) J’adore ce fait, mais je sais bien que html5 n’est pas encore finalisé (je me demande même s’il le sera) et […]

Pack d’agilité HTML – tables d’parsing

Je veux utiliser le pack d’agilité HTML pour parsingr les tableaux de pages Web complexes, mais je suis en quelque sorte perdu dans le modèle d’object. J’ai regardé l’exemple de lien, mais je n’ai trouvé aucune donnée de table de cette façon. Puis-je utiliser XPath pour obtenir les tables? Je suis pratiquement perdu après avoir […]

Web Scraping Avec Haskell

Quelle est l’état actuel des bibliothèques pour la recherche de sites Web avec Haskell? J’essaie de faire plus de mes tâches ponctuelles rapides dans Haskell, afin d’aider à augmenter mon niveau de confort avec la langue. En Python, j’ai tendance à utiliser l’excellente bibliothèque PyQuery pour cela. Y a-t-il quelque chose de simple et de […]

Pouvez-vous fournir des exemples d’parsing HTML?

Comment parsingz-vous le HTML avec une variété de langages et de bibliothèques d’parsing? En répondant: Les commentaires individuels seront liés aux réponses aux questions sur l’parsing syntaxique du HTML avec les expressions rationnelles afin de montrer comment bien faire les choses. Par souci de cohérence, je demande que l’exemple parsing un fichier HTML pour le […]

Comment parsingr une page HTML avec Node.js

Je dois parsingr (côté serveur) de grandes quantités de pages HTML. Nous sums tous d’accord pour dire que regexp n’est pas la voie à suivre. Il me semble que javascript est le moyen natif d’parsingr une page HTML, mais cette hypothèse repose sur le code côté serveur ayant toutes les fonctionnalités de DOM javascript à […]

Regex sélectionnez tout le texte entre les balises

Quelle est la meilleure façon de sélectionner tout le texte entre 2 balises – ex: le texte entre toutes les balises ‘pre’ sur la page.

Comment normaliser le HTML en JavaScript ou jQuery?

Comment les parsings HTML fonctionnent-elles si elles n’utilisent pas regexp?

Je vois des questions chaque jour demandant comment parsingr ou extraire quelque chose d’une chaîne HTML et la première réponse / commentaire est toujours “N’utilisez pas RegEx pour parsingr HTML, de peur que vous ne ressentiez la colère!” (cette dernière partie est parfois omise). C’est plutôt déroutant pour moi, j’ai toujours pensé qu’en général, la […]

Comment parsingr et traiter HTML / XML en PHP?

Comment peut-on parsingr HTML / XML et en extraire des informations?

Analyser une chaîne HTML avec JS

J’ai cherché une solution mais rien n’était pertinent, voici mon problème: Je veux parsingr une chaîne qui contient du texte HTML. Je veux le faire en JavaScript. J’ai essayé cette bibliothèque mais il semble qu’elle parsing le code HTML de ma page actuelle, pas d’une chaîne. Parce que quand j’essaie le code ci-dessous, cela change […]