Type de contenu valide pour les documents XML, HTML et XHTML

Quels sont les types de contenu corrects pour les documents XML, HTML et XHTML?

J’ai besoin d’écrire un simple robot d’exploration qui récupère uniquement ces types de fichiers.

Aujourd’hui, http://example.net/index.html peut par exemple servir un fichier JPEG à cause de mod_rewrite. Je dois donc vérifier le type de contenu à partir de l’en-tête de réponse et le comparer à une liste de types de contenu autorisés.

Où puis-je obtenir une telle liste?

HTML: text/html , arrêt complet.

XHTML: application/xhtml+xml , ou seulement si vous suivez les directives de compatibilité HTML, text/html . Voir la note sur les types de supports W3.

XML: text/xml , application/xml ( RFC 2376 ).

Il existe également de nombreux autres types de supports basés sur XML, par exemple application/rss+xml ou image/svg+xml . Il y a fort à parier que toute fin non reconnue mais enregistrée dans +xml est basée sur XML. Voir la liste IANA pour les types de média enregistrés se terminant par +xml .

(Pour les types x- non enregistrés, tous les paris sont désactivés, mais vous espérez que +xml sera respecté).