Travailler avec des documents HTML (Web)

Ce document s'intéresse à la partie textuelle d'une d'une page Web, c'est à dire extraire le texte pour le convertir en un document primaire textuel.

Si vous vous souhaiter traiter des éléments multimédia, il faudra adopter une autre démarche:

Le format HTML n'est pas directement accessible, et Atlas converti le texte de la page Web en RTF. Les résultats de cette conversion sont assez bons, quand il s'agit de pages simples contenant principalement du texte, plutôt médiocre voir inutilisable dans le cas de documents plus complexes où le filtre n'élimine pas tout ce qui n'est pas texte à analyser.

Comme la plupart des pages web contiennent également des éléments de navigation - regardez cette page - le document primaire résultant va contenir des textes ou autres éléments (liens) qui ne font pas partie du texte à analyser, il faut donc en général les nettoyer avant l'analyse.