L'objectif de ce document est de vous données quelques conseils généraux pour la préparation de documents primaires à partir de documents qu'Atlas ne peut accéder directement, donc la conversion d'un format particulier vers un format accepté par Atlas.

Le but d'une conversion est d'obtenir:

  1. Le texte brut, sans éléments que vous n'analyserez pas
  2. Des documents primaires qui soient agréables à lire (structuration, lisibilité)
Remarques générales

Notez que l'extraction d'un texte d'un fichier en format particulier (fichiers PDF, Word, Html etc) pour l'analyser ou l'utiliser ailleurs dans un autre logiciel, dépend très fortement de la présentation initiale du texte (mise en page en une ou plusieurs colonnes, pages très graphiques, tableaux etc) ainsi que de la forme finale dans laquelle vous souhaiteriez retrouver le texte (un seul document linéaire, ou plusieurs petits documents, ainsi que les capacités et exigences du logiciel d'analyse textuelle en la matière.

De façon générale:

Voir aussi