L'objectif de ce document est de vous données quelques conseils généraux pour la
préparation de documents primaires à partir de documents qu'Atlas ne peut accéder directement, donc
la conversion d'un format particulier vers un format accepté par Atlas.
Le but d'une conversion est d'obtenir:
- Le texte brut, sans éléments que vous n'analyserez pas
- Des documents primaires qui soient agréables à lire (structuration,
lisibilité)
Remarques générales
Notez que l'extraction d'un texte d'un fichier en format particulier (fichiers PDF, Word, Html etc)
pour l'analyser ou l'utiliser ailleurs dans un autre logiciel, dépend très fortement de la présentation
initiale du texte (mise en page en une ou plusieurs colonnes, pages très
graphiques, tableaux etc) ainsi que de la forme finale dans laquelle vous
souhaiteriez retrouver le texte (un seul document linéaire, ou plusieurs petits documents, ainsi que les capacités et exigences du logiciel d'analyse
textuelle en la matière.
De façon générale:
- Il n'existe pas de solution universelle ni parfaite
pour tout type de document/usage
- Préparez vous à pas mal de travail manuel,
sauf dans des cas de documents simples, purement textuels.
- Avant de vous lancer dans une direction ou une autre
faites des essais sérieux
avec des documents typiques que vous souhaitez analyser, tout
en vous permettant d'estimer l'effort qu'il faudra pour les
préparer à l'analyse (volume de travail, temps nécessaire etc)
- Assurez-vous que les outils de conversion que
vous utilisez correspondent à la dernière version; dans ce domaine le progrès d'une version
à l'autre peuvent être fulgurants
- Soyez prêts à combiner des outils, car quelques formats
très importants, tels
que HTML, PDF ou RTF sont reconnus par beaucoup de logiciels.
De l'autre côté il existe aussi pas mal d'outils performants pour extraire du texte de fichiers
de ce type; un détour vaut donc souvent la peine.
- Pour un volume important de documents vous avez avantage de chercher des outils qui
permettent de convertir des fichiers en masse.
- Une solution qui fonctionne en toute circonstance est le passage par le
presse-papier (clipboard)
Voir aussi