PDF et Atlas

Le format PDF est un des formats textuels que Atlas peut analyser directement sans conversion. (Depuis la version 6 du logiciel)

Le format PDF

PDF (Portable Document Format) est, à côté du format HTML, le format le plus important pour la diffusion de documents sur Internet. Sur un ordinateur correctement installé l'utilisatrice s'en aperçoit à peine, sauf si elle/il est très attentif et note l'apparition d'une barre d'outils supplémentaires, bien que parfois on peut avoir quelques surprises...

Le format PDF a été proposé par la maison Adobe comme langage de description de page, pour pouvoir diffuser électroniquement des documents destinés, du moins à l'origine, principalement à l'impression ("papier électronique").

L'objectif de PDF est de remédier à plusieurs défauts d'autres moyens de diffusion:

Acrobat

Quand on parle d'Acrobat il faut également être au clair que c'est en réalité une suite de logiciels centrée sur la diffusion et la création de fichiers PDF, en particulier il convient de distinguer:

Autres outils

Etant donné l'importance du format PDF, toute une industrie c'est développée pour créer, éditer et lire des documents PDF, donc vous trouvez une large gamme de produits concurrents à Acrobat sur le marché.

A côté des produit commerciaux vous trouverez en particulier Ghostscript (open source), un logiciel qui permet de créer et de visualiser des fichiers Postscript et PDF. (C'est l'outil principal qu'utilisent les utilisateurs de Teχ/Lateχ pour créer des fichiers PDF...

Et vous trouverez toute une série d'outils de conversion de/à PDF, certains seulement dans le monde Unix....

Extraction de textes: Ce qu'il faut savoir

Si vous souhaitez extraire le texte d'un document vous disposez de toute une série d'outils . Il est alors important de savoir que:

  1. PDF étant un langage de description de pages, un fichier PDF est produit à partir de documents crées dans des logiciels de traitement de textes etc et est donc un résultat publié, l'équivalent électronique du papier dans le monde traditionnel... Pour pouvoir utiliser le texte contenu dans un document PDF il faut l'extraire. Les logiciels d'analyse textuelle pour l'instant n'en sont pas encore capables, pas les produits principaux l'ont annoncé (comme Atlas).
  2. L'extraction de textes est seulement possible, si
Texte ou graphique?

Tout ce qui apparaît comme texte, n'est pas forcément un texte dans le sens informatique du terme, à savoir des caractères individuels manipulables. Si le fichier PDF a été produit à partir d'un traitement de textes, le résultat sera certainement du texte editable, par contre si le document à été produit avec un scanner cela ne l'est souvent pas; ça veut dire que ce qui apparaît comme une page de texte est un réalité un page graphique, par conséquent toutes les opérations de type textuel (recherche, sélection...) ne font aucun sens, la seule chose que vous pouvez faire c'est de couper/coller une partie du graphique en la sélectionnant, le résultat, par exemple dans Word sera l'insertion d'un graphique.

Beaucoup de textes anciens qui ont trouvés leur chemin sur l'internet sont souvent sous forme graphique, donc une analyse de leurs contenus à l'aide de logiciels d'analyse textuelles ne pourra pas se faire sans un effort considérable (reconnaissance des caractères, avec souvent correction manuelle du résultat!).

Illustration

Si vous voulez voir comment ces différents éléments se présentent, voici quelques exemples (première page de la réponse de D. Gallin à C. Blocher.