Le format PDF

PDF (Portable Document Format) est, à côté du format HTML, le format le plus courant pour la diffusion de documents sur Internet. Sur un ordinateur correctement installé l'utilisatrice s'en aperçoit à peine, sauf si elle/il est très attentif et note l'apparition d'une barre d'outils supplémentaires, bien que parfois on peut avoir quelques surprises...

Le format PDF a été proposé par Adobe comme langage de description de page, pour pouvoir diffuser électroniquement des documents destinés, du moins à l'origine, principalement à l'impression ("papier électronique").

L'objectif de PDF est de remédier à plusieurs défauts d'autres moyens de diffusion:

Acrobat

Quand on parle d'Acrobat il faut également être au clair que c'est en réalité une suite de logiciels centrée sur la diffusion et la création de fichiers PDF, en particulier il convient de distinguer:

Texte ou graphique?

Tout ce qui apparaît comme texte, n'est pas forcément un texte dans le sens informatique du terme, à savoir des caractères individuels manipulables. Si le fichier PDF a été produit à partir d'un traitement de textes, le résultat sera certainement du texte editable, par contre si le document à été produit avec un scanner cela ne l'est souvent pas; ça veut dire que ce qui apparaît comme une page de texte est un réalité un page graphique, par conséquent toutes les opérations de type textuel (recherche, sélection...) ne font aucun sens, la seule chose que vous pouvez faire c'est de couper/coller une partie du graphique en la sélectionnant, le résultat, par exemple dans Word sera l'insertion d'un graphique.

Beaucoup de textes anciens qui ont trouvés leur chemin sur l'internet sont souvent sous forme graphique, donc une analyse de leurs contenus à l'aide de logiciels d'analyse textuelles ne pourra pas se faire sans un effort considérable (reconnaissance des caractères, avec souvent correction manuelle du résultat!).

Illustration

Si vous voulez voir comment ces différents éléments se présentent, voici quelques exemples (première page de la réponse de D. Gallin à C. Blocher.

PDF et Atlas

Le format PDF est un des formats textuels que Atlas peut analyser directement sans conversion. (Depuis la version 6 du logiciel)

Extraction de textes: Ce qu'il faut savoir

Si vous souhaitez pouvoir éditer un document PDF ou encore si vous souhaitez pouvoir modifier la présentation de la page (par exemple colonnes multiples, documents très larges (difficiles à lire sans constamment faire défiler le document dans la fenêtre Atlas) ou tout autre raison, il peut être préférable de convertir les documents en format RTF ou texte simple.

Si vous souhaitez extraire le texte d'un document vous disposez de toute une série d'outils et de services . Il est alors important de savoir que:

  1. PDF étant un langage de description de pages, un fichier PDF est produit à partir de documents crées dans des logiciels de traitement de textes et est donc un résultat publié, l'équivalent électronique du papier dans le monde traditionnel. Bien que Acrobat (version payante) ou d'autres logiciels de création de fichiers PDF ont certaines possibilités d'édition, il ne sont en général pas capables d'en modifier fondamentalement la présentation (par exemple pour convertir un document en plusieurs colonnes en document à une colonne. Pour pouvoir modifier le texte contenu dans un document PDF il faut l'extraire.
  2. L'extraction de textes est seulement possible, si
Autres outils

Etant donné l'importance du format PDF, toute une industrie s'est développée pour créer, éditer et lire des documents PDF, donc vous trouvez une large gamme de produits concurrents à Acrobat sur le marché.

A côté des produit commerciaux vous trouverez en particulier Ghostscript (open source), un logiciel qui permet de créer et de visualiser des fichiers Postscript et PDF. (C'est l'outil principal qu'utilisent les utilisateurs de Teχ/Lateχ pour créer des fichiers PDF...

Et vous trouverez toute une série d'outils de conversion de/à PDF, certains seulement dans le monde Linux/Unix....