Fichiers PDF

PDF et Atlas

Le format PDF est un des formats textuels que Atlas peut analyser directement sans conversion. (Depuis la version 6 du logiciel)

Le format PDF

PDF (Portable Document Format) est, à côté du format HTML, le format le plus important pour la diffusion de documents sur Internet. Sur un ordinateur correctement installé l'utilisatrice s'en aperçoit à peine, sauf si elle/il est très attentif et note l'apparition d'une barre d'outils supplémentaires, bien que parfois on peut avoir quelques surprises...

Le format PDF a été proposé par la maison Adobe comme langage de description de page, pour pouvoir diffuser électroniquement des documents destinés, du moins à l'origine, principalement à l'impression ("papier électronique").

L'objectif de PDF est de remédier à plusieurs défauts d'autres moyens de diffusion:

Produire un document qui s'affiche et s'imprime à l'identique dans n'importe quel environnement informatique, contrairement à la présentation d'un document HTML dépend du navigateur et des préférences définies par l'utilisateur).
Produire un document qui se lit aussi bien sur un écran et sur papier, donc de disposer d'un document imprimable correspondant à la présentation et mise en page du document tel qu'il a été créé par son auteur.
Assurer l'authenticité d'un document et de contrôler l'accès au documents. Ce n'est pas ce volet qui a primordial sur le Web du fait qu'il s'agit d'une diffusion aussi large que possible, mais néanmoins il est possible que vous tombiez sur un document particulier:

Il vous demande un mot de passe pour le lire.
Vous ne pouvez pas l'imprimer (l'option d'impression n'est pas disponible).
Vous ne pouvez pas faire un "Couper" d'une sélection, ou vous pouvez le faire, mais quand vous collez le texte, c'est du charabia...

Acrobat

Quand on parle d'Acrobat il faut également être au clair que c'est en réalité une suite de logiciels centrée sur la diffusion et la création de fichiers PDF, en particulier il convient de distinguer:

Acrobat Reader: un logiciel gratuit qui permet de lire et d'imprimer, si l'auteur l'a permis, des documents en PDF
Acrobat: un logiciel payant qui outre les fonctionnalités du Reader permet d'effectuer toute une série d'opérations supplémentaires: indexation de documents, gestion des documents (ajouter, supprimer des pages etc), certaines fonctions d'édition (on peut faire de petites retouches dans le texte). Il est important de comprendre qu'Acrobat n'est pas un logiciel d'édition/traitement de textes, mais un logiciel de production de documents. Dans l'optique de l'analyse textuelle il convient de mentionner qu'Acrobat peut exporter du texte vers RTF où un format de texte simple.
Acrobat Distiller: C'est l'outil principal pour la création de fichiers PDF qui fonctionne comme intermédiaire entre les logiciels de PAO/traitement de textes qui eux produisent un fichier Postscript (un autre format standard défini par la maison Adobe). Distiller est également payant, mais il y a une solution gratuite qui est suffisante pour la plupart des usages. Si votre logiciel favori n'en dispose pas d'origine d'un filtre de création de fichiers PDF, Adobe fournit un bout de logiciel qui vous permet de produire directement un fichier Acrobat. Il s'agit en réalité d'une imprimante simulée (gestionnaire d'imprimante). Dans certains logiciels, surtout plus anciens, il faut explicitement imprimer sur l'imprimante PDF sur d'autres vous avez un bouton/menu spécial pour le faire...

Autres outils

Etant donné l'importance du format PDF, toute une industrie c'est développée pour créer, éditer et lire des documents PDF, donc vous trouvez une large gamme de produits concurrents à Acrobat sur le marché.

A côté des produit commerciaux vous trouverez en particulier Ghostscript (open source), un logiciel qui permet de créer et de visualiser des fichiers Postscript et PDF. (C'est l'outil principal qu'utilisent les utilisateurs de Teχ/Lateχ pour créer des fichiers PDF...

Et vous trouverez toute une série d'outils de conversion de/à PDF, certains seulement dans le monde Unix....

Extraction de textes: Ce qu'il faut savoir

Si vous souhaitez extraire le texte d'un document vous disposez de toute une série d'outils . Il est alors important de savoir que:

PDF étant un langage de description de pages, un fichier PDF est produit à partir de documents crées dans des logiciels de traitement de textes etc et est donc un résultat publié, l'équivalent électronique du papier dans le monde traditionnel... Pour pouvoir utiliser le texte contenu dans un document PDF il faut l'extraire. Les logiciels d'analyse textuelle pour l'instant n'en sont pas encore capables, pas les produits principaux l'ont annoncé (comme Atlas).
L'extraction de textes est seulement possible, si

L'auteur du texte l'a permis
Si c'est réellement du texte!

Texte ou graphique?

Tout ce qui apparaît comme texte, n'est pas forcément un texte dans le sens informatique du terme, à savoir des caractères individuels manipulables. Si le fichier PDF a été produit à partir d'un traitement de textes, le résultat sera certainement du texte editable, par contre si le document à été produit avec un scanner cela ne l'est souvent pas; ça veut dire que ce qui apparaît comme une page de texte est un réalité un page graphique, par conséquent toutes les opérations de type textuel (recherche, sélection...) ne font aucun sens, la seule chose que vous pouvez faire c'est de couper/coller une partie du graphique en la sélectionnant, le résultat, par exemple dans Word sera l'insertion d'un graphique.

Beaucoup de textes anciens qui ont trouvés leur chemin sur l'internet sont souvent sous forme graphique, donc une analyse de leurs contenus à l'aide de logiciels d'analyse textuelles ne pourra pas se faire sans un effort considérable (reconnaissance des caractères, avec souvent correction manuelle du résultat!).

Illustration

Si vous voulez voir comment ces différents éléments se présentent, voici quelques exemples (première page de la réponse de D. Gallin à C. Blocher.

Fichier PDF, tel que vous le trouverez sur le site de Domaine Public. Vous pouvez l'imprimer et sélectionner du texte et le couper pour le coller dans un autre document.
Fichier PDF, le même, mais sans droit à l'impression ni à la sélection... vous ne pouvez que le lire!
Fichier PDF, la même page, mais elle a été obtenu en numérisant la première page du document papier. Elle n'est pas protégée, mais elle est purement "graphique" en ne contient aucun texte que vous pouvez chercher, ni sélectionner....