PDF et Atlas
Le format PDF est un des formats textuels que Atlas peut analyser directement sans conversion. (Depuis la version 6 du logiciel)
Le format PDF
PDF (Portable Document Format) est, à côté du format HTML, le format
le plus important pour la diffusion de documents sur Internet.
Sur un ordinateur correctement installé l'utilisatrice
s'en aperçoit à peine, sauf si elle/il est très attentif et note l'apparition d'une barre d'outils
supplémentaires, bien que parfois on peut avoir quelques surprises...
Le format PDF a été proposé par la maison Adobe comme langage de description de page,
pour pouvoir diffuser électroniquement des documents destinés, du moins à l'origine, principalement à l'impression ("papier électronique").
L'objectif de PDF est de remédier à plusieurs défauts d'autres moyens de diffusion:
- Produire un document qui s'affiche et s'imprime à l'identique dans n'importe quel environnement
informatique, contrairement à la présentation d'un document HTML dépend du navigateur et des
préférences définies par l'utilisateur).
- Produire un document qui se lit aussi bien sur un écran et sur papier, donc de disposer
d'un document imprimable correspondant à la présentation et mise en page du document
tel qu'il a été créé par son auteur.
- Assurer l'authenticité d'un document et de contrôler l'accès
au documents. Ce n'est pas
ce volet qui a primordial sur le Web du fait qu'il s'agit
d'une diffusion aussi large que
possible, mais néanmoins il est possible que
vous tombiez sur un document particulier:
- Il vous demande un mot de passe pour le lire.
- Vous ne pouvez pas l'imprimer (l'option d'impression n'est pas disponible).
- Vous ne pouvez pas faire un "Couper" d'une sélection, ou vous pouvez le faire, mais
quand vous collez le texte, c'est du charabia...
Tout cela veut dire que son auteur a voulu protéger le document
contre une action qu'il ne désire
pas accessible au lecteur.
Acrobat
Quand on parle d'Acrobat il faut également être au clair que c'est
en réalité une suite de logiciels centrée sur la diffusion et la
création de fichiers PDF, en particulier il convient de distinguer:
- Acrobat Reader: un logiciel gratuit qui permet de lire et d'imprimer,
si l'auteur l'a permis,
des documents en PDF
- Acrobat: un logiciel payant qui outre les fonctionnalités du Reader
permet d'effectuer
toute une série d'opérations supplémentaires: indexation de
documents, gestion des
documents (ajouter, supprimer des pages etc), certaines fonctions
d'édition (on peut faire
de petites retouches dans le texte). Il est important de comprendre
qu'Acrobat
n'est pas un logiciel
d'édition/traitement de textes, mais un logiciel de production de
documents. Dans l'optique de l'analyse textuelle il convient
de mentionner qu'Acrobat peut exporter du texte vers RTF où un
format de texte simple.
- Acrobat Distiller: C'est l'outil principal pour la création
de fichiers PDF qui fonctionne
comme intermédiaire entre les logiciels de PAO/traitement de textes
qui eux produisent un fichier Postscript (un autre format standard
défini par la maison Adobe). Distiller est
également payant, mais il y a une solution gratuite
qui est suffisante pour la plupart
des usages. Si votre logiciel favori n'en dispose pas d'origine d'un
filtre de création de fichiers PDF, Adobe fournit un bout de
logiciel qui vous permet de produire directement un fichier Acrobat.
Il s'agit en réalité d'une imprimante simulée (gestionnaire d'imprimante).
Dans certains
logiciels, surtout plus anciens, il faut explicitement
imprimer sur l'imprimante PDF sur
d'autres vous avez un bouton/menu spécial pour le faire...
Autres outils
Etant donné l'importance du format PDF, toute une industrie c'est développée pour créer, éditer et lire des documents
PDF, donc vous trouvez une large gamme de produits concurrents à Acrobat sur le marché.
A côté des produit commerciaux vous trouverez en particulier Ghostscript (open source), un logiciel
qui permet de créer et de visualiser des fichiers
Postscript et PDF. (C'est l'outil principal qu'utilisent les utilisateurs de Teχ/Lateχ pour créer des fichiers PDF...
Et vous trouverez toute une série d'outils de conversion de/à PDF, certains seulement dans le monde
Unix....
Extraction de textes: Ce qu'il faut savoir
Si vous souhaitez extraire le texte d'un document vous disposez de toute une série d'outils
. Il est alors important de savoir que:
- PDF étant un langage de description de pages, un fichier PDF est produit
à partir de documents crées
dans des logiciels de traitement de textes etc et est donc un
résultat publié, l'équivalent électronique
du papier dans le monde traditionnel...
Pour pouvoir utiliser le texte contenu dans un document PDF il faut
l'extraire. Les logiciels d'analyse textuelle pour l'instant n'en sont
pas encore capables, pas les produits principaux l'ont annoncé (comme Atlas).
- L'extraction de textes est seulement possible, si
- L'auteur du texte l'a permis
- Si c'est réellement du texte!
Texte ou graphique?
Tout ce qui apparaît comme texte, n'est pas forcément un texte
dans le sens informatique du terme,
à savoir des caractères individuels manipulables.
Si le fichier PDF a été produit à partir d'un
traitement de textes, le résultat sera certainement du texte
editable, par contre si le document
à été produit avec un scanner cela ne l'est souvent pas;
ça veut dire que ce qui apparaît comme
une page de texte est un réalité un page graphique,
par conséquent toutes les opérations de type
textuel (recherche, sélection...) ne font aucun sens,
la seule chose que vous pouvez faire c'est
de couper/coller une partie du graphique en la sélectionnant, le résultat, par exemple dans Word sera l'insertion d'un graphique.
Beaucoup de textes anciens qui ont trouvés leur chemin sur
l'internet sont souvent sous forme graphique, donc une analyse de leurs contenus à l'aide de logiciels d'analyse textuelles ne pourra pas se faire sans
un effort considérable (reconnaissance des caractères, avec souvent correction manuelle du résultat!).
Illustration
Si vous voulez voir comment ces différents éléments se présentent, voici quelques exemples (première page de la réponse de D. Gallin à C. Blocher.
- Fichier PDF,
tel que vous le trouverez sur le site de Domaine Public.
Vous pouvez l'imprimer et sélectionner du texte et le couper
pour le coller dans un autre document.
- Fichier PDF, le même,
mais sans droit à l'impression ni à la
sélection... vous ne pouvez que le lire!
- Fichier PDF, la même page,
mais elle a été obtenu en numérisant la première page du document papier.
Elle n'est pas protégée, mais elle est purement "graphique" en ne
contient aucun texte que vous pouvez chercher, ni sélectionner....