Note introductive: PDF en Atlas

Avec la version 6, Atlas accède directement les documents PDF sans besoin de conversion préalable, ce document n'est par conséquence plus aussi central que pour les versions antérieures, mais il reste utile si vous désirez convertir un fichier PDF vers le format RTF ou texte. Il peut être judicieux de convertir un document très complexe et long comportant beaucoup de graphiques et tableaux qui ne jouent aucun rôle dans votre analyse.

Important
  1. Si vous ne savez pas exactement ce que c'est un fichier PDF et ce que vous en pouvez faire, lisez d'abord ce document.
  2. De même si ce n'est pas déjà fait, lisez ce document qui vous donne quelques conseils généraux sur la conversion de documents et ce document sur l'usage du presse-papier (clipboard).

Prenons comme exemple la première page du texte de Dan Gallin que vous trouvez ici. Ce n'est pas la page la plus simple, mais quand même assez représentative. D'abord il est clair qu'il y aura le problème des deux colonnes et la présence d'éléments textuels qui n'appartiennent pas au texte de Gallin. La présentation ne fait pas partie de la structure logique du texte qui est linéaire....et vous voulez retrouver ce texte linéaire à l'arrivée.

Conversion d'un fichier entier PDF

Les versions récentes d'Acrobat Reader vous donnent accès à un service d'exportation vers d'autres formats, notamment Word, RTF et texte simple.

Adobe et d'autres entreprises vous proposent des services de conversion automatiques, dont le résultat est fort variable en fonction du service et de la nature du document. La raison principale de l'existence d'un tel service est au fond pour aider les personnes qui ont des handicaps de vue et qui utilisent des appareils qui font entendre les textes (traduction en voix) qui en général ne peuvent lire que de fichiers textes ordinaires. Ce qui nous arrange bien ici, du fait que pour analyser les textes, il nous faut le texte brut, sans les éléments de mise en page, ni les graphiques et autres décorations.

Le service d'Adobe

Adobe vous propose un service automatisé; vous pouvez obtenir le résultat en de nombreux formats.

D'autres sites peuvent vous proposer des services similaires. De plus en plus les moteurs de recherche vous proposent un format alternatif, si la page trouvée est un fichier PDF, par exemple Google.

vous offre un lien qui affiche le fichier en HTML au lieu de le faire en PDF. Le résultat n'est pas toujours probant, en particulier si votre texte est en colonnes multiples; il risque d'être carrément illisible et inutilisable.

Autres démarches/outils possibles
  1. (Service sur Internet) Adobe on-line tools vous propose soit d'envoyer un fichier PDF par e-mail, soit si le fichier est accessible sur Internet (en indiquer l'adresse).
  2. Media-Convert service en-ligne qui convertit de très nombreux formats multimedia et textuels.
  3. XPDF une collection d'outils PDF open source, dont pdftotext
  4. PDF vers texte (Université de Loughborough) Liens vers des convertisseurs
  5. Text Mining tool Outil tout simple pour extrait le texte d'un PDF vers du texte simple.
  6. Some PDF Logiciels gratuits pour convertir du PDF vers Word (RTF) et PDF vers du texte. L'outil PDF vers Word semble ne semble pas fonctionner avec tous les documents. Pour certains documents le résultat était acceptable pour d'autres... rien, car Word se plantait à l'ouverture et ce qui était visible dans WordPad n'était pas toujours convainquant.
  7. Acrobat [le produit payant, à ne pas confondre avec Acrobat Reader] offre des fonctionnalités plus puissante d'extraction que Acrobat Reader.
  8. Comme PDF est devenu un format essentiel, vous trouverez un grand nombre d'outils (commerciaux, shareware, domaine public). Cherchez des outils qui portent des noms du genre PDFtoText, mais aussi PDFtoWord ou similaires.
Voir aussi