Exploiter un document pdf dans Excel

Un fichier pdf a les inconvénients de son avantage : figé dans sa mise en forme (les polices, la mise en page… sont conservées), il est difficilement éditable; en extraire des informations peut relever du parcours du combattant. A moins d’utiliser un logiciel adapté puis de se livrer à un grand nettoyage.
aaaa
L’enjeu est ici d’analyser le rapport dressé par la Cour des comptes de Belgique et détaillant les mandats des élus ainsi que des hauts fonctionnaires belges. Ce document pdf, paru dans le Moniteur belge du 14 août 2009, est conséquent : il recense sur 956 pages les attributions de 7.700 mandataires. Il sera plus facile à exploiter dans un tableur que dans un lecteur de pdf. Mode d’emploi :
aaa
1. Télécharger le document. Comme il est assez volumineux, il peut être plus facile de le scinder en deux parties avant de le convertir en fichier xls (Excel). J’utilise Acrobat Professional pour extraire des pages d’un pdf mais d’autres logiciels ont cette fonction.
aaa
mandats_1
aaa

2. IL faut ensuite récupérer le tableau dans Excel. Une fonction est prévue dans Acrobat mais elle ne fonctionne pas avec un tableau de 956 pages. Le mieux est alors d’utiliser un logiciel approprié. Par exemple Pdf to Excel 2.4, qui a pour atouts d’être fiable et de fonctionner en version non limitée.
aaa
pdf-to-excel-converter_1
aa

pdf-to-excel-converter_21
aaa
3. Il suffit de sélectionner le pdf à convertir, de lui donner un nom puis de lancer le processus. Par défaut, il y aura autant de fichiers xls qu’il y a de pages dans le documents pdf. Attention donc à bien cocher, sous l’onglet Propriétés, la case “All pdf pages in one worksheet”.
aaa
pdf-to-excel-converter_3
aaa
4. Si le pdf a été scindé avant sa conversion, il faut reconstituer le tableau original dans une même feuille Excel par un simple copier-coller. Dans ce cas précis, le tableau finalisé compte un peu plus de 60.000 lignes.
aaa
5. Il faut alors nettoyer le tableau. Pour ôter les en-têtes de pages du moniteur, choisir la fonction Remplacer (dans le menu d’Excel ou Ctrl+F) et remplacer toutes les occurrences de “MONITEUR BELGE — 14.08.2009 — BELGISCH STAATSBLAD” par… rien du tout.
aaa
6. Dans la colonne L apparaissent des nombres à 5 chiffres, ce sont les numéros de pages du Moniteur belge. Il faut aussi les supprimer. Tous ces nombres commencent par 53 et 54, il faut donc remplacer 53* puis 54* par un blanc.
aaa
7. Dans certains cas, les cellules peuvent, après conversion, apparaître avec un liseré jaune. Pour le supprimer, il faut sélectionner tout le tableau (Ctrl+A), puis modifier le Format de cellule en précisant “aucune bordure”.
aaa
aaa


About this entry