En quelques minutes, télécharger et analyser des centaines de pdf

Comment, en quelques minutes seulement, télécharger des dizaines ou centaines de pdf puis y chercher la présence de mots clefs? Facile avec deux outils gratuits : l’extension Downthemall pour Firefox (d’autres extensions sont dispos pour les autres navigateurs) et le lecteur Acrobat. 

(Ceci est un post qui avait été publié sur mon ancien blog, je l’ai retrouvé dans mes archives et décide de le republier. Ce qui explique que la version d’Acrobat Reader présentée soit ancienne mais la fonction Recherche existe toujours).

Le cas de figure : comment savoir si un mot clef est contenu dans les nombreux pdf qu’indexe une page web? Dans ce cas précis, voyons si parmi les 352 arrêts qu’a publiés le Conseil d’Etat belge au mois de juin, l’un d’eux au moins contient le mot « Liège« .

 

pdf1

1. Sous Firefox, téléchargez l’extension Downthemall qui permet de charger rapidement tous les fichiers vers lesquels renvoie une page web. L’extension est très facile à utiliser mais ceux qui voudraient en explorer toutes les fonctions trouveront ici un mode d’emploi en français. Notez que des extension similaires existent pour les autres navigateurs.

2. Dans le navigateur, ouvrez la page qui contient les fichiers à télécharger. Dans ce cas, c’est la liste des arrêts récents publiés par le Conseil d’Etat en Belgique.

3. Avec un clic droit de la souris, activez l’extension Downthemall. L’add-on s’ouvre et liste tous les fichiers téléchargeables disponibles.

pdf2

4. Dans ce cas, seuls les pdf nous intéressent. Une option « Fast filtering » est disponible, il suffit d’indiquer que le téléchargement ne visera que les *.pdf :

pdf3

5. Si aucun répertoire de destination n’a encore été créé, on peut le faire avec « Save Files in ». Puis on lance le téléchargement (« Start »).

pdf4

6. Lorsque le téléchargement est terminé (ce qui n’a pris ici que quelques minutes pour 352 références), lancez lelecteur Acrobat. Ouvrez le programme et Edit/Advanced Search

7. Renseignez le répertoire contenant les pdf et indiquez le mot clef à rechercher.

pdf5

8. Et c’est terminé.

pdf6