Dapper, pour extraire les données de sites web
La plupart des sites web ont des fils RSS, il suffit de s’y abonner pour obtenir des informations structurées et mises à jour. Mais comment faire pour extraire et actualiser les données d’un site lorsqu’aucun fil RSS n’est proposé?
Dapper, à l’instar d’OpenKapow et de Yahoo Pipes notamment, est un service en ligne qui permet d’extraire des données qui ne paraissent pas structurées pour les réexporter sous la forme de flux RSS, de modules flash à intégrer dans un blog, de fichiers HTML, de Gadgets Google ou de modules Netvibes…

a
Comment marche Dapper? Après avoir analysé la page dont on veut extraire les données, Dapper la découpe en plusieurs blocs. A l’utilisateur de retenir les blocs d’information qu’il estime les plus pertinents (par exemple, les titres de vidéos dans Youtube, leur date de publication, les résumés de ces mêmes vidéos…), de les mettre en forme puis de les restituer dans le format voulu. En permettant une surveillance automatique de certains sites web, Dapper améliore donc le processus de veille.
Exemple. Comment savoir qu’une nouvelle disparition inquiétante a été signalée en Belgique? Lorsqu’une personne n’a plus donné signe de vie, un communiqué est généralement transmis aux rédactions par le parquet et l’avis de recherche est diffusé par la police fédérale. Malheureusement, cette rubrique du site ne dispose pas de fil RSS, il est donc difficile d’être informé de chaque nouvelle disparition. A moins d’utiliser un outil gratuit de surveillance des pages web comme Newzie ou, pour plus d’efficacité encore, un service comme Dapper :
1. Enregistrez-vous gratuitement sur le site afin d’obtenir un identifiant et un mot de passe.

aaa
2. Deux solutions pour débuter : récupérer une application créée par un autre utilisateur de Dapper (Get any content from the web) ou créer une nouvelle application (Create a new Dapp).

aa
3. Pour cet exemple, on va donc créer une nouvelle application à partir du site de la cellule disparitions de la police fédérale. Après avoir cliqué sur “Create a new Dapp”, un didacticiel apparaît. A gauche de la fenêtre, les 5 étapes nécessaires à l’extraction puis la réutilisation des informations : Indiquer le site web à utiliser (Start), donner à Dapper des exemples de pages pertinentes afin qu’il puisse décoder la structure de ces pages (Collect sample pages), sélectionner les blocs d’infos qui devront être intégrés dans le fil RSS (Select Content), prévisualiser le fil RSS et éventuellement le retravailler (Preview feed), sauvegarder l’application dans le format retenu (fil RSS, Google Gadget, fichier XML…). Entre chaque étape, une démo en vidéo guide encore l’utilisateur.
Dans ce cas précis, on entre donc l’URL de la police fédérale et on choisit l’option RSS Feed. Le format de sortie pourra être changé ultérieurement. On passe à l’étape suivante (Next Step).
joel matriche
4. Pour que Dapper puisse sélectionner les informations utiles, il faut qu’il comprenne la structure de la page. Le mieux, quand cela est possible, est donc de lui fournir de la matière sur laquelle travailler, à savoir des pages avec une structure identique. Pour créer une recherche sur Youtube par exemple, on introduira plusieurs requêtes ou mots clefs sur le site de Youtube et on demandera à Dapper de travailler sur chacune de ces pages puisque leurs structures sont identiques.
Dans ce cas, on s’intéressera aux disparitions de personnes majeures. Plusieurs portraits sont disponibles sur la page. On cliquera donc sur le premier portrait puis sur la commande Add to Basket afin que Dapper puisse en analyser la structure HTML. Puis on reviendra sur la page d’accueil de la cellule disparition et on cliquera sur le second portrait, qu’on ajoutera également au panier. La même opération sera à répéter 3 ou 4 fois.
joel matriche
5. A l’étape suivante, il est temps de sélectionner les blocs d’information qui devront se retrouver dans le fil RSS. En faisant glisser le curseur de la souris sur la fiche signalétique qui est apparie dans le navigateur de Dapper, on remarque qu’un liseré orange entoure successivement les différents blocs utiles.

a
Dans notre exemple, on commencera par sélectionner le champ qui correspond à la date de la disparition, ou à tout le moins la date à laquelle un avis de recherche a été diffusé (Publié le xx/xx/xxxx à la requête du Procureur du Roi). Pour sélectionner un champ, il suffit de cliquer dessus. Son contenu apparaît alors dans la partie inférieure de la fenêtre (Preview selected content). Si l’information est correcte, on la sauve avec la commande Save Field. Et le bloc passe de la petite fenêtre de gauche (champs sélectionnés) vers celle de droite (champs sauvegardés). Chaque fois que l’on sauve ainsi un champ, Dapper demande qu’on lui attribue un nom. On nommera “date” ce premier bloc d’info.

joel matriche dapper computer assisted reporting
Il peut arriver que les champs soient mal sélectionner, notamment qu’ils prennent en compte des informations superflues. Ainsi, on voulant sélectionner la date de la disparition, on pourrait erronément inclure les circonstances de cette disparition ou le nom du disparu. Dans ce cas, une commande Clear permet d’effacer chaque tronçon d’information inutile.
Après avoir sélectionné et conservé le champ “date”, on créera de nouvelles entrées pour le nom de la personne disparue, pour les circonstances de sa disparition, son signalement et sa photo. Toutes les informations qui doivent se retrouver dans le fil RSS sont alors sauvées.

joel matriche dapper mashup computer assisted reporting
6. Lorsque la sélection a été sauvegardée, il faut la visualiser et vérifier qu’elle contient effectivement les informations pertinentes. Si ce n’est pas le cas, il est possible de revenir en arrière afin de revoir et affiner la sélection des blocs. Si tout est correct, une option apparaît en bas de page afin, éventuellement, de regrouper certains blocs.Dans ce cas, on cochera tous les blocs (date, circonstances, signalement…) et on sauvera le groupe entier sous l’unique intitulé “majeur disparu”.

joel matriche dapper
7. Enfin, après avoir nommé l’application, il est temps de la sauvegardé sous le format approprié. Dans le cas d’un fil RSS, il faut confirmer les blocs qui constitueront le titre puis le texte de la dépêche. En cliquant sur Get a nice short url, on obtient une adresse web grâce à laquelle on peut s’abonner au flux RSS nouvellement créé et bien sûr, le diffuser.
Il est encore possible de changer le format de l’application : flash widget, gadget Google, etc. On peut également ajouter un filtre (Filtered RSS feed, dans la liste des formats disponibles) afin que n’apparaissent dans le nouveau fil RSS que les dépêches incluant un mot-clef. Pour que ne soient relevées, par exemples, que les disparitions survenues dans une zone géographique précise.
D’autres options, dans la partie haute de la fenêtre, permettent d’effacer l’application, de la publier ou de la réserver à un usage personnel.



No comments
Jump to comment form | comments rss [?]