Le Printemps du TAL: pedal to the floor

On avance un peu plus, avec quelques ajouts :

- les commandes unix wget et curl,

permettant d'aspirer les pages html via leur url. Ces commandes, auxquelles on a ajouté des attributs dans cet objectif, ont au départ une fonctionnalité de "navigateur" de la fenêtre de commande :

on utilise les deux afin de récupérer des pages qui auraient échappé à la première cueillette.
- à l'aide de la commande lynx -dump on extrait le contenu textuel des pages html

Il est aussi important de récupérer la valeur du rapport d'erreur de chaque page aspirée ; si le retour de la commande curl équivaut à 0, alors la tâche a normalement été correctement accomplie.

C'est ici qu'on se cogne la tête : notre retour nous informe qu' OK il a bien récupéré une page textuelle, mais la ligne contenue est formelle : "bad request" ...

Aussi, pour vérifier grossièrement le contenu textuel des aspirations, on s'est servi de la commande egrep pour filtrer les lignes où apparaissent le mot choisi.

script bleu


avec un aperçu du tableau

Le Printemps du TAL

mardi 22 novembre 2011

pedal to the floor

Aucun commentaire:

Enregistrer un commentaire

Qui êtes-vous ?

Archives du blog