On avance un peu plus, avec quelques ajouts :
- les commandes unix wget et curl,
permettant d'aspirer les pages html via leur url. Ces commandes, auxquelles on a ajouté des attributs dans cet objectif, ont au départ une fonctionnalité de "navigateur" de la fenêtre de commande :
on utilise les deux afin de récupérer des pages qui auraient échappé à la première cueillette.- à l'aide de la commande lynx -dump on extrait le contenu textuel des pages html
Il est aussi important de récupérer la valeur du rapport d'erreur de chaque page aspirée ; si le retour de la commande curl équivaut à 0, alors la tâche a normalement été correctement accomplie.
C'est ici qu'on se cogne la tête : notre retour nous informe qu' OK il a bien récupéré une page textuelle, mais la ligne contenue est formelle : "bad request" ...
Aussi, pour vérifier grossièrement le contenu textuel des aspirations, on s'est servi de la commande egrep pour filtrer les lignes où apparaissent le mot choisi.
![]() |
script bleu |
![]() | |
avec un aperçu du tableau |