Le Printemps du TAL: novembre 2011

mardi 22 novembre 2011

pedal to the floor

On avance un peu plus, avec quelques ajouts :

- les commandes unix wget et curl,

permettant d'aspirer les pages html via leur url. Ces commandes, auxquelles on a ajouté des attributs dans cet objectif, ont au départ une fonctionnalité de "navigateur" de la fenêtre de commande :

on utilise les deux afin de récupérer des pages qui auraient échappé à la première cueillette.
- à l'aide de la commande lynx -dump on extrait le contenu textuel des pages html

Il est aussi important de récupérer la valeur du rapport d'erreur de chaque page aspirée ; si le retour de la commande curl équivaut à 0, alors la tâche a normalement été correctement accomplie.

C'est ici qu'on se cogne la tête : notre retour nous informe qu' OK il a bien récupéré une page textuelle, mais la ligne contenue est formelle : "bad request" ...

Aussi, pour vérifier grossièrement le contenu textuel des aspirations, on s'est servi de la commande egrep pour filtrer les lignes où apparaissent le mot choisi.

script bleu


avec un aperçu du tableau

jeudi 10 novembre 2011

Etape suivante

Second script : créer un tableau de liens avec des liens externes vers les pages visées et des liens internes vers les pages correspondantes aspirées.

Le script s'étoffe

Le nouveau tableau obtenu

Les versions d'Ubuntu étant parfois différentes entre les machines de l'ILPGA et celles installées sur nos machines personnelles, l'expérience utilisateur peut s'avérer différente at home et à la fac.

En fait, la principale différence concerne l'interface Unity implantée depuis la version 11.04 d'Ubuntu.

A ce titre, voici comment pouvoir revenir à l'UI précédente:

dans un terminal, lancer => sudo apt-get install gnome-panel

La prochaine fois que vous vous loggerez dans Ubuntu, cliquez sur la roue dentée à côté de votre username et vous pourrez choisir l'interface classique (Gnome).

[Source]

mardi 8 novembre 2011

bashtml 0.2

Modification du code afin que l'on puisse appeler un deuxième fichier d'Url et concaténer le résultat à l'intérieur d'un seul fichier .html:

Le script modifié

Résultat

La mise en forme laisse encore à désirer...

samedi 5 novembre 2011

bashtml

Après avoir récupéré un maximum toutefois raisonnable d'url concernant le mot "printemps" - afin de rassembler un panel d'occurences et divers contextes dans lesquels apparaît le mot - notre objectif est de poursuivre l'écriture d'un script bash permettant de transformer l'ensemble de ces url sous format texte en un tableau html, et résultat :

le script un peu chargé en commentaires

L'incrémentation en bash :

Pour obtenir le numéro de ligne correspondant à l'url dans le tableau, on attribue d'abord une valeur initiale à une variable et on ajoute la valeur de 1 au compteur.

La syntaxe de l'incrémentation diffère selon les langages de programmation, le plus souvent vous la connaissez (si!) sous la forme i++

Mais concernant bash, on trouve l'opération sous 3 formes, aux effets équivalents :

i=`expr $i + 1`

i=i+1 # celle ci n'a pas été fructueuse lors de mes tests... je vais y songer

i=$(($i+1))

Visual proof :


tableau peu esthétique mais efficace

> Ce script concerne uniquement les url en français pour l'instant, est-ce qu'apporter des modifications comme insérer les url anglais, allemands et russes sous forme de tableaux distincts simplifierait la suite du projet ?

Le Printemps du TAL