Le Printemps du TAL: janvier 2012

Après une longue pause, nous sommes en mesure de pouvoir présenter deux scripts qui ont été rédigés en parallèle à partir d'une base commune.

Le principe de base et l'enchaînement des boucles sont à peu de choses près les mêmes.

Les principales différences se situent au niveau de la constitution du tableau, puisque dans le premier script, chaque ligne se construit colonne par colonne selon l'enchaînement des différentes boucles, tandis que dans le second, chaque ligne est générée d'un bloc lorsqu'une boucle est validée.

La deuxième différence provient de l'écriture de l'expression régulière destinée à extraire le charset d'une page html lorsque l'encodage n'est pas immédiatement donné par file.

Le premier script accompagné d'un exemple de tableau créé avec une liste test d'URL:

Oups, la présentation n'est pas parfaite. Mais le résultat est là.

Le deuxième script. Les boucles s'enchaînent convenablement, mais un problème persiste, les fichier encodés en US-ASCII ne sont pas convertis en UTF-8:

Le Printemps du TAL

mardi 3 janvier 2012

2-4-1

Qui êtes-vous ?

Archives du blog