Lundi 30 janvier 2012 1 30 /01 /Jan /2012 13:46

Ca y est, nous avons terminé notre site ! Notre script final réalise bien chacune des étapes de la chaine de traitement (wget a été remplacé par curl) et il nous donne en résultat un joli tableau où chaque lien fonctionne parfaitement

 

Vous pouvez désormais les retrouver ici

 

A bientôt pour de nouvelles aventures dans l'univers du TAL!!!!


Lintia


Par lintia
Ecrire un commentaire - Voir les 0 commentaires
Mardi 3 janvier 2012 2 03 /01 /Jan /2012 19:51

 

Fin de la première etape


Pour parvenir au terme de la première partie du projet encadré, nous devions  produire un script qui nous permettrait d'ajouter  3 colonnes supplémentaires à notre "BEAUUUUU" tableau. Et c'est chose faite!!!!!!!! La première colonne, CONTEXTES, nous donne le texte brut. Soit  uniquement les occurrences de la forme verbale recherchée en français ou en portugais. Pour ce faire nous avons utlisé la commande egrep (recherche de motifs à l'aide de l'expression régulière suivante: achei|encontrei|dei com| j.ai trouv.) ainsi que la commande Perl accompagnée du programme minigrepmultilingue. La deuxième colonne, CONT EXTES HTML, quant à elle contient ces mêmes occurences mais cette fois ci dans une version HTML.

Enfin la dernière colonne nous donne le nombre total d'occurrences de la forme étudiée dans la page (l'URL) associée. On a également calculé la fréquence totale pour l'ensemble des pages ( fichiers globaux pour les contextes et les dumps).

Pour mieux comprendre nos propos nous vous invitons à jetter un coup d'oeil sur notre script ainsi que sur le tableau qui en resulte ( Attention âme sensible et sujette aux migraines s'abstenir!).        

 

 

script1script2script4.pngscript5script6.pngscript7.png

 

 

Resultat partie du tableau:

 

Capture1.pngCapture2.png

 

 

A suivre.....

 Lintia

Par lintia
Ecrire un commentaire - Voir les 1 commentaires
Mardi 6 décembre 2011 2 06 /12 /Déc /2011 17:43

 

 

 

 

Précédement, nous avons procédé à l'aspiration des pages web, à l'aide de la commande "curl". Cependant cette dernière ne peut traiter les urls que de maniére individuelle. La commande wget quant à elle est beaucoup plus puissante puisqu'elle permet une aspiration récursive (peut aspirer un site entier!!!!!). Etant toujours à la recherche d'un traitement le plus optimal et le plus économique possible, nous nous sommes dit qu'il serait interessant ( voir judicieux!) d'utiliser la commande wget pour effectuer l'aspiration de nos pages.

A l'interieur de notre script nous avons egalement mis en oeuvre un traitement qui ne garde pas toutes les balises html dans nos pages aspirées, mais uniquement le contenu textuel. Pour cela  on a utilisé la commande "lynx" (qui permet de dumper, filtrer le texte.) avec les otions  -dump -nolist  -display_charset qui permettent respectivement de transformer en texte le contenu html (-dump) de supprimer les listes (-nolist) et d'afficher la page dans l'encodage choisi (- display_charset).

Avant de lancer le dump, nous avons verifié que les pages été encodé en utf-8, si ce n'etait pas le cas, on a cherché à connaitre l'encodage  de la page grace à la commande "file -i". Quand l'encodage est connu on le converti en utf-8 à l'aide de la commande i conv. Puis on lance le "dump" En revanche quand le charset est inconnu on ne fait rien.

Voici le script utilisé:

scriptwget dump1

  scriptwget dump2


scriptwget dump3scriptwget dump4

Et voilà le résultat (enfin une partie du tableau 1 et 2) une fois le script lancé dans le shell:

 

Capture-1

tablo dump2


Petite analyse du résultat:

On remarquera que pour les urls en portugais le traitement est un franc succés: Toutes les urls à l'exeption de seulement deux petites rebelles ont été aspiré. L'encodage (initial ou vonverti) est bien en sotie en utf-8.

Hélas, on ne peut pas en dire autant pour les urls en français puisque la pluspart n'ont pas été aspiré. Les sites étant protégés (accés interdit) le dump n'a pu être effectué. Il va donc falloir se remettre à la recherche de nouvelles urls pour  la suite.

Autre petit problème: Quand on regarde le retour du wget, on s'apperçoit qu'il nous indique uniquement le code erreur 0 (ok) ou 8 (?), mais pas le contenu de la page aspirée (obtenu en utilisant la commande egrep) lorsque l'accés à la page est interdit (bad request, accés interdit...). Nous n'avons pas encore trouver la causes ni la solution à ce tout petit probléme.

 

A suivre...

 

Lintia

Par lintia
Ecrire un commentaire - Voir les 0 commentaires
Mardi 22 novembre 2011 2 22 /11 /Nov /2011 17:36

On avance, on avance...

 

 

Notre tableau de lien s'etoffe encore cette semaine. En effet nous devions rajouter le contenu textuel de nos pages aspirées (les dumps) dans leur encodage d'origine dans une première colonne, puis convertit en utf8 dans une seconde colonne.

Le tout en ayant au préalable ésolu le problème de notre retourcurl qui n'indique aucune erreur alors que certaines pages aspirées sont blanches....

Du boulot donc!

 

Le problème de nos pages blanches venait du fait que curl récuperait des pages dont l'accès est interdit. En effet, il n'y a pas derreur pour la commande qui récupère bien un contenu (mais pas du tout ce que l'on veut...)

Il nous faut donc nous assuer dan notre script de vérifier que les pages aspirées ne sont pas des pages d'erreur (si c'est le cas le traitement automatique s'arrete pour elles...)

 

De plus, il va falloir que nous "dumpions" les pages aspirées exploitables pour la suite de notre travail grace otamment à la commande lynx, mais le tout en s'assurant que la page est encodée en utf8!

Si ce n'est pas le cas, nous allons devoir trouver quel est l'encodage de la page problématique, et si l'encodage est reconnu par la commande iconv, nous devrons les convertir en utf8.

 

Donc,  traitement auomatique "en veux-tu? en voila! ", avec ce script (bien dense) :

 

dumputf8-1

5555

 

On lance le tout, et voila le résultat :

dumputf8-affichage-html

 

On peut voir que le programme a bien fonctionné! On a tout ce qu'il faut, là où il faut.

Cependant, dans la colonne retoucurl, parfois l'erreur est ecrite plusieurs fois (ex:  tableau1,  urls 11 et 16) je n'ai pas compris pourquoi... 

 

On remarque également que d'autres pertes d'urls sont à déplorer, réduisant encore notre corpus.

 

Mais nous progressons dans l'avancée du projet!

 

 

To be continued...

Lintia

Par lintia
Ecrire un commentaire - Voir les 0 commentaires
Mardi 15 novembre 2011 2 15 /11 /Nov /2011 16:28

Aspirations (presque) réussies!

 

 

 

Après une première tentative peu fructueuse, où nous devions déplorer plusieurs pertes de pages aspirées, nous avons relancer notre script mais cette fois, non pas en utilisant la commande wget mais curl.

 

Tout d'abord il nous a fallu installer la commande (qui était selon le terminal introuvable!) en faisant sudo apt-get install curl.

La seule différence avec wget c'est que c'est un "o" minuscule et non pas majuscule qui suit la commande, et il ne s'agit plus d'avoir un retourwget pour les erreurs mais un retourcurl.On peut le constater dans les script modifié :

  curl

 

Et cette fois l'opération se déroule mieux, une perte de 17 pages aspirées reste à déplorer et étrangement toujours pas d'indication d'erreur, la colonne de retourcurl est toujours pleine de 0, comme précédemment.

 

Cependant la situation a avancé!

 

La suite au prochain épisode!

 

Lintia

 

 


Par lintia
Ecrire un commentaire - Voir les 0 commentaires

Présentation

Créer un Blog

Recherche

Calendrier

Mai 2012
L M M J V S D
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      
<< < > >>
 
Créer un blog gratuit sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus