Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 06/07/2012, à 16:22

toulipe

Traitement de fichier -

Bonjour,

Je suis en train de traiter un gros fichier XML afin d'en retirer les balises ; je suis parvenu à arranger beaucoup de choses tout seul, mais je bloque sur les expressions du type :

...sitting_by_the_<abE>s</abE>side_,_standing_next...
...the_vehicle_of_the_<abE>P</abE><asp0>Pitr2is</asp0>...

La balise <abE> indique une abréviation, qui est explicitée après </abE> avec le mot entier. Cependant, comme vous le voyez dans le deuxième exemple, il y a aussi parfois une balise qui vient s'insérer avant que la forme explicite du mot soit donnée. Par ailleurs, plusieurs abréviations sont données toutes les lignes, et leur position n'est pas fixe. Aussi, et surtout, certaines abréviations ne sont pas suivies du mot entier.

Ce que je souhaiterais faire, c'est supprimer les abbréviations, pour ne laisser apparaître que la forme explicite du mot ; cela est facile à réaliser dans les cas classiques, mais le problème est que, parfois, les abréviations ne sont pas explicitées après la balise </abE>. Dans ces cas-là, je souhaiterais conserver l'abréviation.

L'idée serait de vérifier si la (les) première(s) lettre(s) du mot situé après la balise </abE> correspondent à celle(s) de l'abréviation, en tenant compte du fait qu'il y a plusieurs abréviations par ligne, et que, comme dans le deuxième exemple  donné ci-dessus, il y a aussi parfois une balise secondaire qui s'insère avant que soit donnée la forme explicite du mot.

Si l'un de vous a un petit coup de pouce à donner, je suis preneur big_smile !

Hors ligne

#2 Le 06/07/2012, à 18:42

nesthib

Re : Traitement de fichier -

Je te renvoie vers cette discussion récente où je proposais l'utilisation de python + beautifulsoup.
Tu pourras directement extraire des types de balise ce qui te facilitera la tâche.


GUL Bordeaux : GirollServices libres : TdCT.org
Hide in your shell, scripts & astuces :  applications dans un tunnelsmart wgettrouver des pdfinstall. auto de paquetssauvegarde auto♥ awk
  ⃛ɹǝsn xnuᴉꞁ uʍop-ǝpᴉsdn

Hors ligne