Colle : Comment grepper un caractère UTF8 invalide :) ?

ehmicky · Le 03/11/2011, à 17:54

Salut à tous,

Certains caractères UTF8 invalides, par exemple, 0xc3 doit toujours être suivi d'un caractère compris entre 0x80 et 0xbf. Dans le cas d'un fichier corrompu, grep et sed plantent sur ces caractères corrompus, ce qui rend difficile la manipulation d'un gros fichier remplis de ces derniers.
Par exemple :

# echo $'a \xc3 b' > essai
# cat essai
a <?> b
# hd essai
00000000  61 20 c3 20 62 0a                                 |a . b.|
# grep "a" essai
a <?> b
# grep $'\x61' essai
a <?> b
# grep $'\xc3' essai
# grep -c $'\xc3' essai
0
# sed 's/./O/g' essai
OO<?>OO

(A noter que j'ai remplacé le caractère imprimé par le terminal par <?> (parce que le forum ne l'affiche pas) et que ce n'est pas le caractère 0xc3, mais une représentation graphique du terminal pour indiquer qu'il n'arrive pas à représenter un caractère corrompu) (A noter aussi que s/\xc3/O/g est possible)

Auriez-vous une solution à ce problème ? Merci

Dernière modification par ehmicky (Le 03/11/2011, à 18:02)

Haleth · Le 03/11/2011, à 18:19

sed 's/\xc3/O/g' essai

Tu as toujours des problèmes très interressant, merci pour ces nombreux défis que tu nous soumet

sputnick · Le 03/11/2011, à 18:20

awk '/\x61/{print "ok"}' essai
ok

ehmicky · Le 03/11/2011, à 19:03

awk peut se substituer à grep ici, mais le problème persiste pour grep de manière générale.
Pour sed :

Haleth a écrit :

sed 's/\xc3/O/g' essai
Tu as toujours des problèmes très interressant, merci pour ces nombreux défis que tu nous soumet

ehmicky a écrit :

(A noter aussi que s/\xc3/O/g est possible)

Non plus sérieusement , cela ne résout pas le problème du wildcard "." dans sed qui ne prend pas en charge les caractères invalides. Parce qu'ici on sait que le caractère est 0xc3, mais ça pourrait être 0xd3, 0xd4, etc.
On pourrait écrire une regex compliquée chargé de checker et éliminer les caractères invalides, mais ça ne résout pas le problème, qui est que si "." dans sed ne les prend pas en charge, ça fait planter tout script utilisant sed, pour peu qu'on lui donne en input un fichier corrompu.

Edit : par exemple, tout sed utilisant ".*" : .* s'arrêtera au premier caractère corrompu. On peut renvoyer la faute à l'utilisateur en disant "il n'a qu'à pas donner de fichier corrompus". Mais bon l'idée c'est toujours de supposer que l'utilisateur donnera les inputs les plus tordus possibles, sinon pourquoi mettre des guillemets autour de "$VAR", pourquoi utiliser find -print0, etc.

Dernière modification par ehmicky (Le 03/11/2011, à 19:12)

aduxas · Le 03/11/2011, à 19:28

Tiens, chez moi:

$ grep $'\xc3' essai
a <?> b

par contre, sed ignore le caractère.

A noter:

$ tr '\303' '0' <essai
a 0 b

Et donc tu fais tout cela sous root? Ou as-tu juste changé ton prompt pour nous faire peur?

Edit:

$ grep -c $'\xc3' essai
1

Dernière modification par aduxas (Le 03/11/2011, à 20:21)

ehmicky · Le 03/11/2011, à 21:00

C'est bizarre, moi j'ai :

# grep -c $'\xc3' <<<$'\xc3'
0
# type grep
grep is hashed (/bin/grep)
# grep --version | head -n1
grep (GNU grep) 2.9

Par contre avec grep -P, cela marche

Dernière modification par ehmicky (Le 03/11/2011, à 21:03)

aduxas · Le 03/11/2011, à 22:42

$ type grep
grep is /usr/bin/grep
$ grep --version | head -1
GNU grep 2.5.2

gerarmentor · Le 04/11/2011, à 17:15

Ca marche avec ssed ("super-sed", une version améliorée de gnu sed)

$ sed 's/.*/ok/'  <<<$'a \xc3 ab'
ok<?> ab
$ ssed 's/.*/ok/'  <<<$'a \xc3 ab'
ok

aduxas · Le 04/11/2011, à 22:11

D'autres idées:

$ grep -c '[^[:print:]]' <<<$'a \xc3 b'
1
$ grep -c '[:xc3:]' <<<$'a\xc3 b'
0

Ce dernier doit avoir une erreur?!

medoc · Le 05/11/2011, à 18:05

Pour supprimer les caracteres invalide d'un fichier suppose encode en utf-8: iconv -c -f utf-8 -t utf-8

Mais si tu fais cela, tu travailles ensuite sur un fichier different de l'original, est-ce bien ce que tu veux faire ?

Ton probleme en fait, c'est que dans un contexte UTF-8, tu travailles sur un fichier binaire, pas sur un fichier texte, donc grep ne marche pas.

Une autre approche possible serait de changer de locale pour que grep renonce a interpreter le contenu du fichier comme de l'UTF-8
Par exemple "export LANG=C", puis positionner le terminal (Terminal->set Character Encoding) aussi dans un encoding 8 bits (ex: iso-8859-15), et grep marche et t'affiche normalement le c3 comme un CAPITAL A WITH TILDE (ou kekchose comme ca).

Mais ce qui manque en fait dans ton enonce de probleme c'est la nature reelle de ces donnees: s'agit t'il d'UTF-8 endommage, ou d'un fichier encode autrement (dans un encodage 8bits autre). L'approche qui en decoule logiquement est differente

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 03/11/2011, à 17:54

Colle : Comment grepper un caractère UTF8 invalide :) ?

#2 Le 03/11/2011, à 18:19

Re : Colle : Comment grepper un caractère UTF8 invalide :) ?

#3 Le 03/11/2011, à 18:20

Re : Colle : Comment grepper un caractère UTF8 invalide :) ?

#4 Le 03/11/2011, à 19:03

Re : Colle : Comment grepper un caractère UTF8 invalide :) ?

#5 Le 03/11/2011, à 19:28

Re : Colle : Comment grepper un caractère UTF8 invalide :) ?

#6 Le 03/11/2011, à 21:00

Re : Colle : Comment grepper un caractère UTF8 invalide :) ?

#7 Le 03/11/2011, à 22:42

Re : Colle : Comment grepper un caractère UTF8 invalide :) ?

#8 Le 04/11/2011, à 17:15

Re : Colle : Comment grepper un caractère UTF8 invalide :) ?

#9 Le 04/11/2011, à 22:11

Re : Colle : Comment grepper un caractère UTF8 invalide :) ?

#10 Le 05/11/2011, à 18:05

Re : Colle : Comment grepper un caractère UTF8 invalide :) ?

Pied de page des forums