Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites". Attention, le forum rencontre actuellement quelques difficultés. En cas d'erreur 502, il ne faut pas re-valider l'envoi d'un message ou l'ouverture d'une discussion, au risque de créer un doublon.

La section divers se réorganise ! De nouvelles sous-sections à venir. (plus d'infos + donner son avis)

#1 Le 22/06/2008, à 23:54

fnx

Embrouilles d'encodages de caractères (utf8, iso 8859, latin ...)

Bonjour,

Désolé de remettre au goût du jour un sujet déjà évoqué, mais que je n'ai pas réussi à voir clairement expliqué.
Il s'agit de l'encodage des caractères.

Merci à ceux qui ont trimés sur le sujet et compris les tenants et les aboutissants de prendre quelques minutes pour répondre à ces questions ou me renvoyer vers des liens avec une synthèse.

Voici quelques unes de mes questions

*I* Pouvez-vous me confirmer que l'encodage ne dépend pas d'une partition: cad que sur une même partition on peut bien trouver un mélange de fichiers encodés dans des systèmes différents ?

*II* Si oui, sur une partition ext3 ou reiserfs y-a-t-il un moyen de savoir quel encodage a été utilisé
1-pour le nom des fichiers
2-pour le contenu des fichiers
?


*III* J'ai compris qu'Ubuntu utilisait utf-8 par défaut, mais est-ce vrai pour toutes les versions ou depuis une certaine date ?

*IV* Par défaut Windows XP utilise quel encodage pour:
du NTFS
du FAT32
?


*V* Quelles sont les commandes pour convertir un fichier de
l'utf-8 vers de l'iso-5589-15,
et le contraire
l'iso 8859-15 vers  l'utf-8
?
(Y-a-t-il un risque d'appliquer deux fois une conversion et de corrompre le fichier ?)

*VI* Quels types de fichiers ces problèmes d'encodage concernent-ils
(tous les fichiers, ou seulement les fichiers textes, ou ... ) ?
( dans le dernier cas, y-a-t-il un moyen de tester, si un fichier est sensible au type d'encodage ?

Dernière modification par fnx (Le 23/06/2008, à 00:09)

Hors ligne

#2 Le 23/06/2008, à 00:44

fnx

Re : Embrouilles d'encodages de caractères (utf8, iso 8859, latin ...)

Je me réponds en partie:

*V*: conversion d'encodage avec la commande  iconv

#iso vers UTF-8
iconv -f iso-8859-15 -t UTF-8  filename 
#utf-8 vers iso
iconv -f UTF-8 -t iso-8859-15 filename

(packet  convmv voir https://wiki.ubuntu.com/UTFEightMigrationTool)



Edit 28/10: prise en compte de la remarque de Luigicube

Dernière modification par fnx (Le 27/10/2008, à 02:30)

Hors ligne

#3 Le 24/10/2008, à 09:36

Luigicube

Re : Embrouilles d'encodages de caractères (utf8, iso 8859, latin ...)

Pour

#iso vers UTF-8

, il ne faut pas oublier la partie UTF-8 tongue

iconv -f iso-8859-15 -t UTF-8 filename

Précisions :

iconv -f encoding -t encoding inputfile > outputfile

outputfile doit etre différent de inputfile (appris à mes dépens, mais j'avais fait une sauvegarde ^^)

Hors ligne

#4 Le 24/10/2008, à 09:49

®om

Re : Embrouilles d'encodages de caractères (utf8, iso 8859, latin ...)

fnx a écrit :

*I* Pouvez-vous me confirmer que l'encodage ne dépend pas d'une partition: cad que sur une même partition on peut bien trouver un mélange de fichiers encodés dans des systèmes différents ?

Ça ne dépend pas d'une partition, mais il faut indiquer l'encodage lorsque la partition est montée (voir /etc/fstab).

fnx a écrit :

*II* Si oui, sur une partition ext3 ou reiserfs y-a-t-il un moyen de savoir quel encodage a été utilisé
1-pour le nom des fichiers
2-pour le contenu des fichiers
?

N/A
Il faut donc regarder l'encodage utilisé lors du montage.

fnx a écrit :

*III* J'ai compris qu'Ubuntu utilisait utf-8 par défaut, mais est-ce vrai pour toutes les versions ou depuis une certaine date ?

Pour toutes les versions d'Ubuntu, je pense oui (pour les premières je ne suis pas sûr). Avant par contre, non (anciennes debian).

fnx a écrit :

*IV* Par défaut Windows XP utilise quel encodage pour:
du NTFS
du FAT32
?

Windows utilise par défaut le cp1252, une variante de l'iso 8859-1 (en grande partie similaires).


fnx a écrit :

*V* Quelles sont les commandes pour convertir un fichier de
l'utf-8 vers de l'iso-8859-15,
et le contraire
l'iso 8859-15 vers  l'utf-8
?

déjà donné par ceux qui ont devancé mon post smile

fnx a écrit :

(Y-a-t-il un risque d'appliquer deux fois une conversion et de corrompre le fichier ?)

OUI ! Il ne faut faire la conversion qu'une seule fois.

fnx a écrit :

*VI* Quels types de fichiers ces problèmes d'encodage concernent-ils
(tous les fichiers, ou seulement les fichiers textes, ou ... ) ?
( dans le dernier cas, y-a-t-il un moyen de tester, si un fichier est sensible au type d'encodage ?

Les fichiers textes, car les éditeurs de fichiers textes doivent "choisir" un encodage pour lire les fichiers.
L'encodage pour des fichiers autres que texte n'a pas de sens.

Hors ligne

#5 Le 31/10/2009, à 15:21

fnx

Re : Embrouilles d'encodages de caractères (utf8, iso 8859, latin ...)

Pour garder une trace de vos remarques, j'ai initié une page de doc:
http://doc.ubuntu-fr.org/tutoriel/encodage_caracteres

N'hésitez pas à apporter vos corrections, et merci pour vos  contributions.

Hors ligne

  • Accueil
  • » Forum
  • » Archives
  • » Embrouilles d'encodages de caractères (utf8, iso 8859, latin ...)

Haut de page ↑