Internationalisation : i18n

Anubis · 7 Juin 2004

Tu nous donnes la recette ?

Un bon éditeur capable d'enregistrer en UTF-8
Une pincée de PHP pour modifier les en-têtes
Une petite balise <meta> si votre épicier n'a pas de PHP

Pourquoi ce type de caractère n'est-il pas toujours automatiquement reconnu par FireFox (j'imagine qu'il en est de même avec d'autres navigateurs) ?
Erreur dans le code ?

UTF-8 est tout simplement loin d'être l'encodage par défaut. Pour les pages HTML par exemple, Firefox choisira automaitquement un charset iso-8859-1 pour une page web ne le spécifiant pas. Il se trouve que beaucoup de pages web utilise un encodage UTF-8 (parce que l'éditeur de leur auteur l'enregistre de cette manière) mais ne le spécifie pas, soit dans une leur en-tête HTTP, soit dans une balise <meta>.

Ce que je peux dire à la suite du développement de mon wiki , c'est que l'UTF-8 est bien géré par tous les navigateurs modernes (même IE6) à partir du moment où il est correctement déclaré.

Heureusement, les navigateurs choisissent bien souvent l'encodage UTF-8 pour les documents XML, mais je ne pense pas que ce choix soit une généralité.

Modifié 7 Juin 2004 par Anubis

Ganf · 7 Juin 2004

ne devrions-nous pas tous utiliser Unicode ?

Denis, toujours pas convaincu par Unicode ?

On peut s'en passer, mais ça demande plus de boulot. En plus de changer la langue, de changer les préférences d'affichage de type monnaie/date/nombres, il te faudra aussi changer de charset. Une application peut tout à fait gérer ça en interne mais ça demande plus de boulot et c'est la meilleure manière de se planter.

Je peux te dire qu'ici on cherche à implémenter une interface Coréenne sur une appli et une base de données toutes les deux en ISO-8859-1 au départ ... ben c'est pas gagné.

(message perso: d'ailleurs j'en profite pour te signaler que ton fil RSS passe mal chez moi, justement à cause d'un problème de déclaration de charset)

UTF-8 est tout simplement loin d'être l'encodage par défaut.

Je rajouterai même que pour les documents envoyés en HTTP avec un type mime en text/* le codage (pas encodage, s'il vous plait) est implicitement du ISO-8859-1 (c'est définit par la norme). Firefox a donc raison de le prendre par défaut. (j'en veux d'ailleurs au validateur W3C qui prend de l'UTF8 par défaut quand rien n'est déclaré).

Heureusement, les navigateurs choisissent bien souvent l'encodage UTF-8 pour les documents XML

Si je ne me trompe pas c'est là aussi imposé par les specs : un document XML sans déclaration de codage est un document UTF-8.

(pour qu'il soit sans codage il faut donc qu'il ne soit pas envoyé en text/* sinon le codage est considéré comme déclaré par HTTP)

Unicode devrait-il être utilisé ?

Globalement, j'ai vu des navigateurs ne pas accepter ISO-8859-15 (le même que par défaut mais avec l'euro et quelques autres caractères en plus) ou ne pas accepter cp1252 (la version proprio Microsoft Windows qui diffère sur les guillemets typo et quelques autres machins) ... mais globalement même les très vieux supportent l'UTF-8. Les seuls chez qui ça ne passent pas ne supportent vaiment que ISO-8859-1 (donc pas d'internationalisation) et ressemblent généralement plus à des scripts qu'autre chose.

Le surcout en taille de fichier est largement négligeable pour l'essentiel des ressources. Surtout si c'est contrebalancé par la pérénité et l'évolutivité.

Le seul défaut se situe au niveau de quelques débats entre les chinois et coréens (entre autres) : ils utilisent les mêmes caractères mais les dessinent différement. Unicode a jugé qu'ils écrivaient une table des caractères et pas une table des glyphes (dessins), donc que les différences d'affichage devaient se faire au niveau des polices. Du coup c'est vrai que ça réduit un peu le coté pratique (surtout pour les citations) car les documents ne peuvent être relus correctement que s'ils incluent une information sur la langue.

Maintenant c'est encore pire si on utilise ISO-8859-1 ou un codage qui ne supporte qu'un alphabet. On a tout intérêt à utiliser UTF-8, rien à perdre en tout cas.

Denis · 7 Juin 2004

N'aie crainte, je suis tout à fait convaincu de l'intérêtde passer à UTF-8. J'y comprends pas grand chose encore, et je viens à epine d'apprendre qu'UTF-8 faisait partie d'Unicode (c'est un domaine que je n'avais jamais exploré). Ce qui me dérange beaucoup, c'est que depuis toujours, nous parlons tous d'ISO-8859-1 comme étant le charset à utiliser... J'ai l'impression qu'on a manqué de vision en ne regardant pas directement UTF-8.

Je sais bien que sur mon propre site, j'ai constamment des erreurs à prendre en charge au nom des caractères non-reconnus et c'est probablement à cause de ça. Il est donc temps de commencer à faire quelque tests pour passer vers UTF-8. Tu n'es pas le seul Ganf à éprouver des problèmes bizarres avec mon RSS, un ami me faisait part du même problème la semaine dernière, sans pour autant pouvoir en identifier la cause.

J'arrive vraiment mal à comprendre comment on a pu, chez OpenWeb et sur nos weblogs, complètement escamotter la question jusqu'à présent de l'internationnalisation.

Je suis pas très fier de moi. Je me refuse à nous juger collectivement de na pas encore avoir allumé là-dessus. :down:

Ganf · 7 Juin 2004

> J'ai l'impression qu'on a manqué de vision en ne regardant pas directement UTF-8.

Oui et non.

Ton contenu est exclusivement français et anglais. Il n'y a aucune honte à utiliser un codage adapté à ces deux langues. Il est peu probable que dès demain tu te mettes à écrire chinois (et que ces écritures chinoises ne soient pas dans un espace distinct qui permette de mettre un charset différent du reste du site).

Dommage de ne pas y avoir assez mis d'intérêt, mais on n'a par exemple rien à reprocher à ton blog et tes articles à cause de leur ISO-8859-1.

> Ce qui me dérange beaucoup, c'est que depuis toujours, nous parlons tous

> d'ISO-8859-1 comme étant le charset à utiliser

Ça dépend pour quoi faire. Si tu fais des productions françaises il n'y a pas de mal. Si on s'attarde sur des outils qui ont pour but de vivre un peu plus indépendament que les écrits, eux devraient être en UTF-8.

Disons que l'ISO a encore ses raisons d'être. En particulier à cause du fait que ce soit le codage par défaut sur de nombreux protocoles, ou que de nombreux outils ne savent pas gérer les codages sur plusieurs octets (comme UTF-8).

Rien que pour donner un exemple : l'utilisation d'UTF-8 dans PHP n'a rien d'extrèment simple.

> Tu n'es pas le seul Ganf à éprouver des problèmes bizarres avec mon RSS, un ami

> me faisait part du même problème la semaine dernière, sans pour autant pouvoir en

> identifier la cause.

Quand j'ai constaté la chose j'ai pourtant moi aussi vu la déclaration XML de charset. Je jetterai un oeil pour chercher le problème si tu veux.

Anubis · 7 Juin 2004

Si je ne me trompe pas c'est là aussi imposé par les specs : un document XML sans déclaration de codage est un document UTF-8.
(pour qu'il soit sans codage il faut donc qu'il ne soit pas envoyé en text/* sinon le codage est considéré comme déclaré par HTTP)

J'avais justement chercher dans la recommandation XML, mais ne trouvant pas explicitement, j'ai renoncer...

Ça dépend pour quoi faire. Si tu fais des productions françaises il n'y a pas de mal. Si on s'attarde sur des outils qui ont pour but de vivre un peu plus indépendament que les écrits, eux devraient être en UTF-8.
Disons que l'ISO a encore ses raisons d'être. En particulier à cause du fait que ce soit le codage par défaut sur de nombreux protocoles, ou que de nombreux outils ne savent pas gérer les codages sur plusieurs octets (comme UTF-8).

Rien que pour donner un exemple : l'utilisation d'UTF-8 dans PHP n'a rien d'extrèment simple.

Là dessus, je ne suis plus d'accord, en tout cas, pas dans le fond. Oui, pour nous, ISO-8859-X a encore une utilité, il est clair que c'est le choix le plus juste pour écrire en langue latine. Maintenant, je pense qu'il faut pousser les considérations un peu plus loin que le simple point de vue technique.

Choisir un charset est un choix, et comme tout décision, elle est complexe à prendre et nécessite de peuser le pour et le contre. Je ne pense pas que les webmasters actuels ait toutes les clefs pour se poser ces questions.

C'est comme beaucoup de choses, le choix peut sembler donner de la liberté, mais bien souvent il restreint en créant des « gethos ». C'est un des grands problèmes du monde du libre, donner la liberté d'un choix ne veut pas forcément dire aider la personne qui va faire ce choix. Je ne suis pas en train de dire que la liberté est une chose attroce, je dis juste que la liberté est bien souvent difficile à assumer, beaucoup trop pour le commun des mortels, surtout dans des domaines dans lesquels ils ne veulent pas forcément s'investir. Il suffit de comparer le monde Mac et Linux, l'un est rigide, l'autre libre, et l'utilisateur n'est perdu que dans le second.

Ce que je veux dire est qu'il est toujours possible de choisir le charset le plus adapté au fichier (ou site web) que l'on écris. Maintenant la liberté de faire ce choix est-elle vraiment primordiale face à une intéropérabilité parfaite entre tous les fichiers ?

Encore un choix difficile...

Connexion

Internationalisation : i18n

i18n, ça vous dit quelque chose ?

1. i18n, ça vous dit quelque chose ?

Sujets conseillés

Anubis

Ganf

Denis

Ganf

Anubis

Veuillez vous connecter pour commenter

Parcourir

Activité