Discuter:Codage de caractères

Un article de Wikipédia, l'encyclopédie libre.

[modifier] Désaccord de pertinence

Je pense que l'articles contient plusieurs informations fausses ou peu claires, par exemple :

  1. L'ASCII ne date pas des premiers jours de l'informatique et il n'est pas évident qu'il fut le plus utilisé dès son apparition.
  2. =E9 est un échappement MIME, je ne suis pas sûr que ce soit comparable à un codage de caractère. C'est plutôt un moyen de représenter un octet avec des caractères, l'inverse du sujet de l'article...
  3. Unicode est plein de pièges et de subtilités, mieux vaut ne pas s'avancer comme en prétendant que chaque caractère possède un unique code entier.
  4. La distinction entre le répertoire (comme Unicode) et le codage en bits proprement dit (UTF-8, UTF-16) me semble parfois un peu floue.

Je pense que les précisions nécessaires seront apportées à force de relecture, je laisse le bandeau pour les encourager et avertir le visiteur innocent. Marc Mongenet 21 fev 2005 à 01:04 (CET)

Pour le point 3, je ne suis pas d'accord. En effet, même si de nombreux caractères sont homographes (identiques visuellement), que certains sont des combinaisons d'autres, etc., chaque caractère Unicode est unique au moins sémantiquement, et cela en raison de la distinction glyphe-caractère opérée par le consortium. Pour le 1, 2 et 4, c'est pas moi ! lol --m·delahaye 21 fev 2005 à 01:52 (CET)
Après vérification, si c'est moi, pour le 4, mais pour mon excuse la nomenclature d'Unicode est très compliquée. Unicode est bien un codage de caractères (merci BenoitL pour la correction) au sens où il fait correspondre un numéro à un caractère. Il intégre un répertoire de caractères (ensemble de caractères non ordonné) au sens où il permet de coder un certain nombre de caractères. UTF-8 et UTF-16 sont quant à eux des formes de codage de caractères (Character Encoding Forms). En sachant qu'on peut rajouter une couche supplémentaire sur tout ça le modèle de codage de caractères... donc à priori c'est correcte mais flou il est vrai. --m·delahaye 21 fev 2005 à 02:39 (CET)
Pour le point 3, j'ai un petit doute. L'article dit « le répertoire complet d'Unicode contient plus de 100 000 caractères, chacun possédant un unique code entier ». On pourrait comprendre que le e minuscule accent aigu possède un unique code entier en Unicode, alors qu'on peut sémantiquement faire un e minuscule accent aigu avec des combinaisons, non ? En outre il me semble avoir lu que le standard Unicode considère les caractères accentués (on dit diacritiques ?) repris de ISO-8859-x comme des caractères « de compatibilité » qui ne devraient idéalement pas être utilisés car redondants. Ce qui renforcerait cette idée de code non unique dans le standard même. Je n'ai cependant fait que survoler le standard Unicode il y a quelques semaines et je ne suis donc pas sûr de ce que j'avance. Marc Mongenet 21 fev 2005 à 15:16 (CET)
Dans le TR#17, c'est expliqué en détail (sûrement trop), mais la FAQ répond à ta question : « Unicode provides a unique encoding for every character ». Pour l'histoire des caractères de compatibilité, oui il y en a mais pas ceux là... Pour Unicode, E+` n'est pas È ! Un caractère de compatibilité est en fait en général un caractère auquel on associe un glyphe qui n'est qu'une variante d'un caractère ou d'un groupe de caractère, par exemple la ligature fi (dans les livres bien imprimés le f et le i sont liés). Tous ces caractères font partie d'une zone de compatibilité, qu'on ne doit pas utiliser en dehors de l'implémentation de l'Unicode dans un logiciel et dans les polices de caractères. C'est pourquoi je pense que pour le commun des mortels et surtout à l'article Codage de caractères et non à l'article Unicode, on peut dire que Unicode fournit un code unique à chaque caractère. J'en tiens pour preuve tout le tapage qu'il y a eu autour de l'unification CJK.
Effectivement, vu ainsi, ça paraît tout à fait pertinent. Marc Mongenet 21 fev 2005 à 22:22 (CET)