Discussion Aide:Unicode

Un article de Wikipédia, l'encyclopédie libre.

Sommaire

1 Urgent
2 Félicitation ! (UTF-8)
3 Passage à l'UTF-8
4 À propos du passage en UTF-8
5 Liens depuis *wikipedia.org vers fr.wikipedia.org
6 Nouveaux caractères
7 Limitation des caractères
8 Bilan du passage à unicode et remerciements
9 Ordre des paragraphes Réglages de navigateurs

[modifier] Urgent

Cette page contient des caractères spéciaux.

Si certains caractères de cet article s’affichent mal (carrés vides, points d’interrogation, etc.), consultez la page d’aide Unicode.

Remplissage urgent par quelqu'un qui s'y connait (à cause de {{Msg:Unicode}} qui fait appel à cet article et qui commence à être utilisé par quelques articles, comme Langue japonaise). Ploum's 24 fév 2004 à 19:35 (CET)

C'était prévu et c'est fait (je n'allais pas lancer comme cela un Modèle:Message sans qu'il soit pertinent). Vincent 24 fév 2004 à 20:10 (CET)

Total respect ! C'est mieux que pertinent. C'était préparé. Je m'incline. Ploum's 24 fév 2004 à 20:15 (CET)

Je n'ai fait que mon devoir, Général. Vincent

A ce titre, et au nom de ~~la nation~~Wikipedia reconnaissante, je te décerne une décoration en chocolat. Ploum's 24 fév 2004 à 20:28 (CET)

Merci. Vincent

On pourrait faire un page de test unicode commune a toute les langues, non ? A☮ineko 27 fév 2004 à 02:27 (CET)

Toutes ? Cela me semble irréalisable (et puis : comment teste-t-on les langues CJK ?). Pour les principales écritures, oui, mais il faut les séparer. Vincent 27 fév 2004 à 06:44 (CET)

En fait, c'est surtout pour tester les fontes de caractères. Dans un premier temps, mettre des phrases dans les principales langues utilisant l'Unicode (chinois, japonais, russe, grec, etc.). Pour l'arabe c'est un peu particulier a cause du moteur de rendu, mais sinon, je vois pas le problème. A☮ineko 27 fév 2004 à 06:52 (CET)

Le problème est qu'il faudra faire de même que pour l'arabe avec les écritures de l'Inde à variantes contextuelles... Sinon, j'ai une page de test plus générale sur mon site web ( http://sivanataraja.free.fr/config/test.htm ) dont je peux réutiliser le système. Vincent 27 fév 2004 à 07:12 (CET)

Oui, il y a un certain nombre de langue qui necessite un traitement speciale, mais la page de teste general pourrait servir pour toutes les autres. Sympa ta page! On peux l'utiliser ? A☮ineko 27 fév 2004 à 07:54 (CET)

Bien sûr ! Je peux en pondre d'autres comme cela facilement. On peut aussi se servir du I can eat glass, du moins un peu. J'y ai participé et ai fourni quelques exemples. Vincent 27 fév 2004 à 09:50 (CET)

C'est justement la page que je coulais retrouvé :o) On peux reprendre librement les exemples ? A☮ineko 27 fév 2004 à 09:57 (CET)

Pas sûr. Il vaut mieux demander (Frank da Cruz est quelqu'un de très sympa). Le problème, c'est que les exemples ne contiennent pas forcément les caractères de blocs importants (comme les diacritiques sans chasse). Vincent 27 fév 2004 à 12:35 (CET)

Code	ISO-8859-1	Unicode	Equivalent	Unicode
128	Ç		199	Ç
129	ü		252	ü
130	é		233	é
131	â		226	â
132	ä		228	ä
133	à		224	à
134	å		229	å
135	ç		231	ç
136	ê		234	ê
137	ë		235	ë
138	è		232	è
139	ï		239	ï
140	î		238	î
141	ì		236	ì
142	Ä		196	Ä
143	Å		197	Å
144	É		201	É
145	æ		230	æ
146	Æ		198	Æ
147	ô		244	ô
148	ö		246	ö
149	ò		242	ò
150	û		251	û
151	ù		249	ù
152	ÿ		255	ÿ
153	Ö		214	Ö
154	Ü		220	Ü
155	ø		248	ø
156	£		163	£
157	Ø		216	Ø
158	×		215	×
159			402	ƒ
160	á		225	á
161	í	¡	237	í
162	ó	¢	243	ó
163	ú	£	250	ú
164	ñ	¤	241	ñ
165	Ñ	¥	209	Ñ
166	ª	¦
167	º	§	186	º
168	¿	¨	191	¿
169	®	©	174	®
170	¬	ª	172	¬
171	½	«	189	½
172	¼	¬	188	¼
173	¡		161	¡
174	«	®	171	«
175	»	¯	187	»
176	░	°	9617	░
177	▒	±	9618	▒
178	▓	²	9619	▓
179	│	³	9474	│
180	┤	´	9508	┤
181	Á	µ	193	Á
182	Â	¶	194	Â
183	À	·	192	À
184	©	¸	169	©
185	╣	¹	9571	╣
186	║	º	9553	║
187	╗	»	9559	╗
188	╝	¼	9565	╝
189	¢	½	162	¢
190	¥	¾	165	¥
191	┐	¿	9488	┐
192	└	À	9492	└
193	┴	Á	9524	┴
194	┬	Â	9516	┬
195	├	Ã	9500	├
196	─	Ä	9472	─
197	┼	Å	9532	┼
198	ã	Æ	227	ã
199	Ã	Ç	195	Ã
200	╚	È	9562	╚
201	Ð	É	208	Ð
202	╩	Ê	9577	╩
203	╦	Ë	9574	╦
204	╠	Ì	9568	╠
205	═	Í	9552	═
206	╬	Î	9580	╬
207	¤	Ï	164	¤
208	ð	Ð	xf0	ð
209	Ð	Ñ	x110	Đ
210	Ê	Ò	xca	Ê
211	Ë	Ó	xcb	Ë
212	È	Ô	xc8	È
213	ı	Õ	305	ı
214	Í	Ö	205	Í
215	Î	×	206	Î
216	Ï	Ø	207	Ï
217	┘	Ù	9496	┘
218	┌	Ú	9484	┌
219	█	Û	9608	█
220	▄	Ü	9604	▄
221	¦	Ý	254f ?	&#x254f ?
222	Ì	Þ	204	Ì
223	▀	ß	9600	▀
224	Ó	à	211	Ó
225	ß	á	223	ß
226	Ô	â	212	Ô
227	Ò	ã	210	Ò
228	õ	ä	245	õ
229	Õ	å	213	Õ
230	µ	æ	x3bc	μ
231	þ	ç	254	þ
232	Þ	è	222	Þ
233	Ú	é	217	Ú
234	Û	ê	219	Û
235	Ù	ë	218	Ù
236	ý	ì	253	ý
237	Ý	í	221	Ý
238	¯	î
239	´	ï
240		ð
241	±	ñ
242	‗	ò	8215	‗
243	¾	ó
244	¶	ô
245	§	õ
246	÷	ö
247	¸	÷
248	°	ø
249	¨	ù
250	·	ú
251	¹	û
252	³	ü
253	²	ý
254	■	þ	9632	■
255		ÿ

un lien : http://www.natural-innovations.com/wa/doc-charset.html

Note : le texte ci-dessous a été déplacé depuis le Bistro de Wikipédia. Ryo 11 mar 2004 à 10:02 (CET)

[modifier] Félicitation ! (UTF-8)

Et voila, nous voici virtuellement passé a l'UTF-8 ! Merci a tous ceux ayant participé au débat Wikipédia:Prise de décision/UTF-8. 28 pour, 0 contre, voici un joli consensus qui fait bien plaisir. J'ai envoyé un mail aux développeurs, et j'espère qu'ils prendront un peu de temps pour exhausser notre vœu. Il ne faut pas pour autant oublier les réserves qui ont été émise, et je vous invite donc à aider a la création de page d'aide concernant l'UTF-8. Un bon départ serait de donner la liste des navigateurs compatibles. Essayons de compléter la page Wikipédia:Navigateur. A☮ineko 9 mar 2004 à 11:22 (CET)

-- J'utilise internet explorer 5.00.2919.6307, sous windows 98 (version 4.10.1998). Internet explorer me propose de choisir entre affichage/codage/utf8 ou iso. Cependnat lorsque je choisis iso, moins de caractères de la page de test s'affichent. Est-ce normal? Il semble que le problème ne se pose qu'à l'affichage, mais pas à l'édition (qui me montre les caractères sous frome de & # ... ; Je suis pourtant pour unicode. Jean-Michel.

En fait, dans IE, on peux choisir une police de character par codage. Si tu choisi une police de character Unicode (Arial Unicode par exemple) pour le codedage "iso", tu veras autant de carateres. Dans tout les cas, je te conseil de passer a Mozilla Firefox, c'est vraiment mieux et en plus, c'est libre! A☮ineko 10 mar 2004 à 02:58 (CET)

[modifier] Passage à l'UTF-8

Bonjour, pour le passage à l'UTF-8, il faudra que le site soit inaccessible (au moins en écriture) pendant le temps du transfert. De plus, tous les caractères actuellement codé entre 128-255 qui ne sont pas égale entre ISO-8859-1 et UTF-8 devrons être corrigé par un ou des bots dans les plus brefs délais. Je vais essayer de faire la liste des caractères à corriger. A☮ineko 10 mar 2004 à 03:07 (CET)

Voila, j'ai fait le tableau de comparaison sur la page Discussion Wikipédia:Unicode. Tous les caractères de gauche seront affichés comme dans la colonne de droite après passage à l'UTF-8. Il faut donc trouver leurs équivalents Unicode. Je pense que dans le tas, seul une 20e~30e doivent être utilisé. Si quelqu'un peu m'aider, ça sera avec plaisir. A☮ineko 10 mar 2004 à 03:38 (CET)

Logiquement HasharBot est bilingue iso-8859-1 / UTF-8 et devrait pouvoir convertir les articles sans aucun problème. Il faudra que je fasse quelques tests. Ashar Voultoiz 10 mar 2004 à 08:10 (CET)

En fait, apparemment, la conversion serait fait automatiquement lors du switch. Par contre, il restera peut-être les entité HTML, du genre &#abcd;, a reconvertir en caractères Unicode. J'attends des nouvelles sur la ML technique. Je suis assez mauvais en anglais (qui a dit "en français aussi" !), et ça serait vraiment bien que d'autre s'inscrivent sur les ML pour transmettre nos interrogations et nos doléances. A☮ineko 10 mar 2004 à 08:49 (CET)

Ce n'est pas nécessaire de convertir les entités HTML... Elles n'utilisent que des caractères ASCII (code < 128/80h) donc elles sont 100% compatibles avec UTF8. Ce qui pose problème ce sont les caractères dans le code source HTML dont le numéro est supérieur à 128 dans une page de code donnée, ici ISO 8859-1. «é» n'a pas à être converti, pas plus que «&2345;» ; seuls les caractères binaires du genre «é» ont besoin d'être convertis, et seuls les caractères binaires non-prévus par la norme ISO 8859-1 du genre «œ» peuvent éventuellement poser problème et demander des corrections manuelles. JX Bardant 10 mar 2004 à 12:13 (CET)

D'après ce que j'ai compris, le passage à l'UTF8 est simple, mais lent. Il faut passer toutes les pages par un script qui convertit en UTF-8. Puis après relancer les scripts de reconstruction des liens (méthode la plus simple) Shai 10 mar 2004 à 10:15 (CET)

Oui, c'est simple en théorie... Je pense qu'il serait bien de tester d'abord. On notera que le processus rend la base de donnée innaccesible durant un temps. Beatnick

Et concernant l'affichage correct des caractères ? Personnellement, j'ai quand même quelques problemes avec mon IE 6 sous XP. Ne serait-il pas utile d'indiquer quelque part où trouver les plug-ins necessaires s'ils existent ? Traroth 10 mar 2004 à 11:18 (CET)

Bonjour, les entités HTML, du genre &#abcd;, n'ont pas besoin d'etre converties. Elles s'affichent correctement sous n'importe quel encodage.
En revanche, il est indispensable de corriger les entites illegales Windows qui existent actuellement dans le code:

apostrophes,
oe lié,
points de suspension,
tirets longs,
guillemets anglais, etc.

Vargenau 10 mar 2004 à 12:06 (CET)

La liste des caractères à problèmes est donnée dans l'article ISO 8859-1 au chapitre ISO-8859-1 vs Windows ANSI. Il s'agit des caractères de 80h à 9Fh (128 à 159). JX Bardant 10 mar 2004 à 12:28 (CET)

Je sais, c'est moi qui ai cree l'article ISO 8859-1 (a partir de l'anglais) :-)

Eh bien, bravo pour la cohérence de tes propos :-) JX Bardant 10 mar 2004 à 13:52 (CET)

En resume : Qui lance le robot pour corriger ? Vargenau 10 mar 2004 à 13:31 (CET)

J'ai pas dit, il faudra convertir les entités HTML, mais je prefereai. Quite a passer a l'UTF-8, j'aimerai bien que le source des pages pleines de caracteres japonais deviennes lisible sans que j'ai tout a retaper. A☮ineko 10 mar 2004 à 14:42 (CET)

Je ne suis pas sur que ce soit une bonne idee de convertir toutes les entites HTML. Je suis capable de corriger du grec s'il est ecrit αβ. C'est beaucoup plus difficile si les caracteres sont en UTF-8. Il faut en discuter. Vargenau 10 mar 2004 à 15:19 (CET)

En fait tu pourras toujours saisir du grec sous la forme α, même si la conversion est faite... L'entité α reste valide quel que soit le codage... Par contre c'est vraiment plus difficile de lire «αβγ» que «αβγ». Je crois qu'on a intérêt à convertir systématiquement en «binaire» les caractères saisis pour être stockés (saisi comme «α» => stocké comme «α»). Dans l'autre sens, les seuls caractères qu'on devrait toujours afficher dans la zone d'édition sous forme d'entité HTML sont ceux du type espace insécable, puisqu'on ne peut pas faire la différence à l'œil. JX Bardant 10 mar 2004 à 16:05 (CET)

Note : le texte ci-dessous a été déplacé depuis le Bistro de Wikipédia. A☮ineko 21 mar 2004 à 09:53 (CET)

[modifier] À propos du passage en UTF-8

Pour tenir tout le monde au courant à propos de l'utf-8, la migration approche. On a fait un petit programme qui convertit les textes en utf-8 et qui convertit aussi les entités unicode &#xxxx; en utf-8. J'ai essayé sur ma machine personnelle, ça fonctionne correctement. Les japonisants, arabisants et autre langues non latinisantes vont être heureux je pense. :) Med 14 mar 2004 à 13:16 (CET)

Bravo. Vincent 14 mar 2004 à 13:39 (CET)

Pour les quelques impatients, qui veulent tester (et donc cherches des bogues), voilà mon wiki : http://einstein.hd.free.fr/wiki/wiki.phtml . Pour les problèmes connus, les interwikis n'ont pas été réparés, et il n'y a que la dernière version de la base (qui date du dernier dump). Le reste devrait fonctionner à peu près. Si vous voyez un affichage incorrect, n'hésitez pas à le signaler. Med 14 mar 2004 à 13:44 (CET)

Cela fonctionne à merveille. Quelle facilité maintenant pour travailler un texte en grec... Tiens, je vois qu'il reste des —. Vincent 14 mar 2004 à 15:44 (CET)

oui, on n'a converti que les entités unicode, les entités html étant moins simples à convertir et étant plus ou moins lisibles au contraire de l'unicode. Il est prévu qu'un robot passe pour nettoyer les pages pour tout ça. Mais tu pourras utiliser les vrais caractères à la place de &dash; cependant. Med 14 mar 2004 à 15:52 (CET)

Je m'en réjouis. Le dernier article que je viens de finir, coup de glotte, a été une vraie plaie à écrire... Vincent 14 mar 2004 à 17:28 (CET)

Bon, je ne promets rien, mais comme j'ai récupéré la liste complète des entités html peut-être que j'ajouterai aussi la conversion. En soi ce n'est pas difficile mais il faut réussir à gérer les cas tordus (et il y en a, fermez vos entités avec un ; svp ;) ) Med 15 mar 2004 à 13:24 (CET)

[modifier] Liens depuis *wikipedia.org vers fr.wikipedia.org

Comment se passe les modifications des liens, dans *wikipedia.org, vers fr.wikipedia.org ? Les [fr:machin-trcu-accentué] seront ils modifiés ?

[modifier] Nouveaux caractères

Joie, on va pouvoir ajouter les caractères unicode ! pièces du jeu d'échecs : ♔♕♖♗♘♙♚♛♜♝♞♟

Certains articles (un petit nombre, voir Éthiopie et sa catégorie) utilisent des caractères amhariques (langue officielle de l'Ethiopie) au format Unicode. Quelqu'un de compétent pourrait-il intégrer l'amharique au tableau de cette section d'aide ? page web de référence : "Ethiopic" sur le site d'Alan Wood. Pour continuer à embellir Wikipédia et l'enrichir de la diversité humaine : አመሰግናለሁ, amesseg'nallo, merci ! --ጃሠንሲ -> Jah Sensie 17 mar 2005 à 23:51 (CET)

[modifier] Limitation des caractères

À quel ensemble de caractères unicode fr.wikipedia.org se limite ? Quelle est la règle ? Unicode 3.0 ? unicode 3.1 ? unicode 4.0 ?

[modifier] Bilan du passage à unicode et remerciements

Note : le texte ci-dessous a été déplacé depuis le Bistro de Wikipédia.

Il y a bien longtemps (les historiens s'entre-déchirent sur la date exacte) fr: n'était pas sous unicode c'est à dire que les caractères accentués ou étrangers ressemblaient à &oegnagniii; ou #215#4551#54966#666. Mais c'était sans compter sur l'obstination de preux wikipédiens:

先生 Med
先生 Shaihulud

Qui, contre vents et marées ont fait de fr: ce qu'il est aujourd'hui où l'on peut voir des 風 (le vent) ou des 花 (la fleur). Merci les mecs. Greudin (Discuter)

[modifier] Ordre des paragraphes Réglages de navigateurs

Bonjour,

J'imagine que dans le paragraphe Réglages de navigateurs on a classé les sous-sections par ordre alphabétique. Mais je pense qu'il vaudrait mieux placer Windows en premier, car ce système représente une grande majorité des internautes.

Des avis contraires ? Sans cela je changerai l'ordre sous peu.

GôTô ¬¬ 18 juillet 2007 à 10:20 (CEST)