File: unicode.7

package info (click to toggle)
manpages-fr 0.9.3-1
  • links: PTS
  • area: main
  • in suites: woody
  • size: 7,052 kB
  • ctags: 4
  • sloc: makefile: 58; sh: 8
file content (284 lines) | stat: -rw-r--r-- 11,153 bytes parent folder | download
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
.\" Hey Emacs! This file is -*- nroff -*- source.
.\"
.\" Copyright (C) Markus Kuhn, 1995
.\"
.\" This is free documentation; you can redistribute it and/or
.\" modify it under the terms of the GNU General Public License as
.\" published by the Free Software Foundation; either version 2 of
.\" the License, or (at your option) any later version.
.\"
.\" The GNU General Public License's references to "object code"
.\" and "executables" are to be interpreted as the output of any
.\" document formatting or typesetting system, including
.\" intermediate and printed output.
.\"
.\" This manual is distributed in the hope that it will be useful,
.\" but WITHOUT ANY WARRANTY; without even the implied warranty of
.\" MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
.\" GNU General Public License for more details.
.\"
.\" You should have received a copy of the GNU General Public
.\" License along with this manual; if not, write to the Free
.\" Software Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139,
.\" USA.
.\"
.\" 1995-11-26  Markus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>
.\"      First version written
.\"
.\" Traduction 20/10/1996 par Christophe Blaess (ccb@club-internet.fr)
.\"
.\" Mise � jour 06/06/2001 - LDP-man-pages-1.37
.TH UNICODE 7 "6 juin 2001" Linux "Manuel de l'administrateur Linux" 
.SH NOM
Unicode \- Le jeu de caract�res universel.
.SH DESCRIPTION
Le standard international
.B ISO 10646
d�finit le 
.BR "Universal Character Set (UCS)" .
.B UCS
contient tous les caract�res de tous les autres jeux de caract�res standards.
Il garantit �galement une compatibilit� circulaire, ce qui signifie que les
tables de conversions permettent de ne perdre aucune information quand une
cha�ne de caract�res est convertie dans un autre codage, puis reconvertie
en sens inverse.

.B UCS
contient les caract�res n�cessaires pour repr�senter presque tous les
langages connus. Il inclut non seulement les alphabets Latin, Grec,
Cyrillique, H�breu, Arabe, Arm�nien, et G�orgien, mais �galement Chinois
Japonais, Hiragana, Katakana, Cor�en, Hangul, Devanagari,
Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugu, Kannada, Malayam,
Thai, Lao, Khmer, Bopomofo, Tib�tain, Runique, Ethiopien, Canadien
Syllabique, Cherokee, Mongol, Ogham, Myanmar, Sinhala, Thaana, Yi, et
d'autres. Pour les �critures pas encore int�gr�es, des recherches sont en
cours pour optimiser l'encodage et elles seront ajout�es. Ceci peut inclure
non seulement des hi�roglyphes et des langues indo-europ�ennes, mais aussi
des �critures artistiques comme Tengwar, Cirth, ou Klingon. UCS contient
un grand nombre de symboles graphiques, typographiques, math�matiques, ou
scientifiques comme ceux fournis par TeX, Postscript, MS-DOS, MacIntosh,
Videotext, OCR, et de nombreux traitements de texte et syst�me d'�dition.

Le standard UCS (ISO 10646) d�crit un jeu de caract�res sur 31 bits,
constitu� de 128
.I groupes
sur 24 bits, chacun d'eux divis�s en 256
.I plans
sur 16 bits, compos�s de 256
.I rang�es
de 8 bits, avec 256 positions en
.I colonne
contenant chacune un caract�re. La premi�re partie du standard
.RB ( "ISO 10646-1" ) 
d�finit les 65534 premiers codes (0x0000 � 0xFFFD) qui forme
 le
.IR "Basic Multilingual Plane (BMP)" ,
c'est � dire le plan 0 du groupe 0. La partie 2 du standard
.RB ( "ISO 10646-2" )
ajoute des caract�res au groupe 0, dans plusieurs
.I "plans suppl�mentaires"
dans l'espace 0x10000 � 0x10ffff. On ne pr�voit pas d'ajouter de caract�res
au-del� de 0x10ffff, ainsi sur l'ensemble de l'espace disponible, une faible
fraction du groupe 0 est effectivement utilisable dans un futur � court
terme. Le BMP contient tous les caract�res des jeux habituels. Les plans
suppl�mentaires ajout�s par ISO 10646-2 ne contiennent que des caract�res
exotiques pour des notations scientifiques sp�ciales, l'industrie de
l'impression, des protocoles de haut-niveau, et les besoins de quelques
enthousiastes.
.PP
La repr�sentation des caract�res UCS sur des mots de 2 octets est
appel�e
.B UCS-2
(ne contient que les caract�res du BMP), alors que
.B UCS-4
est la repr�sentation sur un mot de 4 octets. De plus, il existe deux formes
.B UTF-8
pour les compatibilit�s avec les logiciels traitant l'ASCII et
.B UTF-16  
pour les traitement des caract�res au-del� de
0x10ffff par des logiciels UCS-2.
.PP
Les caract�res UCS 0x0000 � 0x007F sont identiques � ceux du classique jeu
.BR US-ASCII ,
et ceux de l'intervalle 0x0000 � 0x00FF sont identiques � ceux du
jeu de caract�res
.BR "ISO 8859-1 Latin-1" .
.SH "CARACT�RES COMPOS�S"
Quelques codes du
.B UCS
ont �t� assign�s � des
.BR "caract�res compos�s" .
Ils sont semblables aux touches accentu�es sans avance sur les machines �
�crire. Un caract�re compos� ajoute simplement un accent sur le caract�re
pr�c�dent (contrairement aux machines � �crire qui agissent sur le caract�re
suivant).
Les caract�res accentu�s les plus importants ont leurs propres codes dans
l'UCS
n�anmoins le m�canisme des caract�res compos�s permet d'ajouter des accents
ou des signes diacritiques sur n'importe quel caract�re de base.
Les caract�res compos�s suivent toujours le caract�re qu'ils modifient.
Par exemple, le caract�re allemand A-Umlaut (A majuscule avec un tr�ma)
peut �tre represent� soit par le code UCS pr�compos� 0x00C4, ou par la
combinaison d'un A majuscule normal, suivi d'un
"tr�ma compos�" (combining diaeresis), 0x0041 0x0308.
.PP
Les caract�res compos�s sont essentiels par exemple pour l'encodage de
l'�criture Thai ou pour les notations math�matiques et l'alphabet phon�tique
international.
.SH "NIVEAUX D'IMPL�MENTATION"
Comme tous les syst�mes ne sont pas cens�s supporter les m�canismes comme les
caract�res compos�s, ISO 10646-1 sp�cifie les trois niveaux d'impl�mentation
suivants pour l'UCS :
.TP 0.9i
Niveau 1
Les caract�res compos�s et les caract�res Hangul Jamo (un encodage sp�cial et
compliqu� de l'�criture Cor�enne, ou les syllabes Hangul sont cod�es sur 2 ou
3 sous-caract�res) ne sont pas support�s.
.TP
Niveau 2
Comme le niveau 1, mais ce n'est qu'avec certaines �critures
(par exemple H�breu, Arabe, Devangari, Bengali, Gurmukhi,
Gujarati, Oriya, Tamil, Telugo, Kannada, Malayalam, Thai et Lao) qu'il
y a des caract�res compos�s non support�s.
.TP
Niveau 3
Tous les caract�res
.B UCS
sont support�s.
.PP
Le standard
.B Unicode 3.0
publi� par le
.B Unicode Consortium
contient exactement le
.B Basic Multilingual Plane UCS
au niveau d'impl�mentation 3, comme d�crit dans le ISO 10646-1:2000.
.B Unicode 3.1
ajoute les plans suppl�mentaires de l'ISO 10646-2. Le standard Unicode et
les rapports techniques publi�s par le Consortium fournissent beaucoup
d'informations suppl�mentaires sur la s�mantique et les recommandations
d'usage. Ils fournissent des guides et des algorithmes pour �diter, trier
comparer, normaliser, convertir et afficher des cha�nes Unicode.
.SH UNICODE SOUS LINUX
Sous Gnu/Linux le type C
.B wchar_t
est un entier 32 bits sign� sous Linux, et sa valeur est
interpr�t�e comme un code
.BR UCS
(dans toutes les localisations), une convention signal�e par la biblioth�que
C Gnu en d�finissant la constante
.B __STDC_ISO_10646__
comme indiqu�e dans le standard ISO C 99.

L'UCS/Unicode peut �tre employ� comme l'ASCII dans les flux d'entr�e/sortie,
les communications avec les terminaux, les fichiers de texte, les noms de
fichiers et les variables d'environnement dans un encodage multioctet
compatible
.BR UTF-8 .
Pour signaler l'utilisation de l'UTF-8 comme encodage pour toutes les
applications, une
.B locale
correcte doit �tre configur�e dans les variables d'environnement (ex.
"LANG=en_GB.UTF-8").
.PP
La fonction
.B nl_langinfo(CODESET)
renvoie le nom de l'encodage s�lectionn�.
Les fonctions de biblioth�ques comme
.BR wctomb (3)
et
.BR mbsrtowcs (3)
peuvent �tre utilis�es pour transformer les caract�res
.B wchar_t
et les cha�nes dans le jeu de caract�res du syst�me et inversement.
La fonction
.BR wcwidth (3)
indique combien de positions (0\(en2) le curseur est avanc� en sortant
un caract�re.
.PP
Sous Linux, en g�n�ral, seule une impl�mentation BMP de niveau 1 devrait
�tre utilis�e pour le moment. Pour certaines �critures (en particulier Thai)
certains �mulateurs de terminaux UTF-8 g�rent jusqu'� deux caract�res
combin�s avec une fonte ISO 10646 (niveau 2), mais il vaut mieux
pr�f�rer les caract�res pr�compos�s s'ils sont disponibles.
.SH "ZONE PRIV�E"
L'intervalle entre 0xE000 et 0xF8FF du
.BR BMP ,
ne sera jamais assign� a aucun caract�re par le standard, et est
r�serv� pour un usage priv�.
Pour la communaute Linux, cette zone priv�e a �t� subdivis�e en deux.
L'intervalle entre 0xe000 et 0xefff peut �tre utilis� individuellement
par n'importe quelle application.
L'intervalle s'�tendant de 0xF000 � 0xF8FF est r�serv� � Linux, et
les extensions y sont coordonn�es entre les divers utilisateurs de Linux.
L'enregistrement des caract�res assign�s � la zone Linux est actuellement
maintenu par H. Peter Anvin <Peter.Anvin@linux.org>.
.SH LITT�RATURE
.TP 0.2i
*
Information technology - Universal Multiple-Octet Coded Character
Set (UCS) - Part 1: Architecture and Basic Multilingual Plane.
International Standard ISO 10646-1, International Organization
for Standardization, Geneva, 2000.

Ce sont les sp�cifications officielles de l'\fBUCS\fP.
Disponible en fichier PDF sur CD-ROM sur http://www.iso.ch/.
.TP
*
The Unicode Standard, Version 3.0.
The Unicode Consortium, Addison-Wesley,
Reading, MA, 2000, ISBN 0-201-61633-5.
.TP
*
S. Harbison, G. Steele. C - A Reference Manual. Fourth edition,
Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3.

Un bon livre de r�f�rence � propos du langage C. La 4eme �dition
couvre maintenant l'amendement 1 (1994) au standard ISO C
(ISO/IEC 9899:1990) qui ajoute un grand nombre de fonctions de
biblioth�que C pour manipuler les jeux de caract�res, mais ne couvre
pas encore C99.
.TP
*
Unicode Technical Reports.
.RS
http://www.unicode.org/unicode/reports/
.RE
.TP
*
Markus Kuhn: UTF-8 and Unicode FAQ for Unix/Linux.
.RS
http://www.cl.cam.ac.uk/~mgk25/unicode.html
Fournit les informations sur la liste de diffusion
.BR linux-utf8 ,
le meilleur endroit pour trouver des conseils sur l'utilisation de l'Unicode
sous Linux
.RE
.TP
*
Bruno Haible: Unicode HOWTO.
.RS
ftp://ftp.ilog.fr/pub/Users/haible/utf8/Unicode-HOWTO.html
.RE
.SH BOGUES
Au moment de la r�daction de cette page, le support libc de Linux
pour les locales
.B UTF-8
�tait m�r, et le support XFree86 �tait avanc�, mais le travail n�cessaire
pour rendre les applications (principalement les �diteurs) compatibles avec
l'UTF-8 �tait en cours. Le support g�n�ral actuel de
.B UCS
sous Linux fournit les caract�res double-largeur CJK, et parfois les
surcharges des caract�res combin�s, mais ne permet pas l'�criture de droite
� gauche ou les ligatures n�cessaires en H�breu, Arabe, ou Indien. Ces
�critures ne sont pour le moment support�es que par certaines applications
graphiques (visualiseur HTML, traitement de texte) avec des moteurs
d'affichage perfectionn�s.
.SH AUTEUR
Markus Kuhn <<mgk25@cl.cam.ac.uk>
.SH "VOIR AUSSI"
.BR utf-8 (7)
.BR charsets (7),
.BR setlocale (3)
.SH TRADUCTION
Christophe Blaess, 1997.