File: charsets.4

package info (click to toggle)
manpages-es 1.24a-6
links: PTS
area: main
in suites: potato
size: 4,256 kB
ctags: 7
sloc: makefile: 66; sh: 62
file content (247 lines) | stat: -rw-r--r-- 11,538 bytes
parent folder | download | duplicates (4)
.\" Copyright (c) 1996 Eric S. Raymond <esr@thyrsus.com>
.\"                and Andries Brouwer <aeb@cwi.nl>
.\"
.\" This is free documentation; you can redistribute it and/or
.\" modify it under the terms of the GNU General Public License as
.\" published by the Free Software Foundation; either version 2 of
.\" the License, or (at your option) any later version.
.\"
.\" This is combined from many sources, including notes by aeb and
.\" research by esr.  Portions derive from a writeup by Ramon Czybora.
.\"
.\" Translated into Spanish on 03 January 1998 by Gerardo Aburruzaga
.\"				  Garca <gerardo.aburruzaga@uca.es>
.\"
.\" Translation revised Sun Aug 16 1998 by Juan Piernas <piernas@ditec.um.es>
.\"
.TH CHARSETS 4 "5 Noviembre 1996" "Linux" "Manual del Programador de Linux"
.SH NOMBRE
charsets \- internacionalizacin y conjuntos de caracteres desde el
punto de vista del programador
.SH DESCRIPCIN
Linux es un sistema operativo internacional. Varias de sus utilidades
y controladores de dispositivos (incluyendo el de la consola) admiten
conjuntos de caracteres multilinges incluyendo letras del alfabeto
latino con marcas diacrticas, acentos, ligaduras, y alfabetos enteros
no latinos incluyendo el griego, cirlico, rabe y hebreo.
.LP
Esta pgina de manual presenta una visin de los estndares de
conjuntos de caracteres desde el punto de vista del programador, y cmo
encajan todos juntos en Linux. Los estndares en discusin incluyen el
ASCII, ISO 8859, KOI8-R, Unicode, ISO 2022 e ISO 4873.

.SH ASCII
ASCII (American Standard Code For Information, Cdigo Estndar
Americano para la Informacin) es el conjunto de caracteres original
de 7 bits, diseado inicialmente para el ingls americano. Actualmente
se describe en el estndar ECMA-6.
.LP
En Gran Bretaa se emplea una variante donde se reemplaza el smbolo
del sostenido o almohadilla o libra peso o nmero (#) por la libra
esterlina britnica; cuando sea preciso, las variantes americanas y
britnicas pueden distinguirse por los nombres "US ASCII" y "UK ASCII".
.\" ... the American crosshatch/octothorpe/hash pound symbol -> #
.LP
Como Linux fue escrito para equipos diseados en los EE.UU., admite US
ASCII de modo nativo.

.SH ISO 8859
ISO 8859 es una serie de conjuntos de caracteres de 8 bits, los
cuales tienen como su primera mitad (7 bits) el US ASCII, caracteres
de control invisibles en las posiciones 128 a 159, y 96 grficos fijos
desde la posicin 160 hasta la 255.
.LP
De stos, el ms importante es el ISO 8859-1 (Latin-1). Es admitido de
modo nativo por el controlador de consola de Linux, muy bien admitido
en X11R6 y es el conjunto de caracteres base de HTML.
.LP
El soporte de consola para los otros conjuntos de caracteres 8859 est
disponible en Linux a travs de utilidades de usuario (como
.BR setfont (8)) 
que modifican las asociaciones de teclas y la tabla de grficos EGA/VGA y
emplean la tabla de tipos de letra de "correspondencia de usuario" en el
controlador de consola.
.LP
Aqu se presentan breves descripciones de cada conjunto:
.TP
8859-1 (Latin-1) 
Latin-1 cubre la mayora de lenguajes de Europa Occidental como el
albans, cataln, dans, neerlands, ingls, feros, fins, francs,
alemn, gallego, galico, islands, italiano, noruego, portugus,
espaol y sueco. La falta de las ligaduras neerlandesa ij, francesa oe
y las comillas antiguas ,,alemanas`` es tolerable. 

.TP
8859-2 (Latin-2)
Latin-2 admite la mayora de las lenguas eslavas y de Centro-Europa que
se escriben con caracteres latinos: checo, alemn, hngaro, polaco,
rumano, croata, eslovaco y esloveno.

.TP
8859-3 (Latin-3)
Latin-3 es popular entre los autores de esperanto, gallego, malts y turco.
.TP
8859-4 (Latin-4)
Latin-4 introdujo letras para el estonio, letn y
lituano. Esencialmente est obsoleto; vea el 8859-10 (Latin-6).
.TP
8859-5 
Letras cirlicas para el blgaro, bielorruso, macedonio, ruso, serbio
y ucraniano. Los ucranianos leen la letra `ghe' con palote como `heh'
y necesitaran una `ghe' con plumada ascendente para escribir una
correcta `ghe'. Vea la discusin sobre el KOI8-R ms abajo.
.TP
8859-6
Para el rabe. La tabla de glifos 8859-6 es un tipo fijo de formas de
letra separadas, pero un mecanismo de visualizacin correcto debera
combinar stas usando las formas iniciales, medias y finales apropiadas.
.TP
8859-7
Admite el griego moderno.
.TP
8859-8
Admite el hebreo.
.TP
8859-9 (Latin-5)
sta es una variante del Latin-1 que reemplaza letras islandesas no
muy usadas con otras turcas.
.TP
8859-10 (Latin-6) 
El Latin 6 aade las ltimas letras del inuit (esquimal de
Groenlandia) y del sami (lapn) que faltaban en el Latin 4 para cubrir
toda el rea nrdica. RFC 1345 listaba un `latin6' preliminar y
diferente. El sami skolt an necesita unos pocos acentos ms que stos.
.SH KOI8-R
El KOI8-R es un conjunto de caracteres no ISO popular en Rusia. La
primera mitad es el US ASCII; la segunda es un conjunto de caracteres
cirlico algo mejor diseado que el ISO 8859-5.
.LP
El soporte de consola para el KOI8-R est disponible en Linux a travs
de utilidades de usuario (como
.BR setfont (8)) 
que modifican las asociaciones de teclas y la tabla de grficos EGA y
emplean la tabla de tipos de letra de "correspondencia de usuario" en el
controlador de consola.

.SH UNICODE
Unicode (ISO 10646) es un estndar cuyo objetivo es representar
inequvocamente cada glifo conocido en cada lenguaje humano. La
codificacin nativa de Unicode es de 32 bits (versiones ms antiguas
empleaban 16). Hay informacin sobre Unicode en el URL 
<http://www.unicode.com>.
.LP
Linux representa Unicode empleando el Formato de Transferencia Unicode
de 8 bits (UTF-8). UTF-8 es una codificacin de Unicode de longitud
variable. Emplea 1 byte para codificar 7 bits, 2 bytes para 11 bits, 3
bytes para 16 bits, 4 bytes para 21 bits, 5 bytes para 26 bits, y 6
bytes para 31 bits.
.LP
Sean 0, 1, x el 0, el 1  un bit arbitrario. Un byte 0xxxxxxx
representa el carcter Unicode 00000000 0xxxxxxx que codifica el mismo
smbolo que el ASCII 0xxxxxxx.  As, ASCII va sin cambio alguno dentro
de UTF-8, y la gente que emplea ASCII no nota ningn cambio: ni en el
cdigo ni en tamaos de fichero.
.LP
Un byte 110xxxxx es el comienzo de un cdigo de 2 bytes, y 110xxxxx 10yyyyyy
se ensambla en 00000xxx xxyyyyyy.  Un byte 1110xxxx es el comienzo de
un cdigo de 3 bytes, y 1110xxxx 10yyyyyy 10zzzzzz se ensambla en
xxxxyyyy yyzzzzzz.  (Cuando se emplea UTF-8 para codificar el ISO
10646 de 31 bits, esta progresin contina hasta cdigos de 6 bytes.)
.LP
Para los usuarios de ISO-8859-1, esto significa que los caracteres con
el ltimo bit a 1 se codifican ahora con dos bytes. Esto tiende a
expandir los ficheros de texto ordinarios en un 1  2%. Sin embargo no
hay problemas de conversin, puesto que los valores Unicode de los
smbolos de ISO-8859-1 igualan a los correspondientes de los de
ISO-8859-1 (extendidos en 8 bits iniciales a 0). Para los usuarios
japoneses esto significa que los cdigos de 16 bits de uso comn
actualmente, necesitarn tres bytes y se requerirn tablas de
correspondencia. Por eso muchos japoneses prefieren el ISO 2022.
.LP
Observe que UTF-8 es auto-sincronizante: 10xxxxxx es una cola, y
cualquier otro byte es la cabeza de un cdigo. Observe que de la nica
manera que los bytes ASCII aparecen en un flujo UTF-8 es como ellos
mismos. En particular, no hay NULs o '/'s incluidos que formen parte de algn
cdigo ms grande. 
.LP
Puesto que ASCII, y, en particular, NUL y '/', permanecen
inalterados, el ncleo no se entera de que se est empleando UTF-8. No
le importa en absoluto para qu son los bytes que est manejando.
.LP
La representacin de los flujos de datos Unicode se maneja normalmente
a travs de tablas de `subtipo' que hacen corresponder un subconjunto
de Unicode a glifos. Internamente el ncleo emplea Unicode para
describir el subtipo de letra cargada en RAM de vdeo. Esto significa
que en el modo UTF-8 uno puede emplear un conjunto de caracteres con
512 smbolos diferentes. Esto no basta para el japons, chino ni
coreano, pero es bastante para la mayora de otros propsitos.

.SH ISO 2022 Y ISO 4873
Los estndares ISO 2022 y 4873 describen un modelo de control de tipo
de letra basado en la VT100. Este modelo es (parcialmente) admitido
por el ncleo de Linux y por
.BR xterm (1).
Es popular en Japn y Corea.
.LP
Hay 4 conjuntos de caracteres grficos, llamados G0, G1, G2 y G3,
y uno de ellos es el conjunto de caracteres actual para los cdigos
con el bit ms alto a 0 (inicialmente G0), y uno de ellos es el
conjunto de caracteres actual para los cdigos con el bit ms alto a 1
(inicialmente G1). Cada conjunto de caracteres grfico tiene 94  96
caracteres, y es esencialmente un conjunto de caracteres de 7
bits. Emplea cdigos bien entre 040-0177 (041-0176) o bien entre
0240-0377 (0241-0376).
G0 siempre tiene de tamao 94  y emplea cdigos en el rango 041-0176.
.LP
El cambio entre los conjuntos de caracteres se realiza empleando las
funciones de cambio
^N (SO o LS1), ^O (SI o LS0), ESC n (LS2), ESC o (LS3),
ESC N (SS2), ESC O (SS3), ESC ~ (LS1R), ESC } (LS2R), ESC | (LS3R).
La funcin LS\fIn\fP hace que el conjunto de caracteres G\fIn\fP sea
el actual para los cdigos con el bit ms alto a 0.
La funcin LS\fIn\fPR hace que el conjunto de caracteres G\fIn\fP sea
el actual para los cdigos con el bit ms alto a 1.
La funcin SS\fIn\fP hace que el conjunto de caracteres G\fIn\fP
(\fIn\fP=2  3) sea el actual para el siguiente carcter solamente
(tenga lo que tenga su bit ms alto).
.LP
Un conjunto de 94 caracteres se designa como el conjunto de caracteres
G\fIn\fP por una secuencia de escape ESC ( xx (para G0), ESC ) xx
(para G1), ESC * xx (para G2), ESC + xx (para G3), donde xx es un
smbolo o un par de smbolos del Registro Internacional de Conjuntos
de Caracteres Codificados ISO 2375.
Por ejemplo, ESC ( @ selecciona el conjunto de caracteres ISO 646 como
el G0, ESC ( A selecciona el conjunto de caracteres estndar de
R.U. (con la libra esterlina en lugar del signo numeral #), ESC ( B
selecciona el ASCII (con el dlar $ en lugar del smbolo monetario ),
ESC ( M selecciona un conjunto de caracteres para lenguas africanas,
ESC ( ! selecciona el conjunto de caracteres cubano, etc. etc. etc.
.LP
Un conjunto de 96 caracteres se designa como el conjunto de caracteres
G\fIn\fP por una secuencia de escape ESC - xx (para G1), ESC . xx
(para G2) o ESC / xx (para G3).
Por ejemplo, ESC - G selecciona el alfabeto hebreo como el G1.
.LP
Un conjunto de caracteres multibyte se designa como el conjunto de
caracteres G\fIn\fP por una secuencia de escape ESC $ xx o ESC $ ( xx
(para G0),
ESC $ ) xx (para G1), ESC $ * xx (para G2), ESC $ + xx (para G3).
Por ejemplo, ESC $ ( C selecciona el conjunto de caracteres coreano
para G0. El conjunto de caracteres japons seleccionado por ESC $ B
tiene una versin ms reciente seleccionada por ESC & @ ESC $ B.
.LP
ISO 4873 estipula un uso ms reducido de conjuntos de caracteres,
donde G0 est fijo (siempre ASCII), de modo que G1, G2 y G3 slo
pueden ser llamados para cdigos con el bit ms alto a 1.
En particular, ^N y ^O ya no se usan ms, ESC ( xx slo puede
emplearse con xx=B y ESC ) xx, ESC * xx, ESC + xx
son equivalentes a ESC - xx, ESC . xx, ESC / xx, respectivamente.

.SH "VASE TAMBIN"
.BR console (4),
.BR console_ioctl (4),
.BR console_codes (4)


\"  LocalWords:  glifos multilinges KOI Unicode Latin HTML feros bielorruso
\"  LocalWords:  serbio ucraniano ucranianos glifo URL UTF UTF ESC ESC