4.7 Los Unicode Estándar y Diversos Informes Técnicos Unicode (UTRs) Publicados por el Consorcio Unicode

Unicode

Unicode − el Conjunto de Caracteres Universal

El estándar internacional ISO 10646 define el conjunto de caracteres UCS (Universal Character Set - Conjunto de Caracteres Universal). UCS contiene todos los caracteres de todos los demás estándares de conjuntos de caracteres. También garantiza una compatibilidad de ida y vuelta (round-trip), es decir, se pueden construir tablas de conversión de tal forma que no se pierda ninguna información cuando una cadena se convierta desde cualquier otra codificación a UCS y viceversa.

UCS contiene los caracteres necesarios para representar prácticamente todos los lenguajes conocidos. Esto incluye no sólo los alfabetos latino, griego, cirílico, árabe, armenio y georgiano sino también chino, japones y la variante Han de los ideogramas coreanos además de alfabetos como Hiragana, Katakana, Hangul, Devanagari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugu, Kannada, Malayalam, Thai, Lao, Khmer, Bopomofo, Tibetan, Runic, Ethiopic, Canadian Syllabics, Cherokee, Mongolian, Ogham, Myanmar, Sinhala, Thaana, Yi y otros. Para aquellos alfabetos aún no cubiertos, todavía se está investigando cómo codificarlos de la mejor manera posible para su uso en computadores y finalmente se añadirán. Al final, esto podría incluir no sólo jeroglíficos y varios lenguajes indo-europeos históricos sino incluso algunos alfabetos artísticos seleccionados como Tengwar, Cirth y Klingon. UCS abarca también un gran número de símbolos gráficos, tipográficos, matemáticos y científicos, que incluyen aquellos provistos por TeX, Postscript, APL, MS-DOS, MS-Windows, Macintosh, fuentes OCR, así como varios sistemas de procesamiento de texto y publicación, sin incluir los que se añaden cada día.

El estándar UCS (ISO 10646) describe una arquitectura del conjunto de caracteres de 31 bits que consiste en 128 grupos de 24 bits, cada uno dividido en 256 planos de 16 bits formados por 256 filas con 256 columnas, una por cada carácter. La primera parte del estándar (ISO 10646-1) define las primeras 65534 posiciones de los códigos (0x0000 a 0xfffd), que forman el BMP (Basic Multilingual Plane - Plano Multilingüe Básico), que es el plano 0 en el grupo 0. La segunda parte del estándar (ISO 10646-2) añade caracteres al grupo 0 fuera del BMP en varios planos adicionales en el rango de 0x10000 a 0x10ffff. No hay intenciones de añadir caracteres al estándar más allá de 0x10ffff, por consiguiente, de todo el espacio de códigos, solamente una pequeña fracción del grupo 0 será usada realmente en un futuro previsible. El BMP contiene todos los caracteres que se encuentran en los otros conjuntos de caracteres usados frecuentemente. Los planos adicionales añadidos por ISO 10646-2 abarcan sólo más caracteres exóticos para necesidades científicas especiales, impresión de diccionarios, industria de la publicación, protocolos de más alto nivel y necesidades entusiastas.

La representación de cada carácter UCS como una palabra de 2 bytes es referida como la forma UCS-2 (sólo para caracteres BMP), mientras que UCS-4 es la representación de cada carácter como una palabra de 4 bytes. Además, existen dos formas de codificación,UTF-8 por compatibilidad hacia atrás con software que maneje ASCII y UTF-16 por compatibilidad hacia atrás con software UCS-2 que maneje caracteres fuera del BMP por debajo de 0x10ffff.

Los caracteres UCS del 0x0000 al 0x007f son idénticos a los del clásico conjunto de caracteres US-ASCII y los caracteres en el rango de 0x0000 a 0x00ff son idénticos a los del conjunto de caracteres ISO 8859-1 Latin-1.

Arriba

« Anterior | Siguiente »