Uni Code

Unicode
Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento informático,

Ejemplos de caracteres
transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas, además de textos Unicode
clásicos de lenguas muertas. El término Unicode proviene de los tres objetivos perseguidos:
universalidad, uniformidad y unicidad.1
Unicode define cada carácter o símbolo mediante un nombre e identificador numérico, el code point
(‘punto de código’). Además incluye otras informaciones para el uso correcto de cada carácter, como
sistema de escritura, categoría, direccionalidad, mayúsculas y otros atributos. Unicode trata los
caracteres alfabéticos, ideográficos y símbolos de forma equivalente, lo que significa que se pueden
2
mezclar en un mismo texto sin utilizar de marcas o caracteres de control.
Carácter alfabético latino
Este estándar es mantenido por el Unicode Technical Committee (UTC), integrado en el Consorcio "A" (U+0041).
Unicode, del que forman parte con distinto grado de implicación empresas como: Microsoft, Apple,
Adobe, IBM, Oracle, SAP, Google, Facebook o Shopify, instituciones como la Universidad de
Berkeley, o el Gobierno de la India y profesionales y académicos a título individual.3 El Unicode
Consortium mantiene estrecha relación con ISO/IEC, con la que mantiene desde 1991 el acuerdo de
4
sincronizar sus estándares que contienen los mismos caracteres y puntos de código.
La creación de Unicode ha sido un ambicioso proyecto para reemplazar los esquemas de codificación
Sílaba devanagari "Aum"
de caracteres ya existentes, muchos de los cuales estaban muy limitados en tamaño y son incompatibles (ॐ) (U+0950).
con entornos plurilingües. Unicode se ha convertido en el más extenso y completo esquema de
codificación de caracteres, siendo el dominante en la internacionalización y adaptación local del
software informático. El estándar ha sido aceptado en un número considerable de tecnologías recientes,
como XML, Java y sistemas operativos modernos.
La descripción completa del estándar y las tablas de caracteres están disponibles en la página web
oficial de Unicode [1]. La referencia completa se publica, además, en forma de libro cada vez que se
completa una nueva versión principal. La versión digital de este libro está disponible de forma gratuita.
Las revisiones y adiciones se publican de forma independiente. Ideograma chino "yue"
(月)(U+6708).
Índice
Alcance del estándar
Relación con otros estándares
Repertorio de caracteres
Tipos de caracteres
Composición de caracteres y secuencias
Repertorio unificado chino, coreano y japonés
Secuencias de descripción ideográfica
Elementos del estándar Unicode

Principios de diseño
Base de datos de caracteres
Planos
Áreas y bloques
Tratamiento de la información
Formas de codificación
Esquemas de codificación
Historia
Véase también
Referencias
Enlaces externos
Alcance del estándar

Unicode incluye todos los caracteres de uso común en la actualidad. La versión 5.1 contenía 100 713 caracteres provenientes de alfabetos,
sistemas ideográficos y colecciones de símbolos (matemáticos, técnicos, musicales, iconos...). La cifra crece con cada versión.
Unicode incluye sistemas de escritura modernos como: árabe, braille, copto, cirílico, griego, sinogramas (hanja coreano, hanzi chino y
kanji japonés), silabarios japoneses (hiragana y katakana), hebreo y latino; escrituras históricas extintas, para propósitos académicos, como
por ejemplo: cuneiforme, griego antiguo, lineal B micénico, fenicio y rúnico. Entre los caracteres no alfabéticos incluidos en Unicode se
encuentran símbolos musicales y matemáticos, fichas de juegos como el dominó, flechas, iconos etc.
Además, Unicode incluye lossignos diacríticos como caracteres independientes que pueden ser combinados con otros caracteres y dispone
de versiones predefinidas de la mayoría de letras con símbolos diacríticos en uso en la actualidad, como las vocales acentuadas del español.
Unicode es un estándar en constante evolución y se agregan nuevos caracteres continuamente. Se han descartado ciertos alfabetos,
propuestos por distintas razones, como por ejemplo el alfabetoklingon.5
Relación con otros estándares

Como ya se ha indicado, Unicode está sincronizado con el estándar ISO/IEC conocido como UCS o juego de caracteres universal. Desde
un punto de vista técnico, incluye o es compatible con codificaciones anteriores como ASCII7 o ISO 8859-1, los estándares nacionales
ANSI Z39.64, KS X 1001, JIS X 0208, JIS X 0212, JIS X 0213, GB 2312, GB 18030, HKSCS, y CNS 11643, codificaciones particulares
de fabricantes de software como Apple, Adobe, Microsoft, IBM, etc. Además, Unicode reserva espacio para fabricantes de software que
pueden crear extensiones para su propio uso.6
Repertorio de caracteres
El elemento básico del estándar Unicode es el carácter. Se considera un carácter al elemento más pequeño de un sistema de escritura
con significado. El estándar Unicode codifica los caracteres esenciales ―grafemas― definiéndolos de forma abstracta y deja la
representación visual (tamaño, dimensión, fuente o estilo) al software que lo trate, como procesadores de texto o navegadores web. Se
incluyen letras, signos diacríticos, caracteres de puntuación, ideogramas, caracteres silábicos, caracteres de control y otros símbolos. Los
caracteres se agrupan en alfabetos o sistemas de escritura. Se considera que son diferentes los caracteres de alfabetos distintos, aunque
compartan forma y significación.
Los caracteres se identifican mediante un número o punto de código y su nombre o descripción. Cuando se ha asignado un código a un
carácter, se dice que dicho carácter está codificado. El espacio para códigos tiene 114
1 112 posiciones posibles (0x10FFFF). Los puntos de
código se representan utilizando notación hexadecimal agregando el prefijo U+. El valor hexadecimal se completa con ceros hasta 4 dígitos
hexadecimales cuando es necesario; si es de longitud mayor que 4 dígitos no se agregan ceros.
Tipos de caracteres
7
Los bloques del espacio de códigos contienen puntos con la siguiente información:
Caracteres gráficos: letras, signos diacríticos, cifras, caracteres de puntuación, símbolos y espacios.
Caracteres de formato: caracteres invisibles que afectan al proceso del texto próximo. Ejemplos: U+2028 salto de línea,
U+2029 salto de párrafo, U+00A0 espacio duro, etc.
Códigos de control: 65 códigos definidos por compatibilidad con ISO/IEC 2022. Son los caracteres entre en los rangos
[U+0000,U+001F], U+007F y [U+0080..U+009F]. Interpretarlos es responsabilidad de protocolos superiores.
Caracteres privados: reservados para el uso fuera del estándar por fabricantes de software.
Caracteres reservados: códigos reservados para su uso por Unicode. Son posiciones no asignadas.
Puntos de código subrogados: Unicode reserva los
puntos de código de U+D800 a U+DFFF para su uso
como códigos subrogados en UTF-16, en la
representación de caracteres suplementarios.
No caracteres: son códigos reservados
permanentemente para uso interno por Unicode. Los
dos últimos puntos de cada plano U+FFFE y U+FFFF .
Caracteres descartados: son caracteres que se
retienen por compatibilidad con versiones anteriores, Distintas versiones del carácterangstrom, como carácter
pero se debe evitar su uso. (versión preferida), como carácter con signo diacrítico y
como símbolo con forma de letra.
Composición de caracteres y secuencias

Unicode incluye un mecanismo para formar caracteres y así extender el repertorio
de compatibilidad con los símbolos existentes. Un carácter base se complementa con
marcas: signos diacríticos, de puntuación o marcos. El tipo de cada carácter y sus
atributos definen el papel que pueden jugar en una combinación. Por este motivo,
puede haber varias opciones que representen el mismo carácter. Para facilitar la
Composición del carácter "ñ". La primera
compatibilidad con codificaciones anteriores, se proporcionan caracteres es un carácter independiente, la segunda
precompuestos; en la definición de dichos caracteres se hace constar qué caracteres una n más una virgulilla (en inglés
intervienen en la composición. conocida como tilde) combinable.
Un grupo de caracteres consecutivos, independientemente de su tipo, forma una

secuencia. En caso de que varias secuencias representen el mismo conjunto de caracteres esenciales, el estándar no define una de ellas
como 'correcta', sino que las considera equivalentes. Para poder identificar dichas equivalencias, Unicode define los mecanismos de
equivalencia canónicay de equivalencia de compatibilidadbasados en la obtención de formas normalizadas de las cadenas a comparar
.
Repertorio unificado chino, coreano y japonés

En el estándar Unicode, los ideogramas de Asia oriental (popularmente llamados «caracteres chinos») se denominan «ideogramas han».
Estos ideogramas se desarrollaron en China y fueron adaptados por culturas próximas para su propio uso.8 9 Japón, Corea y Vietnam
desarrollaron sus propios sistemas alfabéticos o silábicos para usar en combinación con los símbolos chinos: hiragana y katakana (en
Japón), hangul (en Corea) y yi (en Vietnam). La evolución natural de los sistemas de escritura y los distintos momentos de entrada de los
caracteres en las distintas culturas han marcado diferencias en los ideogramas utilizados. Unicode considera las distintas versiones de los
ideogramas como variantes de un mismo carácter abstracto, es decir, como resultado de la aplicación de un tipo de letra diferente en cada
caso y considera las variantes nacionales como pertenecientes a un mismo sistema de escritura. La versión original del estándar se
desarrolló a partir de los estándares industriales existentes en los países afectados.
El organismo encargado de desarrollar el repertorio de caracteres es el Ideographic Rapporteur Group (IRG). IRG es un grupo de trabajo
integrado en ISO/IEC JTC1/SC2/WG2, incluyendo aChina, Hong Kong, Macao, Taipei Computer Association, Singapur, Japón, Corea del
Sur, Corea del Norte, Vietnam y Estados Unidos de América.8
La base de datos de caracteres CJK se denomina Unihan y contiene, además, información auxiliar sobre significado, conversiones, datos
necesarios para utilizarlos en los diferentes lenguajes que los utilizan. A continuación se muestran los bloques que describen este
repertorio. IRG define los caracteres de los siete grupos unificados, los siguientes dos grupos contienen caracteres para compatibilidad con
estándares anteriores.
Rango de
Bloque Comentarios
códigos
Ideogramas unificados CJK 4E00-9FFF Ideogramas de uso común. Tamaño de código: 2 bytes.
Ideogramas unificados CJK -
3400-4DFF Ideogramas de uso poco habitual. T
amaño de código: 2 bytes.
Extensión A
20000-2A6DF Ideogramas de uso poco habitual e históricos.
Extensión B
2A700-2B73F Ideogramas de uso poco habitual e históricos.
Extensión C
2B740-2B81F Ideogramas de uso poco habitual e históricos.
Extensión D
2B820-2CEAF Ideogramas de uso poco habitual e históricos.
Extensión E
Ideogramas unificados CJK - 2CEB0-
Ideogramas de uso poco habitual e históricos.
Extensión F 2EBEF
Duplicados, variantes unificables y caracteres corporativos.
Ideogramas de compatibilidad F900-FAFF
Tamaño de código: 2 bytes.
Suplemento de ideogramas de
2F800-2FA1F Variantes unificables.
compatibilidad
Secuencias de descripción ideográfica

Se admite que nunca se podrá finalizar la tarea de incluir ideogramas en el estándar debido, principalmente, a que la creación de nuevos
ideogramas continúa. A fin de suplir eventuales carencias, Unicode ofrece un mecanismo que permite la representación de los símbolos
que faltan denominado «secuencias de descripción ideográfica». Se basa en que en la práctica, la totalidad de los ideogramas se puede
descomponer en piezas más pequeñas que, a su vez, son ideogramas. Aunque sea posible la representación de un símbolo mediante una
secuencia, el estándar especifica que siempre que exista una versión codificada su uso debe ser preferente. No hay un método para la
«descomposición canónica» de ideogramas ni algoritmos de equivalencia por lo que las operaciones sobre el texto, como búsqueda u
ordenación, pueden fallar.
Unicode define 12 caracteres de control para la descripción de ideogramas representando distintas posibilidades de combinación espacial
de otros caracteres han.
Elementos del estándar Unicode
Principios de diseño
El estándar fue diseñado con los siguientes objetivos:
Universalidad: Un repertorio suficientemente amplio que albergue a todos los caracteres probables en el intercambio de
texto multlingüe.
Eficiencia: Las secuencias generadas deben ser fáciles de tratar
.
No ambigüedad: Un código dado siempre representa el mismo carácter .
Base de datos de caracteres

El conjunto de caracteres codificados por Unicode, es la UCD (unicode character database: base de datos de caracteres Unicode). Además
de nombre y punto de código, incluye más información: alfabeto al que pertenece, nombre, clasificación, mayúsculas, orientación y otras
formas de uso, variantes estandarizadas, reglas de combinación, etc.
Formalmente la base de datos se divide en planos y estos a su vez en áreas y bloques. Con excepciones, los caracteres codificados se
agrupan en el espacio de códigos siguiendo categorías como alfabeto o sistema de escritura, de forma que caracteres relacionados se
encuentren cerca en tablas de codificación.
Planos
Por conveniencia se ha dividido el espacio de códigos en grandes grupos denominados planos. Cada plano contiene un máximo de
65 535 caracteres. Dado un punto de código expresado en hexadecimal, los 4 últimos dígitos determinan la posición del carácter en el
plano.
Plano básico multilingüe: BMP o plano 0. Contiene la mayor parte de los alfabetos modernos, incluyendo los caracteres
más comunes del sistema CJK, otros caracteres históricos o poco habituales y 64 reservadas para uso privado.
Plano suplementario multilingüe: SMP o plano 1. Alfabetos históricos de menor uso y sistemas de uso técnico u otros
usos.
Plano suplementario ideográfico: SIP o plano 2. Contiene los caracteres del sistema CJK que no se incluyen en el
plano 0. La mayoría son caracteres muy raros o de interés histórico.
Plano de propósito especial: SSP o plano 14. Área para caracteres de control que no se han introducido en el plano 0.
Planos de uso privado: planos 15 y 16. Reservados para uso privado por fabricantes de software.
Áreas y bloques
Los distintos planos se dividen en áreas de direccionamiento en función de los tipos generales que incluyen. Esta división es convencional,
no reglada y puede variar con el tiempo. Las áreas se dividen, a su vez, en bloques. Los bloques están definidos normativamente y son
rangos consecutivos del espacio de códigos. Los bloques se utilizan para formar las tablas impresas de caracteres pero no deben tomarse
como definiciones de grupos significativos de caracteres.
Tratamiento de la información
Formas de codificación
Los puntos de código de Unicode se identifican por un número entero. Según su arquitectura, un ordenador utilizará unidades de 8,
16 o 32 bits para representar dichos enteros. Las formas de codificación de Unicode reglamentan la forma en que los puntos de código se
transformarán en unidades tratables por el computador
.
10
Unicode define tres formas de codificación bajo el nombreUTF (Unicode transformation format: formato de transformación Unicode):
UTF-8: codificación orientada a byte con símbolos de longitud variable.

UTF-16: codificación de 16 bits de longitud variable optimizada para la representación del plano básico multilingüe
(BMP).
UTF-32: codificación de 32 bits de longitud fija, y la más sencilla de las tres.
Las formas de codificaciónse limitan a describir el modo en que se representan los puntos de código en formato inteligible por la máquina.
A partir de las 3 formas identificadas se definen 7 esquemas de codificación.
Esquemas de codificación
Los esquemas de codificación tratan de la forma en que se serializa la información codificada.10 La seguridad en los intercambios de
información entre sistemas heterogéneos requiere la implementación de sistemas que permitan determinar el orden correcto de los bits y
bytes y garantizar que la reconstrucción de la información es correcta. Una diferencia fundamental entre procesadores es el orden de
disposición de los bytes en palabras de 16 y 32 bits, lo que se denomina endianness. Los esquemas de codificación deben garantizar que
los extremos de una comunicación saben cómo interpretar la información recibida. A partir de las 3 formas de codificación se definen
7 esquemas. A pesar de que comparten nombres, no debe confundirse esquemas y formas de codificación.
Esquema de codificación Endianness Admite BOM
UTF-8 No aplicable Sí
UTF-16 Big-endian o Little-endian Sí
UTF-16BE Big-endian No
UTF-16LE Little-endian No
UTF-32 Big-endian o Little-endian Sí
UTF-32BE Big-endian No
UTF-32LE Little-endian No
Unicode define una marca especial, la marca de orden de bytes (BOM, Byte Order Mark), al inicio de un fichero o una comunicación para
hacer explícita la ordenación de bytes. Cuando un protocolo superior especifica el orden de bytes, la marca no es necesaria y puede
omitirse dando lugar a los esquemas de la lista anterior con sufijo BE o LE. En los esquemas UTF-16 y UTF-32, que admiten BOM, si este
no se especifica se asume que la ordenación de bytes esbig-endian.
La unidad de codificación en UTF-8 es el byte por lo que no necesita una indicación de orden de byte. El estándar ni requiere ni
recomienda la utilización de BOM, pero lo admite como marca de que el texto es Unicode o como resultado de la conversión de otros
esquemas.
Historia
El proyecto Unicode se inició a finales de 1987, tras conversaciones entre Joe Becker, Lee Collins y Mark Davis (ingenieros de las
empresas Apple y Xerox).11 Como resultado de su colaboración, en agosto de 1988 se publicó el primer borrador de Unicode bajo el
nombre de Unicode88.12 En esta primera versión se consideraba que sólo se codificarían los caracteres necesarios para el uso moderno,
por lo que se utilizaron códigos de 16 bits.
Durante el año 1989 se sumaron colaboradores de otras compañías como Microsoft o Sun Microsystems. El 3 de febrero de 1991 se formó
el Consorcio Unicode, y en octubre de 1991 se publicó la primera versión del estándar. La segunda versión, que ya incluía la escritura
ideográfica han se publicó en junio de 1992. A continuación se muestra una tabla con las distintas versiones del Estándar Unicode con sus
adiciones o modificaciones más importantes.
Edición ISO/IEC 10646 Caracteres
Versión Fecha Publicación Escrituras
asociada # Adiciones notables
El repertorio inicial cubre
los alfabetos: árabe,
armenio, bengalí,
bopomofo, cirílico,
ISBN 0-201- devanagari, georgiano,
octubre de
1.0 56788-1 24 7161 griego/copto, guyaratí,
1991
(Vol.1). gurmukhi, hangul, hebreo,
hiragana, kannada,
katakana, lao, latino,
malayalam, oriya, támil,
télugu, thai, y tibetano.13
ISBN 0-201- Definido el primer conjunto

junio de
1.0.1 60845-6 25 28 359 de 20 902 ideogramas CJK
1992
(Vol.2). unificados.13
Se agregan 4306
caracteres hangul, más al
junio de
1.1 ISO/IEC 10646-1:1993 24 34 233 conjunto original de 2350.
1993
Se elimina el alfabeto
tibetano.13
Eliminado el conjunto
original de caracteres
hangul; se agrega un
nuevo conjunto de
11 172 caracteres hangul
en una nueva ubicación.
Se reincorpora el alfabeto
julio de ISBN 0-201- ISO/IEC 10646-1:1993 con
2.0 25 38 950 tibetano en una nueva
1996 48345-9 enmiendas 5, 6 y 7
ubicación y con un juego
de caracteres diferente. Se
define el sistema de
códigos subrogados y se
crean los planos 15 y 16 de
caracteres para uso
privado.13
ISO/IEC 10646-1:1993 con
mayo de enmiendas 5, 6 y 7, y dos Se agrega el símbolo del
2.1 25 38 952
1998 caracteres de la enmienda euro.13
18
Ideogramas cheroqui.
Escrituras etíope, jemer,
mongol, Myanmar, ogham,
septiembre ISBN 0-201- alfabeto rúnico, cingalés,
3.0 ISO/IEC 10646-1:2000 38 49 259
de 1999 61633-5 siríaco, thaana, silabario
unificado de los indígenas
canadienses, y yi además
de los patrones braille.13
Se agregan los alfabetos
deseret, gótico y etrusco, y
ISO/IEC 10646-1:2000 los símbolos de notación
marzo de
3.1 ISO/IEC 10646-2:2001 41 94 205 musical moderna, música
2001
bizantina, y
42 711 ideogramas de CJK
unificado.14
ISO/IEC 10646-1:2000 con
la enmienda 1 Agregadas las escrituras
marzo de
3.2 45 95 221 filipinas: buhid, hanunó'o,
2002 ISO/IEC 10646-2:2001 tagalo, y tagbanwa.14
4.0 abril de ISBN 0-321- ISO/IEC 10646:2003 52 96 447 Se agrega el silabario

2003 18578-1 chipriota, limbu, lineal B,
osmanya, shaviano, tai le,
y ugarítico, y los
hexagramas I Ching.14
Agregados buginés,
glagolítico, kharoshthi, new
tai lue, persa antiguo, syloti
marzo de ISO/IEC 10646:2003 con nagri, y nifinagh. Se separa
4.1 59 97 720
2005 enmienda 1 el copto del alfabeto griego.
Símbolos griegos antiguos
para música y
numeración.14
ISO/IEC 10646:2003 con Agregados: balinés,
julio de ISBN 0-321- enmiendas 1 y 2 y cuatro cuneiforme, n'ko (mandé),
5.0 64 99 089
2006 48091-0 caracteres de la
phags-pa, y fenicio.14
enmienda 3
Agregados: escritura caria,
cham, kayah li, escritura
lepcha, alfabeto licio,
alfabeto lidio, alfabeto ol
chiki, rejang, saurashtra,
sundanés, y el silabario vai.
Los jeroglíficos del disco de
abril de ISO/IEC 10646:2003 más Festos, fichas de mahjong
5.1 75 100 713
2008 enmiendas 1, 2, 3 y 4 y de dominó. Adiciones
importantes para el
birmano, letras y
abreviaturas de
amanuense utilizadas en
manuscritos medievales y
la adición de la ß
mayúscula.15
Agregados: bamúm,
javanés, lisu, meetei
mayek, samaritano, tai
tham, y tai viet. Se ha
ampliado el devanagari con
la adición del alfabeto
sánscrito. Ampliaciones
importantes para abjasio, el
ISBN 978-1- silabario unificado de los
octubre de ISO/IEC 10646:2003 más
5.2 936213-00- 90 107 361 indígenas canadienses,
2009 enmiendas de 1 a 6
9 copto, khamti shan,
malayo, myanmar. También
se agregan símbolos y
caracteres históricos como
los jeroglíficos egipcios de
Gardiner, arameo imperial,
avéstico, kaithi, antiguo
árabe del Sur y turco
antiguo.16
6.0 octubre de ISBN 978-1- ISO/IEC 10646:2011 93 109 449
La versión 6.0 es la
2010 936213-01-
6 primera versión principal
del estándar publicada
exclusivamente en soporte
electrónico. Agregados
mandeo, batak y brahmi,
ampliaciones de lenguajes
africanos como tifinagh,
etíope y bamúm. Otras
adiciones importantes son:
222 ideogramas CJK,
1000 símbolos incluyendo
los pictogramas emoji, el
nuevo símbolo oficial para
la rupia y símbolos
alquímicos además de
ampliaciones de los
atributos de los caracteres
y otras modificaciones
normativas y
algorítmicas.17
Incluye extensiones de
varios alfabetos existentes;
son significativas las
adiciones al alfabeto árabe
ISBN 978-1- que incluyen 143 símbolos
6.1 2012 936213-02- ISO/IEC 10646:2012 110 116 matemáticos alfabéticos, y
3 los alfabetos Pollard Miao,
Sorang Sompeng, escritura
meroítica, Chakma,
Alfabeto sharada y 13
emoticonos.
ISBN 978-1- Publicación especial para
ISO/IEC 10646:2012 más
6.2 2012 936213-07- 110 117 la introducción de la Lira
símbolo de la lira turca.
8 turca
Revisión del algoritmo de
texto bidireccional con la
adición de 5 caracteres
especiales. El nuevo
ISBN 978-1-
ISO/IEC 10646:2012 con algoritmo bidireccional
6.3 2013 936213-08- 110 122
adiciones mejora la representación
5
conjunta de textos de
diferentes fuentes
respetando el orden
correcto de los caracteres.
ISBN 978-1-
SO/IEC 10646:2012 con Agrega 23 nuevos
7.0 2014 936213-09- 112 956
adiciones y signo del rublo sistemas de escritura.
2
ISBN 978-1-
8.0 2015 936213-10-
8
ISBN 978-1-
9.0 2016 936213-13-
9
Entre otros se agrega el
símbolo de Bitcoin, 56
caracteres emoji y los
ISBN 978-1-
sistemas de escritura:
10.0 2017 936213-16- 139 136 690
Masaram Gondi, Nü Shu,
0
Soyombo y la escritura
mongola cuadrada de
Zanabazar
Véase también
Sistema de escritura
Historia de la escritura
Referencias
1. «Resumen histórico» (http://www.unicode.org/history/summary.html). Unicode, Inc. Consultado el 21 de mayo de 2009.
2. «About the Unicode Standard» (http://www.unicode.org/standard/standard.html). Unicode, Inc. Consultado el 21 de mayo
de 2009.
3. «The Unicode Consortium Members» (http://unicode.org/consortium/memblogo.html) . Unicode, Inc. Consultado el 15 de
mayo de 2012.
4. The Unicode Consortium (octubre de 2006). «Appendix C. Relationship to ISO/IEC10646» (http://www.unicode.org/versio
ns/Unicode5.0.0/appC.pdf). En Julie D. Allen, Joe Becker (et al.). Unicode 5.0 standard (en inglés). Addisson-Wesley.
ISBN 0-321-48091-0.
5. «Archive of Notices of Non-Approval» (http://unicode.org/alloc/nonapprovals.html). Unicode, Inc. Consultado el 21 de
mayo de 2009.
6. The Unicode Consortium (octubre de 2006). Julie D. Allen, Joe Becker (et al.), ed. Unicode 5.9 standard (http://www.unico
de.org/versions/Unicode5.0.0/bookmarks.html)(en inglés). Addisson-Wesley. ISBN 0-321-48091-0.
7. The Unicode Consortium (octubre de 2006). «16. Special Areas and Format Characters» (http://www.unicode.org/version
s/Unicode5.0.0//ch16.pdf). En Julie D. Allen, Joe Becker (et al.). Unicode 5.0 standard (en inglés). Addisson-Wesley.
ISBN 0-321-48091-0.
8. «On the Encoding of Latin, Greek, Cyrillic, and Han»(http://www.unicode.org/notes/tn26/).
9. «12. East Asian Scripts»(http://www.unicode.org/versions/Unicode5.0.0/ch12.pdf). Unicode 5.0 Standard.
10. The Unicode Consortium (octubre de 2006).«2.5 Encoding Forms»(http://www.unicode.org/versions/Unicode5.0.0/ch02.p
df). En Julie D. Allen, Joe Becker (et al.). Unicode 5.0 standard (http://www.unicode.org/versions/Unicode5.0.0/bookmark
s.html) (en inglés). Addisson-Wesley. ISBN 0-321-48091-0.
11. «Chronology of Unicode Version 1.0» (http://www.unicode.org/history/versionone.html).
12. Becker, Joseph D. (10 de septiembre). Unicode 88 (http://www.unicode.org/history/unicode88.pdf) (en inglés). Unicode
Consortium. p. 10. Consultado el 29 de mayo de 2009.
13. The Unicode Consortium, Joan Aliprand, et al. (enero de 2000). «Appendix D. Changes from Unicode Version 2.0» (http://
unicode.org/book/appD.pdf). The Unicode Standard. Version 3.0 standard (en inglés). Addisson-Wesley. ISBN 0-201-61633-
5.
14. The Unicode Consortium (octubre de 2006). «Appendix D. Changes from previous versions» (http://www.unicode.org/vers
ions/Unicode5.0.0/appD.pdf). En Julie D. Allen, Joe Becker (et al.). Unicode 5.0 standard (en inglés). Addisson-Wesley.
ISBN 0-321-48091-0.
15. Archivo de datos de Unicode 5.1(http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt)
16. Unicode 5.2.0 (http://www.unicode.org/versions/Unicode5.2.0/)
17. Unicode 6.0.0 (http://www.unicode.org/versions/Unicode6.0.0/)
Enlaces externos
Unicode Consortium, en el sitio web Unicode.org.
Historia de la unificación han, en el sitio web Unicode.org.
Catálogo de sistemas de escritura y hojas de caracteres , en el sitio web Unicode.org.
Obtenido de «https://es.wikipedia.org/w/index.php?title=Unicode&oldid=105664877
»
Se editó esta página por última vez el 18 feb 2018 a las 14:37.
El texto está disponible bajo laLicencia Creative Commons Atribución Compartir Igual 3.0 ; pueden aplicarse cláusulas
adicionales. Al usar este sitio, usted acepta nuestrostérminos de uso y nuestra política de privacidad.
Wikipedia® es una marca registrada de laFundación Wikimedia, Inc., una organización sin ánimo de lucro.

Uni Code

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Uni Code

Caricato da

Copyright:

Formati disponibili

Unicode

Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento informático,

Elementos del estándar Unicode

Alcance del estándar

Relación con otros estándares

Composición de caracteres y secuencias

Un grupo de caracteres consecutivos, independientemente de su tipo, forma una

Repertorio unificado chino, coreano y japonés

Secuencias de descripción ideográfica

Elementos del estándar Unicode

Base de datos de caracteres

UTF-8: codificación orientada a byte con símbolos de longitud variable.

ISBN 0-201- Definido el primer conjunto

4.0 abril de ISBN 0-321- ISO/IEC 10646:2003 52 96 447 Se agrega el silabario

Potrebbero piacerti anche