Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Unicode define cada carácter o símbolo mediante un nombre e identificador numérico, el code point
(‘punto de código’). Además incluye otras informaciones para el uso correcto de cada carácter, como
sistema de escritura, categoría, direccionalidad, mayúsculas y otros atributos. Unicode trata los
caracteres alfabéticos, ideográficos y símbolos de forma equivalente, lo que significa que se pueden
2
mezclar en un mismo texto sin utilizar de marcas o caracteres de control.
Carácter alfabético latino
Este estándar es mantenido por el Unicode Technical Committee (UTC), integrado en el Consorcio "A" (U+0041).
Unicode, del que forman parte con distinto grado de implicación empresas como: Microsoft, Apple,
Adobe, IBM, Oracle, SAP, Google, Facebook o Shopify, instituciones como la Universidad de
Berkeley, o el Gobierno de la India y profesionales y académicos a título individual.3 El Unicode
Consortium mantiene estrecha relación con ISO/IEC, con la que mantiene desde 1991 el acuerdo de
4
sincronizar sus estándares que contienen los mismos caracteres y puntos de código.
La creación de Unicode ha sido un ambicioso proyecto para reemplazar los esquemas de codificación
Sílaba devanagari "Aum"
de caracteres ya existentes, muchos de los cuales estaban muy limitados en tamaño y son incompatibles (ॐ) (U+0950).
con entornos plurilingües. Unicode se ha convertido en el más extenso y completo esquema de
codificación de caracteres, siendo el dominante en la internacionalización y adaptación local del
software informático. El estándar ha sido aceptado en un número considerable de tecnologías recientes,
como XML, Java y sistemas operativos modernos.
La descripción completa del estándar y las tablas de caracteres están disponibles en la página web
oficial de Unicode [1]. La referencia completa se publica, además, en forma de libro cada vez que se
completa una nueva versión principal. La versión digital de este libro está disponible de forma gratuita.
Las revisiones y adiciones se publican de forma independiente. Ideograma chino "yue"
(月)(U+6708).
Índice
Alcance del estándar
Relación con otros estándares
Repertorio de caracteres
Tipos de caracteres
Composición de caracteres y secuencias
Repertorio unificado chino, coreano y japonés
Secuencias de descripción ideográfica
Tratamiento de la información
Formas de codificación
Esquemas de codificación
Historia
Véase también
Referencias
Enlaces externos
Unicode incluye sistemas de escritura modernos como: árabe, braille, copto, cirílico, griego, sinogramas (hanja coreano, hanzi chino y
kanji japonés), silabarios japoneses (hiragana y katakana), hebreo y latino; escrituras históricas extintas, para propósitos académicos, como
por ejemplo: cuneiforme, griego antiguo, lineal B micénico, fenicio y rúnico. Entre los caracteres no alfabéticos incluidos en Unicode se
encuentran símbolos musicales y matemáticos, fichas de juegos como el dominó, flechas, iconos etc.
Además, Unicode incluye lossignos diacríticos como caracteres independientes que pueden ser combinados con otros caracteres y dispone
de versiones predefinidas de la mayoría de letras con símbolos diacríticos en uso en la actualidad, como las vocales acentuadas del español.
Unicode es un estándar en constante evolución y se agregan nuevos caracteres continuamente. Se han descartado ciertos alfabetos,
propuestos por distintas razones, como por ejemplo el alfabetoklingon.5
Repertorio de caracteres
El elemento básico del estándar Unicode es el carácter. Se considera un carácter al elemento más pequeño de un sistema de escritura
con significado. El estándar Unicode codifica los caracteres esenciales ―grafemas― definiéndolos de forma abstracta y deja la
representación visual (tamaño, dimensión, fuente o estilo) al software que lo trate, como procesadores de texto o navegadores web. Se
incluyen letras, signos diacríticos, caracteres de puntuación, ideogramas, caracteres silábicos, caracteres de control y otros símbolos. Los
caracteres se agrupan en alfabetos o sistemas de escritura. Se considera que son diferentes los caracteres de alfabetos distintos, aunque
compartan forma y significación.
Los caracteres se identifican mediante un número o punto de código y su nombre o descripción. Cuando se ha asignado un código a un
carácter, se dice que dicho carácter está codificado. El espacio para códigos tiene 114
1 112 posiciones posibles (0x10FFFF). Los puntos de
código se representan utilizando notación hexadecimal agregando el prefijo U+. El valor hexadecimal se completa con ceros hasta 4 dígitos
hexadecimales cuando es necesario; si es de longitud mayor que 4 dígitos no se agregan ceros.
Tipos de caracteres
7
Los bloques del espacio de códigos contienen puntos con la siguiente información:
Caracteres gráficos: letras, signos diacríticos, cifras, caracteres de puntuación, símbolos y espacios.
Caracteres de formato: caracteres invisibles que afectan al proceso del texto próximo. Ejemplos: U+2028 salto de línea,
U+2029 salto de párrafo, U+00A0 espacio duro, etc.
Códigos de control: 65 códigos definidos por compatibilidad con ISO/IEC 2022. Son los caracteres entre en los rangos
[U+0000,U+001F], U+007F y [U+0080..U+009F]. Interpretarlos es responsabilidad de protocolos superiores.
Caracteres privados: reservados para el uso fuera del estándar por fabricantes de software.
Caracteres reservados: códigos reservados para su uso por Unicode. Son posiciones no asignadas.
Puntos de código subrogados: Unicode reserva los
puntos de código de U+D800 a U+DFFF para su uso
como códigos subrogados en UTF-16, en la
representación de caracteres suplementarios.
No caracteres: son códigos reservados
permanentemente para uso interno por Unicode. Los
dos últimos puntos de cada plano U+FFFE y U+FFFF .
Caracteres descartados: son caracteres que se
retienen por compatibilidad con versiones anteriores, Distintas versiones del carácterangstrom, como carácter
pero se debe evitar su uso. (versión preferida), como carácter con signo diacrítico y
como símbolo con forma de letra.
El organismo encargado de desarrollar el repertorio de caracteres es el Ideographic Rapporteur Group (IRG). IRG es un grupo de trabajo
integrado en ISO/IEC JTC1/SC2/WG2, incluyendo aChina, Hong Kong, Macao, Taipei Computer Association, Singapur, Japón, Corea del
Sur, Corea del Norte, Vietnam y Estados Unidos de América.8
La base de datos de caracteres CJK se denomina Unihan y contiene, además, información auxiliar sobre significado, conversiones, datos
necesarios para utilizarlos en los diferentes lenguajes que los utilizan. A continuación se muestran los bloques que describen este
repertorio. IRG define los caracteres de los siete grupos unificados, los siguientes dos grupos contienen caracteres para compatibilidad con
estándares anteriores.
Rango de
Bloque Comentarios
códigos
Ideogramas unificados CJK 4E00-9FFF Ideogramas de uso común. Tamaño de código: 2 bytes.
Ideogramas unificados CJK -
3400-4DFF Ideogramas de uso poco habitual. T
amaño de código: 2 bytes.
Extensión A
Ideogramas unificados CJK -
20000-2A6DF Ideogramas de uso poco habitual e históricos.
Extensión B
Ideogramas unificados CJK -
2A700-2B73F Ideogramas de uso poco habitual e históricos.
Extensión C
Ideogramas unificados CJK -
2B740-2B81F Ideogramas de uso poco habitual e históricos.
Extensión D
Ideogramas unificados CJK -
2B820-2CEAF Ideogramas de uso poco habitual e históricos.
Extensión E
Ideogramas unificados CJK - 2CEB0-
Ideogramas de uso poco habitual e históricos.
Extensión F 2EBEF
Duplicados, variantes unificables y caracteres corporativos.
Ideogramas de compatibilidad F900-FAFF
Tamaño de código: 2 bytes.
Suplemento de ideogramas de
2F800-2FA1F Variantes unificables.
compatibilidad
Unicode define 12 caracteres de control para la descripción de ideogramas representando distintas posibilidades de combinación espacial
de otros caracteres han.
Principios de diseño
El estándar fue diseñado con los siguientes objetivos:
Universalidad: Un repertorio suficientemente amplio que albergue a todos los caracteres probables en el intercambio de
texto multlingüe.
Eficiencia: Las secuencias generadas deben ser fáciles de tratar
.
No ambigüedad: Un código dado siempre representa el mismo carácter .
Formalmente la base de datos se divide en planos y estos a su vez en áreas y bloques. Con excepciones, los caracteres codificados se
agrupan en el espacio de códigos siguiendo categorías como alfabeto o sistema de escritura, de forma que caracteres relacionados se
encuentren cerca en tablas de codificación.
Planos
Por conveniencia se ha dividido el espacio de códigos en grandes grupos denominados planos. Cada plano contiene un máximo de
65 535 caracteres. Dado un punto de código expresado en hexadecimal, los 4 últimos dígitos determinan la posición del carácter en el
plano.
Plano básico multilingüe: BMP o plano 0. Contiene la mayor parte de los alfabetos modernos, incluyendo los caracteres
más comunes del sistema CJK, otros caracteres históricos o poco habituales y 64 reservadas para uso privado.
Plano suplementario multilingüe: SMP o plano 1. Alfabetos históricos de menor uso y sistemas de uso técnico u otros
usos.
Plano suplementario ideográfico: SIP o plano 2. Contiene los caracteres del sistema CJK que no se incluyen en el
plano 0. La mayoría son caracteres muy raros o de interés histórico.
Plano de propósito especial: SSP o plano 14. Área para caracteres de control que no se han introducido en el plano 0.
Planos de uso privado: planos 15 y 16. Reservados para uso privado por fabricantes de software.
Áreas y bloques
Los distintos planos se dividen en áreas de direccionamiento en función de los tipos generales que incluyen. Esta división es convencional,
no reglada y puede variar con el tiempo. Las áreas se dividen, a su vez, en bloques. Los bloques están definidos normativamente y son
rangos consecutivos del espacio de códigos. Los bloques se utilizan para formar las tablas impresas de caracteres pero no deben tomarse
como definiciones de grupos significativos de caracteres.
Tratamiento de la información
Formas de codificación
Los puntos de código de Unicode se identifican por un número entero. Según su arquitectura, un ordenador utilizará unidades de 8,
16 o 32 bits para representar dichos enteros. Las formas de codificación de Unicode reglamentan la forma en que los puntos de código se
transformarán en unidades tratables por el computador
.
10
Unicode define tres formas de codificación bajo el nombreUTF (Unicode transformation format: formato de transformación Unicode):
Esquemas de codificación
Los esquemas de codificación tratan de la forma en que se serializa la información codificada.10 La seguridad en los intercambios de
información entre sistemas heterogéneos requiere la implementación de sistemas que permitan determinar el orden correcto de los bits y
bytes y garantizar que la reconstrucción de la información es correcta. Una diferencia fundamental entre procesadores es el orden de
disposición de los bytes en palabras de 16 y 32 bits, lo que se denomina endianness. Los esquemas de codificación deben garantizar que
los extremos de una comunicación saben cómo interpretar la información recibida. A partir de las 3 formas de codificación se definen
7 esquemas. A pesar de que comparten nombres, no debe confundirse esquemas y formas de codificación.
Esquema de codificación Endianness Admite BOM
UTF-8 No aplicable Sí
UTF-16 Big-endian o Little-endian Sí
UTF-16BE Big-endian No
UTF-16LE Little-endian No
UTF-32 Big-endian o Little-endian Sí
UTF-32BE Big-endian No
UTF-32LE Little-endian No
Unicode define una marca especial, la marca de orden de bytes (BOM, Byte Order Mark), al inicio de un fichero o una comunicación para
hacer explícita la ordenación de bytes. Cuando un protocolo superior especifica el orden de bytes, la marca no es necesaria y puede
omitirse dando lugar a los esquemas de la lista anterior con sufijo BE o LE. En los esquemas UTF-16 y UTF-32, que admiten BOM, si este
no se especifica se asume que la ordenación de bytes esbig-endian.
La unidad de codificación en UTF-8 es el byte por lo que no necesita una indicación de orden de byte. El estándar ni requiere ni
recomienda la utilización de BOM, pero lo admite como marca de que el texto es Unicode o como resultado de la conversión de otros
esquemas.
Historia
El proyecto Unicode se inició a finales de 1987, tras conversaciones entre Joe Becker, Lee Collins y Mark Davis (ingenieros de las
empresas Apple y Xerox).11 Como resultado de su colaboración, en agosto de 1988 se publicó el primer borrador de Unicode bajo el
nombre de Unicode88.12 En esta primera versión se consideraba que sólo se codificarían los caracteres necesarios para el uso moderno,
por lo que se utilizaron códigos de 16 bits.
Durante el año 1989 se sumaron colaboradores de otras compañías como Microsoft o Sun Microsystems. El 3 de febrero de 1991 se formó
el Consorcio Unicode, y en octubre de 1991 se publicó la primera versión del estándar. La segunda versión, que ya incluía la escritura
ideográfica han se publicó en junio de 1992. A continuación se muestra una tabla con las distintas versiones del Estándar Unicode con sus
adiciones o modificaciones más importantes.
Edición ISO/IEC 10646 Caracteres
Versión Fecha Publicación Escrituras
asociada # Adiciones notables
El repertorio inicial cubre
los alfabetos: árabe,
armenio, bengalí,
bopomofo, cirílico,
ISBN 0-201- devanagari, georgiano,
octubre de
1.0 56788-1 24 7161 griego/copto, guyaratí,
1991
(Vol.1). gurmukhi, hangul, hebreo,
hiragana, kannada,
katakana, lao, latino,
malayalam, oriya, támil,
télugu, thai, y tibetano.13
Incluye extensiones de
varios alfabetos existentes;
son significativas las
adiciones al alfabeto árabe
ISBN 978-1- que incluyen 143 símbolos
6.1 2012 936213-02- ISO/IEC 10646:2012 110 116 matemáticos alfabéticos, y
3 los alfabetos Pollard Miao,
Sorang Sompeng, escritura
meroítica, Chakma,
Alfabeto sharada y 13
emoticonos.
ISBN 978-1- Publicación especial para
ISO/IEC 10646:2012 más
6.2 2012 936213-07- 110 117 la introducción de la Lira
símbolo de la lira turca.
8 turca
Revisión del algoritmo de
texto bidireccional con la
adición de 5 caracteres
especiales. El nuevo
ISBN 978-1-
ISO/IEC 10646:2012 con algoritmo bidireccional
6.3 2013 936213-08- 110 122
adiciones mejora la representación
5
conjunta de textos de
diferentes fuentes
respetando el orden
correcto de los caracteres.
ISBN 978-1-
SO/IEC 10646:2012 con Agrega 23 nuevos
7.0 2014 936213-09- 112 956
adiciones y signo del rublo sistemas de escritura.
2
ISBN 978-1-
8.0 2015 936213-10-
8
ISBN 978-1-
9.0 2016 936213-13-
9
Entre otros se agrega el
símbolo de Bitcoin, 56
caracteres emoji y los
ISBN 978-1-
sistemas de escritura:
10.0 2017 936213-16- 139 136 690
Masaram Gondi, Nü Shu,
0
Soyombo y la escritura
mongola cuadrada de
Zanabazar
Véase también
Sistema de escritura
Historia de la escritura
Referencias
1. «Resumen histórico» (http://www.unicode.org/history/summary.html). Unicode, Inc. Consultado el 21 de mayo de 2009.
2. «About the Unicode Standard» (http://www.unicode.org/standard/standard.html). Unicode, Inc. Consultado el 21 de mayo
de 2009.
3. «The Unicode Consortium Members» (http://unicode.org/consortium/memblogo.html) . Unicode, Inc. Consultado el 15 de
mayo de 2012.
4. The Unicode Consortium (octubre de 2006). «Appendix C. Relationship to ISO/IEC10646» (http://www.unicode.org/versio
ns/Unicode5.0.0/appC.pdf). En Julie D. Allen, Joe Becker (et al.). Unicode 5.0 standard (en inglés). Addisson-Wesley.
ISBN 0-321-48091-0.
5. «Archive of Notices of Non-Approval» (http://unicode.org/alloc/nonapprovals.html). Unicode, Inc. Consultado el 21 de
mayo de 2009.
6. The Unicode Consortium (octubre de 2006). Julie D. Allen, Joe Becker (et al.), ed. Unicode 5.9 standard (http://www.unico
de.org/versions/Unicode5.0.0/bookmarks.html)(en inglés). Addisson-Wesley. ISBN 0-321-48091-0.
7. The Unicode Consortium (octubre de 2006). «16. Special Areas and Format Characters» (http://www.unicode.org/version
s/Unicode5.0.0//ch16.pdf). En Julie D. Allen, Joe Becker (et al.). Unicode 5.0 standard (en inglés). Addisson-Wesley.
ISBN 0-321-48091-0.
8. «On the Encoding of Latin, Greek, Cyrillic, and Han»(http://www.unicode.org/notes/tn26/).
9. «12. East Asian Scripts»(http://www.unicode.org/versions/Unicode5.0.0/ch12.pdf). Unicode 5.0 Standard.
10. The Unicode Consortium (octubre de 2006).«2.5 Encoding Forms»(http://www.unicode.org/versions/Unicode5.0.0/ch02.p
df). En Julie D. Allen, Joe Becker (et al.). Unicode 5.0 standard (http://www.unicode.org/versions/Unicode5.0.0/bookmark
s.html) (en inglés). Addisson-Wesley. ISBN 0-321-48091-0.
11. «Chronology of Unicode Version 1.0» (http://www.unicode.org/history/versionone.html).
12. Becker, Joseph D. (10 de septiembre). Unicode 88 (http://www.unicode.org/history/unicode88.pdf) (en inglés). Unicode
Consortium. p. 10. Consultado el 29 de mayo de 2009.
13. The Unicode Consortium, Joan Aliprand, et al. (enero de 2000). «Appendix D. Changes from Unicode Version 2.0» (http://
unicode.org/book/appD.pdf). The Unicode Standard. Version 3.0 standard (en inglés). Addisson-Wesley. ISBN 0-201-61633-
5.
14. The Unicode Consortium (octubre de 2006). «Appendix D. Changes from previous versions» (http://www.unicode.org/vers
ions/Unicode5.0.0/appD.pdf). En Julie D. Allen, Joe Becker (et al.). Unicode 5.0 standard (en inglés). Addisson-Wesley.
ISBN 0-321-48091-0.
15. Archivo de datos de Unicode 5.1(http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt)
16. Unicode 5.2.0 (http://www.unicode.org/versions/Unicode5.2.0/)
17. Unicode 6.0.0 (http://www.unicode.org/versions/Unicode6.0.0/)
Enlaces externos
Unicode Consortium, en el sitio web Unicode.org.
Historia de la unificación han, en el sitio web Unicode.org.
Catálogo de sistemas de escritura y hojas de caracteres , en el sitio web Unicode.org.
Obtenido de «https://es.wikipedia.org/w/index.php?title=Unicode&oldid=105664877
»
Se editó esta página por última vez el 18 feb 2018 a las 14:37.
El texto está disponible bajo laLicencia Creative Commons Atribución Compartir Igual 3.0 ; pueden aplicarse cláusulas
adicionales. Al usar este sitio, usted acepta nuestrostérminos de uso y nuestra política de privacidad.
Wikipedia® es una marca registrada de laFundación Wikimedia, Inc., una organización sin ánimo de lucro.