Sei sulla pagina 1di 14

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

02/abril/2014
NDICE
INTRODUCCIN

02

I.

HISTORIA DE LA CREACIN DEL CDIGO UNICODE

02

II.

DEFINICIN

04

III.

ESCRITURAS CUBIERTAS POR EL CDIGO UNICODE

06

IV.

QUE INCLUYE EL ESTNDAR UNICODE?

06

V.

LOS PRINCIPIOS DEL CDIGO UNICODE

06

VI.

CMO ESTN ORDENADOS LOS CDIGOS?

07

VII.

QUE TAMAO DE DATOS MANEJA?

07

VIII.

FORMAS DE CODIFICACIN

07

IX.

ASIGNACIN DE CDIGOS AL CARCTER

08

X.

DISTRIBUCIN DEL CDIGO UNICODE

08

XI.

ESCRIBIR CARACTERES UNICODE CON EL TECLADO

09

XII.

TABLA DEL CDIGO UNICODE

10

XIII.

CARACTERES MS USADOS EN EL CDIGO

11

XIV.

PRINCIPALES BENEFICIADOS

14

XV.

CRTICAS FRENTE AL CDIGO UNICODE

14

Dr. Lucio Ferrer Pearanda

Pgina 1

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

INTRODUCCION
Existen numerosos sistemas de codificacin que asignan un nmero a cada carcter
(letras, nmeros, signos, etc.). Ninguna codificacin (el cdigo ASCII es un ejemplo
elocuente) especfica puede contener caracteres suficientes. Por ejemplo, la Unin
Europea, por s sola, necesita varios sistemas de codificacin distintos para cubrir
todos sus idiomas. Tambin presentan problemas de incompatibilidad entre los
diferentes sistemas de codificacin. Por esta razn se cre Unicode.
Unicode est llamado a reemplazar al cdigo ASCII y algunos de los restantes ms
populares como Latin-1, en unos pocos aos y a todos los niveles. Permite no slo
manejar texto en prcticamente cualquier lenguaje utilizado en el planeta, sino que
tambin proporciona un conjunto completo y comprensible de smbolos matemticos y
tcnicos que simplificar el intercambio de informacin cientfica.
En el presente trabajo, hablaremos en forma clara y concisa todo lo relacionado al
CDIGO UNICODE, desde su historia hasta el uso con el teclado.

I. HISTORIA DE LA CREACIN DEL CDIGO UNICODE


El mundo de la informtica tuvo su origen en Los Estados Unidos, all por 1963 era
necesario establecer un estndar para el intercambio de informacin, es as como se
cre el conocido cdigo ASCII (aunque tambin es conocido como US-ASCII), el cual
define un conjunto de caracteres asociados a un valor escalar. El estndar ASCII
defina un conjunto de caracteres slo para el habla inglesa. La suma total de
caracteres va desde 0 al 127, en total 128 (27) divididos en 4 grupos.
Los creadores del ASCII decidieron utilizar 7 bits para almacenar sus caracteres, 27 =
128. Pero sobraba un bit para completar el byte, aquel bit se utiliz como bit de
paridad y as detectar errores de transmisin. A poco andar muchos comenzaron a
pensar que ese bit de paridad podra ser usado para ampliar la gama de caracteres, si
sacamos cuentas 28 = 1282 = 256 caracteres distintos.
La irrupcin en el mercado de los IBM-PC, trajo consigo la necesidad de ampliar
nuestro conjunto de caracteres ASCII, dado que las COMPUTADORAS al mundo y no
Dr. Lucio Ferrer Pearanda

Pgina 2

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

todo el mundo hablaba ingls. Las partidas internacionales de los IBM-PC traan un
conjunto de caracteres OEM, es decir, configurado de fbrica, dependiendo de la
regin del mundo donde iban. Ahora tenamos un ASCII ampliado a 28 caracteres
distintos y adaptado a muchos lenguajes alrededor del mundo, desde el 0 al 127 el
ASCII original se mantiene intacto, pero desde el 128 al 255 depender del conjunto
de caracteres que tenga instalado el PC.
Pero exista un problema, intercambiar documentos entre estos sistemas era difcil
porque no haba manera de que un computador supiera con certeza qu esquema de
codificacin de caracteres haba usado el autor del documento; el computador slo
vea nmeros, y los nmeros pueden significar muchas cosas. Al almacenar estos
documentos en el mismo sitio (como en una tabla de una base de datos); se
necesitara almacenar el tipo de codificacin junto con cada texto, y asegurarse de
adjuntarlo con el texto cada vez que accediese a l. Ahora los documentos
multilinges,

con

caracteres

de

varios

idiomas

en

el

mismo

documento.

(Habitualmente utilizaban cdigos de escape para cambiar de modos; puf!, est en


modo ruso koi8-r as que el carcter 241 significa esto; puf!, ahora est en modo Mac
Greek, as que el carcter 241 significa otra cosa. Y as con todo). Para resolver estos
problemas se dise UNICODE.
De forma paralela a finales de 1980, dos organismos estaban desarrollando un cdigo
de caracteres unificado. Una era el Proyecto ISO 10646 de la Organizacin
Internacional para la Estandarizacin y la otra era el Proyecto Unicode organizado
por un consorcio de fabricantes de software (mayoritariamente de Estados Unidos).
Para resolver estos problemas, UNICODE representa cada carcter como un nmero
de 2 bytes, de 0 a 65535. Cada nmero de 2 bytes representa un nico carcter
utilizado en al menos un idioma del mundo (los caracteres que se usan en ms de un
idioma tienen el mismo cdigo numrico). Hay exactamente 1 nmero por carcter, y
exactamente 1 carcter por nmero. Los datos de UNICODE nunca son ambiguos.
Por supuesto, sigue estando el problema de todos esos sistemas de codificacin
anticuados. Por ejemplo, el ASCII de 7 bits que almacena los caracteres ingleses
como nmeros del 0 al 127 (65 es la A, mayscula, 97 es la a minscula, etc.). El
ingls tiene un alfabeto sencillo, as que se puede expresar en ASCII de 7 bits. Los
idiomas europeos occidentales como el francs, espaol y alemn usan todos un
sistema llamado ISO-8859-1 (tambin conocido como latin-1), que usa los caracteres
Dr. Lucio Ferrer Pearanda

Pgina 3

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

del ASCII de 7 bits del 0 al 127, pero lo extiende en el rango 128-255 para tener
caracteres como n-con-una-tilde-sobre-ella (241) y u-con-dos-puntitos-sobre-ella (252).
Y UNICODE usa los mismos caracteres que el ASCII de 7 bits para los nmeros del 0
al 127, y los mismos caracteres que ISO-8859-1 del 128 al 255, y de ah en adelante
se extiende para otros lenguajes que usan el resto de los nmeros, del 256 al 65535.
Puede que en algn momento al tratar con datos UNICODE tengamos la necesidad de
convertirlos en alguno de estos otros sistemas anticuados. Por ejemplo, por necesidad
de integracin con algn sistema computador que espera que sus datos estn en un
esquema especfico de 1 byte, o para imprimirlo en alguna terminal o impresora que
desconozca UNICODE. O para almacenarlo en un documento XML que especifique
explcitamente la codificacin de los caracteres.

II. DEFINICIN
Unicode proviene del ingls:
Universal = universal
Code = cdigo o sea cdigo universal o unicdigo.
Unicode es un sistema de codificacin de caracteres estndar de 16 bits (65536
caracteres), el cual fue desarrollado en 1991 por Unicode Consortium.
Su objetivo es proporcionar el medio por el cual un texto en cualquier forma e idioma
pueda ser codificado para el uso informtico.
El diseo de Unicode esta basado en la simplicidad y consistencia de ASCII, pero va
mucho mas all de la limitada capacidad de ASCII para codificar nicamente el
alfabeto latino.

El Estndar Unicode provee la capacidad para codificar todos los

caracteres usados en los lenguajes escritos de todo el mundo.


Bsicamente Unicode proporciona un nmero nico para cada carcter, sin importar la
plataforma, el programa, ni el idioma, permitiendo un fcil traspaso entre distintos
sistemas de codificacin y plataformas.
Cubre los lenguajes de las Amricas, Europa, Medio Este, frica, India, Asia y el
Pacfico, as como para escritos histricos y smbolos tcnicos. El Unicode permite el
intercambio, procesamiento y despliegue de textos multilinges, al igual para el uso de
smbolos tcnicos comunes y matemticos.
Dr. Lucio Ferrer Pearanda

Pgina 4

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

Adems de que Unicode permite combinaciones de caracteres, tambin dispone de


versiones pre compuestas de la mayora de combinaciones de letras diacrticas en
uso. Estas versiones facilitan las conversiones desde y hacia las ms simples
codificaciones heredadas y permiten que las aplicaciones utilicen Unicode como un
formato de texto interno sin tener que implementar combinaciones de caracteres. Por
ejemplo, puede representarse en Unicode como U+0065 (letra latina minscula e)
seguido de U+0301 (acento agudo), pero puede tambin representarse directamente
por el pre compuesto U+00E9. El estndar Unicode tambin incluye un nmero de
elementos

relacionados,

como

las

propiedades

de

caracteres,

formas

de

normalizacin de textos y rdenes de visualizacin bidireccional (para la correcta


visualizacin de texto que contenga escrituras de derecha a izquierda rabe o
hebreo y de izquierda a derecha a la vez).
Que problemas solucion UNICODE? El intercambio internacional de archivos de
texto.

III. ESCRITURAS CUBIERTAS POR EL CDIGO UNICODE


Unicode cubre la mayor parte de las escrituras usadas actualmente, incluyendo:
rabe
Armenio
Bengal
Birmano
Braille
Slabas

Han (Kanji, Hanja y Hanzi)


Japons (Kanji, Hiragana

aborgenes

canadienses
Cheroqui
Copto
CirlicoDevangar
Esperanto
Etope
Georgiano
Griego
Guyarat
Gurmukhi
Hangul (Coreano)

Katakana)
Hebreo
Jemer (Camboyano)
Kannada (Canars)
Laosiano
Latino
Malayalam
Mongol
Oriya
Siraco
Tailands (Thai)
Tamil
Tibetano
Yi
Zhuyin (Bopomofo)

Unicode ha ido aadiendo escrituras y cubrir an ms, incluyendo escrituras


histricas menos utilizadas, incluso aquellas extinguidas, para propsitos acadmicos:
Cuneiforme
Griego antiguo
Dr. Lucio Ferrer Pearanda

Pgina 5

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

Lineal B
Fenicio
Rnico
Sumerio
Ugartico

IV. QUE INCLUYE EL ESTNDAR UNICODE?


Signos de puntuacin.
Signo diacrito.
Smbolos matemticos.
Smbolos tcnicos.
Flechas.
Dingbats.
Letras
acentuadas
(carcter simple + un signo
diacrito).

V. LOS PRINCIPIOS DEL


CDIGO UNICODE
Estos principios son:
Repertorio Universal
Orden (pedido) Lgica
Eficacia Unificacin
Composicin Dinmica
Semntica
Estabilidad
Texto Simple
Convertibilidad

VI. CMO ESTN ORDENADOS LOS CDIGOS?

Dr. Lucio Ferrer Pearanda

Pgina 6

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

Los cdigos estn ordenados usando el plano multilenguaje bsico (BMP).

VII. QUE TAMAO DE DATOS MANEJA?


Usa 3 formas de codificacin, que permiten la transmisin de datos en cualquier
direccin, sin la perdida de integridad, transmiten byte, word y doble word midiendo
cada uno de ellos 8, 16 y 32 bits respectivamente.

VIII. FORMAS DE CODIFICACIN


Unicode define tres tipos de codificacin, segn el nmero de bits necesarios para
identificar cada carcter. Las tres formas de codificacin codifican el mismo repertorio
comn del carcter y pueden ser eficientemente transformados a otro sin la perdida de
datos. Estas formas son:
UTF-8: Este tipo de codificacin es popular para el HTML y protocolos
similares. Es una manera de transformar todos los caracteres de Unicode en
una codificacin de longitud variable de bytes. Tiene la ventaja de que los
caracteres de Unicode que corresponden a caracteres ASCII tienen los mismos
valores en bytes que el caracter ASCII correspondiente.
UTF-16: Este tipo de codificacin es popular en muchos ambientes que
necesiten balancear el acceso eficiente a los caracteres con el uso econmico
Dr. Lucio Ferrer Pearanda

Pgina 7

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

de la memoria. Es compacto y los caracteres ms usados caben en una unidad


de cdigo de 16 bits.
UTF-32: Este tipo de codificacin es popular cuando no preocupa el espacio en
memoria. Cada caracter de Unicode se codifica en una sola unidad de cdigo
de 32 bits.

IX. ASIGNACIN DE CDIGOS AL CARCTER


Utiliza para cada caracter nombres y valores numricos. La codificacin de caracteres
especifica la identidad de los caracteres y sus valores numricos (posicin del cdigo)
as como la representacin de estos valores en bits.
El valor numrico de 16-bits (valor del cdigo) est definido por nmeros
hexadecimales y un prefijo U, por ejemplo: U+0041 representa A. El nombre nico
para este valor es LA LETRA LATINA EN MAYSCULA A.

X. DISTRIBUCIN DEL CDIGO UNICODE


La distribucin del cdigo UNICODE se da en cuatro zonas que van desde 000016
hasta FFFF16. Estas zonas son:

La zona A: Comprende los cdigos para alfabetos, slabas, y smbolos.


La zona I: Estn los cdigos ideogrficos como lo son los alfabetos chinos y

japoneses.
La zona O: No es utilizada actualmente, sin embargo, est reservada para

futuros ideogramas.
La zona R: Es de uso restringido. Se subdivide en rea de uso privado, rea
de compatibilidad y Cdigos especiales. FFFE y FFFF no son cdigos de
carcter y se excluyen especficamente del UNICODE.

XI. ESCRIBIR CARACTERES UNICODE CON EL TECLADO


Si conoce el valor Unicode (hexadecimal) de un carcter, puede utilizar el mtodo
abreviado de teclado ALT+X para insertar el carcter directamente en el documento.
Para ello se realiza lo siguiente:
1. Escriba el valor Unicode (hexadecimal) del carcter.
Dr. Lucio Ferrer Pearanda

Pgina 8

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

Por ejemplo: 0041, el cual este cdigo pertenece a la letra A.


Nota: La cadena del valor tambin puede empezar por U+. Ejemplo: U+0041
2. Luego, presione ALT+X. Microsoft Word sustituye la cadena por el carcter
especificado.
Por ejemplo: Al escribir 0041 y presionar ALT+X, este se convierte en A.
Tambin puede utilizar ALT+X para mostrar el cdigo de carcter Unicode de un
carcter determinado, siguiendo los siguientes pasos:
1. Escriba el carcter. Ejemplo: B
2. Lugo presione ALT+X. El carcter se sustituye por el cdigo. Presione ALT+X
de nuevo para volver a cambiar al carcter.
Ejemplo: Se escribe el carcter B, luego presiono ALT+X y reemplaza el
carcter por el cdigo 0042.
Puede convertir un carcter en Unicode si est codificado en la actualidad segn la
pgina de cdigos del sistema. Para ello, siga los siguientes pasos:
1. Escriba x delante del carcter, coloque el punto de insercin despus de l y
presione ALT+X y vuelva a presionar ALT+X una vez ms.
Por ejemplo: Escribo la x acompaado del carcter: XC, al presionar ALT+X
este se sustituye por X43 y al volver a presionar ALT+X este es reemplazado
por el carcter, es decir C.

XII. TABLA DEL CDIGO UNICODE


La tabla que se muestra a continuacin es la tabla de los caracteres Bsicos del Latn
con su extensin.
Primeros 256 Smbolos UNICODE

Dr. Lucio Ferrer Pearanda

Pgina 9

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

000

001

002

"

&

'

003

<

>

004

005

006

007

008

009

00A

00B

00C

00D

00E

Dr. Lucio Ferrer Pearanda

Pgina 10

INFORMTICA APLICADA EN SALUD

00F

CDIGO UNICODE

XIII. CARACTERES MS USADOS EN EL CDIGO UNICODE


Se menciona algunos ejemplos de cdigos UNICODE:
CARCTER

CDIGO UNICODE

NOMBRE

2600
2601
2602
2603
2604
2605
2606
2607
2608
2609
260A
260B
260C
260D
260E
260F
2610
2611
2612
2613
261A

261B
261C

261D
261E

261F

2620
2621
2622
2623

2624
2625

Negro sol con rayos


NUBE
PARAGUAS
Mueco de nieve
COMET
STAR NEGRO
WHITE STAR
LIGHTNING
Tormenta
SUN
Nodo ascendente
DESCENDING NODO
JUNTO
OPOSICIN
TELEFONO NEGRO
TELFONO BLANCO
Urnas
Urna con verificacin
Urna con X
SALTIRE
Negro ndice izquierdo
apuntando
Negro ndice derecho apuntando
Blanco ndice izquierdo
apuntando
Blanco hasta que apuntan ndice
Blanco ndice derecho
apuntando
Blanco ndice apuntando hacia
abajo
Calavera y tibias cruzadas
PRECAUCIN SIGNO
RADIACTIVO FIRMAR
SEAL DE PELIGRO
BIOLGICO
CADUCEUS
AnKh

Dr. Lucio Ferrer Pearanda

Pgina 11

INFORMTICA APLICADA EN SALUD

2626
2627
2628
2629
262a
262B
262C
262D
262E
262F
2630
2631
2632
2633
2634
2635
2636
2637
2638
2639
263A

263B

263C

263D
263E
263F
2640

2641
2642

2643
2644
2645
2646
2647
2648
2649
264A
264B
264C
264D
264E
264F
2650
2651
2652
2653

Dr. Lucio Ferrer Pearanda

CDIGO UNICODE
Cruz ortodoxa
CHI RHO
Cruz de Lorena
CRUZ DE JERUSALN
STAR y la Media Luna
Farsi SMBOLO
ADI SHAKTI
Martillo y la hoz
Smbolo de la Paz
YIN YANG
Trigramas para el cielo
Trigramas de lago
Trigramas de fuego
Trigramas de trueno
Trigramas de viento
Trigramas de agua
Trigramas de montaa
Trigramas de la tierra
Rueda de dharma
Fruncir el ceo cara blanca
BLANCO rostro sonriente
(presente en WGL4)
NEGRO rostro sonriente
(presente en WGL4)
BLANCO sol con rayos (en la
actualidad WGL4)
Primer trimestre de luna
ltimo trimestre luna
MERCURY
MUJER SIGN (presente en
WGL4)
TIERRA
MACHO SIGN (presente en
WGL4)
JUPITER
SATURNO
URANO
NEPTUNO
PLUTON
ARIES
TAURUS
GEMINI
CNCER
LEN
VIRGO
LIBRA
Scorpius
SAGITARIO
CAPRICORNIO
ACUARIO
PISCIS
Pgina 12

INFORMTICA APLICADA EN SALUD

2654
2655
2656
2657
2658
2659
265A
265B
265C
265D
265E
265F
2660
2661
2662
2663
2664
2665
2666
2667
2668
2669
266A

266 b

266C
266D
266E
266F

CDIGO UNICODE
Ajedrez rey blanco
Blanco de ajedrez reina
Torre blanca de ajedrez
Obispo blanco de ajedrez
Caballero blanco de ajedrez
Pen de ajedrez blanco
Rey negro de ajedrez
Negro reina de ajedrez
Negro torre de ajedrez
Obispo negro de ajedrez
Caballero negro de ajedrez
Pen negro de ajedrez
NEGRO SPADE SUIT
Traje blanco corazn
Traje blanco de diamantes
NEGRO CLUB SUIT
SPADE traje blanco
CORAZN NEGRO
DIAMANTE NEGRO SUIT
CLUB traje blanco
Termas
NOTA TRIMESTRE
OCTAVA NOTA (presente en
WGL4)
Vigas de corcheas (presente en
WGL4)
Toma nota de vigas XVI
Msica plana signo
Msica naturales signo
La msica fuerte signo

XIV. PRINCIPALES BENEFICIADOS CON EL CDIGO UNICODE


Las principales personas que se benefician con este cdigo son:
Las personas de negocio.
Poliglotas.
Investigadores.
Cientficos.
Matemticos.
Tcnicos.

XV. CRTICAS FRENTE AL CDIGO UNICODE


En Japn, se opone al Unicode en general, quejndose de las limitaciones
tcnicas y problemas polticos involucrados. El error ms comn, desde este
Dr. Lucio Ferrer Pearanda

Pgina 13

INFORMTICA APLICADA EN SALUD

CDIGO UNICODE

punto de vista, tiene que ver con la confusin entre caracteres abstractos y sus
formas visuales altamente variables.
Tambin es criticado por no permitir el uso de los smbolos alternos y antiguos
del kanji, lo cual, se dice, que complica el procesamiento del japons antiguo y
de nombres japoneses poco usuales.
El incluir el Lenguaje Thai tambin ha sido criticado por su orden ilgico de
caracteres.

Dr. Lucio Ferrer Pearanda

Pgina 14

Potrebbero piacerti anche