Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ASCII y UTF-8
Profesor:
Reyes González Marco Antonio
Alumno:
Pineda Hernández Jesús Ismael
Unicode
Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento
informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas,
además de textos clásicos de lenguas muertas. El término Unicode proviene de los tres objetivos
perseguidos: universalidad, uniformidad y unicidad
Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes
web, o cuatro en ISO 10646. Unicode es un superconjunto de ASCII, y los números 0 – 128 tienen el
mismo significado en ASCII que en Unicode. Por ejemplo, el número 65 significa "capital latino 'A'".
Como los caracteres Unicode generalmente no caben en un byte de 8 bits, existen numerosas
maneras de almacenar caracteres Unicode en secuencias de bytes, como UTF-32 y UTF-8.
UTF-8
UTF-8 es un formato de codificación de caracteres Unicode e ISO 10646 utilizando símbolos de
longitud variable. UTF-8 significa que estamos utilizando una codificación de 8 bits de longitud
variable, esta es solamente una de las disponibles, tenemos también UTF-7, UTF-16 y otras.
Como se ve unicode en algún momento será el estándar porque el que la mayoría siga la línea, pero
aún hay lenguajes o herramientas que no soportan Unicode por defecto, por ejemplo, Python hasta
su última versión soporta Unicode. PHP no lo soporta de forma nativa, y así como estos ejemplos
hay varios.
En el caso de PHP lo que se hace es utilizar UTF-8 que es compatible con ASCII y así resolvemos el
problema. Así que depende de cómo y dónde estemos escribiendo nuestro código, en muchas
ocasiones cuando vemos un carácter raro o algo que simplemente nosotros no pusimos ahí lo más
probable es que sea un error de codificación y que lo que seleccionamos como estándar no sea
capaz de codificar lo que está escrito.
Después de esto podríamos decir que Unicode es un ASCII súper mejorado. No solo por capacidad
si no por todo lo que implica. Es por eso que lo mejor en la mayoría de los casos (aunque se eleve
un poco la complejidad del problema) debemos seleccionar Unicode o en su caso UTF-8 ya que nos
permite mayor compatibilidad y cada día más aceptado, aunque seguimos con la limitante de los
lenguajes e IDE que cada día también se van sumando, pero aún no lo hacen todos.
REFERENCIAS
Yergeau, F. (1996). UTF-8, a transformation format of Unicode and ISO 10646. RFC Html.
https://tools.ietf.org/pdf/rfc2044.pdf