Ascii y Utf-8

SEP SNESTTNM TNM
INSTITUTO TECNOLÓGICO DE TOLUCA
ASCII y UTF-8
Carrera: Ingeniería Mecatrónica
Materia: Electrónica Digital
Profesor:
Reyes González Marco Antonio
Alumno:
Pineda Hernández Jesús Ismael
Metepec, Edo. De México, Febrero del 2019

ASCII Y UTF-8
ASCII
ASCII (Código Estándar Estadounidense para el Intercambio de Información) es un código de
caracteres basado en el alfabeto latino, tal como se usa en inglés moderno. Fue creado en 1963 por
el Comité Estadounidense de Estándares (ASA, conocido desde 1969 como el Instituto
Estadounidense de Estándares Nacionales, o ANSI) como una refundición o evolución de los
conjuntos de códigos utilizados entonces en telegrafía. Más tarde, en 1967, se incluyeron las
minúsculas, y se redefinieron algunos códigos de control para formar el código conocido como US-
ASCII.
ASCII es, en sentido estricto, un código de siete bits, lo que significa que usa cadenas de bits
representables con siete dígitos binarios (que van de 0 a 127 en base decimal) para representar
información de caracteres.
Unicode
Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento
informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas,
además de textos clásicos de lenguas muertas. El término Unicode proviene de los tres objetivos
perseguidos: universalidad, uniformidad y unicidad
Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes
web, o cuatro en ISO 10646. Unicode es un superconjunto de ASCII, y los números 0 – 128 tienen el
mismo significado en ASCII que en Unicode. Por ejemplo, el número 65 significa "capital latino 'A'".
Como los caracteres Unicode generalmente no caben en un byte de 8 bits, existen numerosas
maneras de almacenar caracteres Unicode en secuencias de bytes, como UTF-32 y UTF-8.
UTF-8
UTF-8 es un formato de codificación de caracteres Unicode e ISO 10646 utilizando símbolos de
longitud variable. UTF-8 significa que estamos utilizando una codificación de 8 bits de longitud
variable, esta es solamente una de las disponibles, tenemos también UTF-7, UTF-16 y otras.
Sus características principales son:

• Es capaz de representar cualquier carácter Unicode.
• Usa símbolos de longitud variable (de 1 a 4 bytes por carácter Unicode).
• Incluye la especificación US-ASCII de 7 bits, por lo que cualquier mensaje ASCII se representa
sin cambios.
• Incluye sincronía. Es posible determinar el inicio de cada símbolo sin reiniciar la lectura
desde el principio de la comunicación.
• No superposición. Los conjuntos de valores que puede tomar cada byte de un carácter
multibyte, son disjuntos, por lo que no es posible confundirlos entre sí.
Como se ve unicode en algún momento será el estándar porque el que la mayoría siga la línea, pero
aún hay lenguajes o herramientas que no soportan Unicode por defecto, por ejemplo, Python hasta
su última versión soporta Unicode. PHP no lo soporta de forma nativa, y así como estos ejemplos
hay varios.
En el caso de PHP lo que se hace es utilizar UTF-8 que es compatible con ASCII y así resolvemos el
problema. Así que depende de cómo y dónde estemos escribiendo nuestro código, en muchas
ocasiones cuando vemos un carácter raro o algo que simplemente nosotros no pusimos ahí lo más
probable es que sea un error de codificación y que lo que seleccionamos como estándar no sea
capaz de codificar lo que está escrito.
Después de esto podríamos decir que Unicode es un ASCII súper mejorado. No solo por capacidad
si no por todo lo que implica. Es por eso que lo mejor en la mayoría de los casos (aunque se eleve
un poco la complejidad del problema) debemos seleccionar Unicode o en su caso UTF-8 ya que nos
permite mayor compatibilidad y cada día más aceptado, aunque seguimos con la limitante de los
lenguajes e IDE que cada día también se van sumando, pero aún no lo hacen todos.
REFERENCIAS
Luján, Juan (s.f.). Unicode y Ascii. EDteam. https://ed.team/blog/unicode-y-ascii.
Yergeau, F. (1996). UTF-8, a transformation format of Unicode and ISO 10646. RFC Html.
https://tools.ietf.org/pdf/rfc2044.pdf

Ascii y Utf-8

Caricato da

Informazioni sul documento

Descrizione originale:

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Ascii y Utf-8

Caricato da

Copyright:

Formati disponibili

SEP SNESTTNM TNM

INSTITUTO TECNOLÓGICO DE TOLUCA

Carrera: Ingeniería Mecatrónica

Materia: Electrónica Digital

Metepec, Edo. De México, Febrero del 2019

Sus características principales son:

Luján, Juan (s.f.). Unicode y Ascii. EDteam. https://ed.team/blog/unicode-y-ascii.

Potrebbero piacerti anche