Informatica

I computer gestiscono informazione in formato digitale (codificato secondo valori numerici), si
tratta di distinguere due stati diversi (simboleggiati da 0 e 1), quindi la codifica digitale si basa su
un sistema “binario”.
Nei sistemi additivi il valore viene semplicemente sommato, tuttavia si ricorre ad espedienti (come
introdurre altri simboli) per agevolare la lettura di un valore numerico.
Nei sistemi posizionali il valore si modifica a seconda della posizione dei segni, nel sistema binario i
segni sono soltanto due, ma il calcolo è identico a quello per le cifre decimali.
Il sistema esadecimale è a base 16 in cui i primi dieci segni corrispondono a 0-9 mentre gli altri alle
prime sei lettere dell’alfabeto latino, esso è facilmente riconducibile al sistema binario perché ogni
cifra esadecimale rappresenta mezzo byte ovvero 4 bit.
Ovviamente anche il testo e la sua veste grafica (grassetto, corsivo, ecc.) sono codificate come una
serie di numeri, codificare un testo significa associare un numero ad ogni carattere che si intenda
rappresentare, la codifica di un testo presenta quattro fasi:
1) repertorio astratto: descrizione caratteri ignorando loro ordinamento.
2) spazio di codifica: ordinamento dei caratteri solitamente sotto forma di griglia (cella=code
point, carattere=code point value)
3) forma di memorizzazione: l’astratto code point value viene rappresentato da un numero intero
di una dimensione prestabilita detto code unit.
4) schema di modifica: rappresentazione delle code unit come sequenze di byte (8 bit).
La prima codifica testuale standard è l’ ASCII che comprende 26 lettere dell’alfabeto inglese,
maiuscole, segni di interpunzione e parentesi, cifre decimali e qualche simbolo più una trentina di
caratteri di controllo.
L’aspetto problematico di questa codifica è rappresentato dalla limitatezza del suo repertorio, per
rimediare si è ricorso a vari espedienti come:
-L’ estensione del significato di un carattere
-Uso di caratteri di controllo per modificare il testo stampato
-Varianti locali
-Sequenze di escape (carattere che introduce una sequenza di caratteri indicandone
un’interpretazione alternativa)
In questo modo si può ovviare alla limitatezza del repertorio al prezzo di introdurre ambiguità.
ASCII
Un interessante metodo per superare le limitazioni del repertorio di ASCII è rappresentato dalla
metacodifica come nel caso di Beta code, esso estende in modo sistematico lo stesso tipo di
espediente illustrato a proposito dei caratteri di escape. Consiste in una metacodifica in cui si
assume come base la codifica testuale di ASCII ma si attribuisce ad alcuni caratteri significati
metatestuali che consente un gran numero di interpretazioni alternative. Inoltre questi caratteri
possono anche essere modificati da cifre ad essi successive, la codifica spetta comunque sempre al
solo ASCII a 7 bit.
UNICODE
Unicode nato per ovviare a due principali problemi: la confusione delle troppe codifiche esistenti e
la prassi di mappare arbitrariamente i codici numerici associati ai font (espediente di
visualizzazione che fa corrispondere ad ogni codice di una codifica arbitraria la figura assegnata).
Esso non si limita a definire solo un valore numerico (code point) e un nome per ogni carattere, ma
aggiunge molti altri dati come categoria, direzionalità, scomponibilità (character database).
La naturale estensione a uno spazio a 8 bit non offriva che 256 caratteri di cui 128 erano legati ad
ASCII per motivi di compatibilità, ciò era molto limitativo quindi si estese lo spazio procedendo per
multipli di 8 e quindi nacque ISO 10646 (spazio di codifica a 32 bit) che consentono di definire oltre
2 miliardi di caratteri su 256 piani diversi di cui il primo prende il nome di BMP. Successivamente
nacque lo Unicode che prevedeva uno spazio di codifica a 16 bit e come particolarità riusciva ad
includere anche caratteri ideografici nell’unico piano di cui dispone grazie al suo principio di
unificazione (caratteri duplicati in diversi sistemi di scrittura sono codificati una sola volta per
tutti).
I due Standard finirono per influenzarsi a vicenda (ISO ha spostato gli ideogrammi nel BMP e
Unicode ha esteso lo spazio a 21 bit, dove i 5 bit servivano ad indicare il piano di appartenenza di
ogni carattere.
Unicode si articola attorno a dieci principi fondamentali:
1 Universalità (Il repertorio è universale comprendendo tutti i caratteri che sono usati nello
scambio di testi a tutti i livelli)
2 Efficienza (il testo codificato dev’essere semplice da trattare ed interpretare, non devono esserci
sequenza d’escape ed i caratteri devono esser raggruppati per sistemi di scrittura)
3 Caratteri, non glifi (Unicode Si propone di codificare caratteri –più piccolo componente dotato di
valore semantico di un sistema di scrittura- e non glifi –forma grafica assunta dal carattere quando
viene visualizzato- Un repertorio di glifi forma un font)
4 Semantica (ogni carattere ha una semantica ben definita da un cinquantina di attribuzioni
esplicite che sono essenziali per il software che deve trattare un testo Unicode.
5 Plain Text (I caratteri Unicode rappresentano plain text – puro contenuto del testo codificato in
modo universale secondo lo standard Unicode-.
6 Ordinamento logico (l’ordine dei caratteri del testo Unicode corrisponde grosso modo a quello
in cui sono digitati o letti dall’utente)
7 Unificazione (i caratteri duplicati in diversi sistemi di scrittura sono di norma unificati)
8 Composizione dinamica (caratteri con diacritici possono essere composti dinamicamente come
sequenze dei relativi componenti)
Il Web è uin sistema distribuito di ipertesti grafici, globale interattivo e pultipiattaforma che opera
su internet, essendo globale è accessibile da qualsiasi sistema (computer tradizionale, portatile,
palmare, cellulare). Il sistema è distribuito su milioni di siti operanti come web server, i programmi
di navigazione sul web sono internet explorer, mozilla, firefox, safari, chrome, opera ed hanno il
ruolo di client (il client effettua una richiesta ed il server risponde).
Il principale protocollo di comunicazione usato su web è http (Hyper Text Trasfer Protocol) tramite
cui vengono trasferite le pagine web di un sito con tutti i contenuti. Tale protocollo è privo di stato
ovvero non contiene alcuna informazione relativa alla connessione fra i due computer.
HTML.
L’HTML rappresenta la home page del sito richiesto. È un linguaggio di marcatura per pagine web e
definisce struttura e formato di documenti per la stampa e per il web.
In ambito informatico l’autore formatta il proprio testo in un programma di videoscrittura
utilizzando vari comandi (grassetto, corsivo, ecc.) tutte queste informazioni tipografiche
rappresentano la marcatura del documento. Le marcature di un documento sono memorizzate in
un qualche formato digitale di Rich Text come il RTF (marcatura procedurale del testo un una serie
di comandi che indicano l’aspetto della veste tipografica del documento), poi abbiamo il Text (per i
testi di carattere scientifico), un tipo di marcatura di senso strutturale è rappresentato da SGML
che non esprime aspetti tipografici ma solo la struttura, esso non è un linguaggio di marcatura
standard perché si offre ad un metalinguaggio cioè ad un linguaggio di marcatura capace di
descriverne altri, da esso infatti derivano i linguaggi di marcatura come HTML e XML

Informatica

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Informatica

Caricato da

Copyright:

Formati disponibili

I computer gestiscono informazione in formato digitale (codificato secondo valori numerici), si

Potrebbero piacerti anche