Sei sulla pagina 1di 8

FONDAMENTI DI INFORMATICA PER UMANISTI

Il CALCOLATORE è una macchina che ha lo scopo di eseguire determinati compiti quando sono espressi in modo formale,
cioè secondo regole precise e comunicati attraverso un determinato codice; accetta delle istruzioni solo quando sono
espressi attraverso determinati simboli (di solito segni), che si dicono computabili quando sono espressi in formato
comprensibile per la macchina. Il calcolatore viene, quindi, definito come un esecutore di programmi. A sua volta, un
programma è un insieme di istruzioni espresse in modo formale (cioè seguendo un algoritmo).
Il calcolatore è uno strumento autonomo, capace di eseguire dei compiti e accettare delle istruzioni, cioè di svolgere in
modo automatico delle attività specifiche che portano ad un risultato. È composto principalmente da due elementi:
- HARDWARE: insieme dei dispositivi fisici che servono a far funzionare la macchina;
- SOFTWARE: insieme dei programmi che permettono di far eseguire alla macchina dei determinati problemi (ovvero
scrivere, navigare su internet, inviare e-mail).
Il software di base attraverso il quale una macchina può funzionare è il SISTEMA OPERATIVO, ovvero l’insieme
di tutti quei programmi a cui è delegato il compito di gestire le applicazioni. Il SO ha lo scopo di: interpretare
ed esegue i comandi impartiti dall’utente tramite i programmi applicativi; gestire i dati e i programmi
dell’utente tramite e gestire le risorse fisiche dell’hardware (CPU, memoria, unità di input/output) sia per
rendere le componenti utilizzabili e disponibili all’utente.

Infine, attraverso l’interfaccia (lo strumento che permette di interagire tra utente e dispositivo), si ha l’interazione
uomo-macchina che permette di far gestire le risorse da parte dell’utente. Negli anni passati, esisteva l’interfaccia a
caratteri o testuale, i cui comandi venivano impartiti dall’utente ma oggi è stata creata l’interfaccia grafica, che permette
all’utente di visualizzare le rappresentazioni grafiche in modo più semplice e comprensibile.
La prima interfaccia grafica creata è stata quella di MAC OS.

La prima macchina astratta o automa, cioè una macchina capace di svolgere in modo automatico operazioni particolari,
venne ideata da Alan Turing nel 1936.
Tale automa è composto principalmente da tre elementi:
- UN NASTRO INFINITO à suddiviso in celle o caselle, ciascuna delle quali contiene un simbolo (0 oppure 1);
- UNA TESTINA DI LETTURA/SCRITTURA à legge il simbolo sulla quale è posizionata e scrive sul nastro; in
contemporanea, c’è un meccanismo che muove il nastro a destra o sinistra, una sola casella alla volta;
- UN’UNITA’ DI CONTROLLO à sposta la testina e crea una serie finita di stati che la macchina può eseguire. Da qui
infatti si dirà che la macchina di Turing è un AUTOMA A STATI FINITI.

Successivamente alla macchina di Turing, è stata creata la macchina di Turing UNIVERSALE à una macchina
programmabile - una macchina di Turing che interpreta un’altra macchina di Turing.
Diremo, quindi, che la macchina di Turing è un calcolatore che svolge un solo programma, mentre la macchina di Turing
universale è un calcolatore che memorizza più programmi e quindi svolge algoritmi diversi.

Si deve a John Von Neumann la nascita nel 1946 dei primi calcolatori moderni capaci di risolvere qualsiasi problema à
nasce quindi l’EDVAC (Electronic Discrete Variable Automatic Computer), il capostipite dei moderni calcolatori.
Gli elementi funzionali di tale macchina sono:
- MEMORIA CENTRALE/INTERNA – RAM à è il luogo destinato alla conservazione temporanea dei dati; temporanea
perché si tratta di una MEMORIA VOLATILE che contiene i dati solo fin quando il computer è acceso.
- CPU (Central Processing Unit) à è l’unità di controllo che ha il compito di leggere le istruzioni dalla memoria
interna, decodificarle e quindi eseguirle. Le istruzioni vengono espresse in un linguaggio macchina, specifico per
ogni processore. La CPU dispone di una particolare memoria chiamata REGISTRO, dove vengono immagazzinati dati
e istruzioni che stanno per essere o sono già stati processati.
- ALU (Arithmetic-Logic Unit) à è l’unità aritmetica che ha lo scopo di eseguire le operazioni aritmetiche e logiche.
- MEMORIA ESTERNA/ DI ARCHIVIAZIONE à è considerata una memoria periferica. Si tratta della memoria che
contiene dati e programmi in modo persistente ed è indicata come memoria di massa (hard disk, CD-Rom, DVD).
- PERIFERICHE DI INPUT ED OUTPUT à servono per l’emissione e l’immissione dei dati (input à tastiera, mouse –
output à stampante, schermo).

L’INFORMATICA è la disciplina che studia i sistemi di rappresentazione e di elaborazione dell’informazione.


Come sappiamo, nella vita di tutti i giorni abbiamo a che fare con dei dati à di per sé, sono privi di significati se non
sono inseriti in un determinato contesto che gli dia un senso. Diremo quindi che il dato diviene INFORMAZIONE quando
è un grado di apportare un senso.

1
Dal punto di vista informatico, il DATO è l’oggetto con cui si opera su una determinata operazione mentre
l’INFORMAZIONE è il significato del dato rispetto al contesto in cui è inserito. Nel momento in cui un dato è
contestualizzato, diviene informazione.

Per rappresentare un dato, il metodo di rappresentazione utilizzato è la CODIFICA à ogni tipo di dato (foto, video,
numero) deve essere codificato per essere compreso dalla macchina e diventare successivamente un’informazione.
Per essere compreso al meglio dalla macchina, il dato deve essere rappresentato in un CODICE, ovvero uno strumento
formato da una serie di segni, che deve essere condiviso tra uomo e macchina. L’unico codice accettato dalla macchina
è il CODICE BINARIO, un codice a base 2 à vuol dire che accetta solo due simboli, 0 e 1. Tali segni possono essere
ripetuti all’infinito e solo attraverso la loro adeguata combinazione si può esprimere l’informazione.
Si parlerà quindi di BIT (Binary DigIT – cifra binaria) per riferirsi all’unità di misura utilizzata all’interno di ogni dato à
ogni simbolo (0 oppure 1) equivale a 1 bit mentre il BYTE rappresenta 8 sequenze di bit.
Proprio da digit deriva la rappresentazione digitale, ovvero il dato espresso in modo comprensibile per essere capito
dalla macchina. Quindi, con la codifica, il dato binario diviene INFORMAZIONE à ne consegue che il BIT è l’unità minima
di informazione.

Nel processo comunicativo tra uomo-computer, Il computer lavora partendo da informazione in ingresso comunicata
da un essere umano (l’input del processo di elaborazione – ad esempio la tastiera), la elabora in base a una serie di
regole (un programma), e restituisce informazione in uscita (l’output del processo) all’essere umano tramite lo schermo.

ALGORITMO

L’algoritmo (termine che deriva da un matematico persiano) è un procedimento che risolve un determinato problema
secondo una sequenza finita di mosse, univocamente interpretabili, chiare e non ambigue.
Affinché l’algoritmo possa essere eseguito al meglio dalla macchina, è necessario rispettare delle determinate
condizioni:
1. UNIVOCITA’ E NON AMBIGUITA’ à ogni istruzione indicata non deve essere ambigua, cioè il significato dei
comandi deve essere univoco; ciò richiama anche l’esigenza di esprimere l’algoritmo tramite un linguaggio
formalizzato, basato cioè su precise regole, che sia comprensibile alla macchina.
2. FINITEZZA ED ESEGUIBILITA’ DELLE ISTRUZIONI à ogni istruzione deve essere effettivamente portata a
compimento dall’esecutore in un numero finito di passi à l’algoritmo deve essere composto da una sequenza
numerabile di comandi.
3. EFFICIENZA DELL’ALGORITMO à l’algoritmo deve risolvere il problema nel modo più veloce possibile e usando
la minima quantità di risorse fisiche della macchina.
4. TERMINATEZZA O COMPLETEZZA à la sequenza di istruzioni deve essere determinata e finita, cioè
l’esecuzione della procedura deve arrivare a compimento e quindi terminare.

Per agevolare la descrizione di algoritmi vengono utilizzati diagrammi di flusso à diagrammi che, attraverso l’utilizzo di
forme geometriche, mostrano la sequenza dei passi da compiere.
- RETTANGOLO à blocco di operazione; contiene l’azione da seguire;
- ROMBO à blocco di decisione; segnala una condizione che si deve verificare;
- CERCHIO à blocchi esterni che indicano l’inizio e la fine dell’algoritmo;
- FRECCE à linee di flusso che indicano l’ordine in cui le azioni devono essere eseguite.

LINGUAGGI DI BASSO LIVELLO

Quando l’algoritmo viene scritto in un linguaggio comprensibile alla macchina diviene un programma. Tale linguaggio è
chiamato linguaggio di programmazione o linguaggio macchina à rappresenta una serie di istruzioni comprensibili per
quello specifico calcolatore.
Data la difficoltà per l’uomo di capire tale linguaggio, è nata l’esigenza di stabilire una corrispondenza fra questo
linguaggio e un linguaggio più vicino a quello naturale à sono nati così i linguaggi assembly o linguaggi assemblativi,
composti da espressioni che sono più facilmente memorizzabili dall’operatore umano. Durante l’esecuzione, il
programma trascritto in assembly viene riprodotto nel linguaggio macchina. Questi due linguaggi vengono detti
LINGUAGGI DI BASSO LIVELLO, perché sono composti da istruzioni elementari che la macchina deve compiere.

2
LINGUAGGI DI ALTO LIVELLO

Sono nati i LINGUAGGI DI ALTO LIVELLO che sono più vicini alle modalità di ragionamento umano (usano dei comandi e
dei codici più vicino al linguaggio naturale) e allo stesso tempo sono eseguibili facilmente dal calcolatore. Devono essere
CONCISI, SEMPLICI, SINTETICI E UNIVOCI, quindi NON AMBIGUI.
I primi linguaggi ad alto livello per la programmazione sono stati i FORMULA TRANSLATOR (FORTRAN) e il COMMON
BUSINESS ORIENTED LANGUAGE (COBOL). Questi linguaggi sono stati poi sostituiti da un nuovo paradigma,
rappresentato dal linguaggio ALGOrithmic LANGUAGE (ALGOL).
Tali linguaggi sono raggruppabili in famiglie:
- LINGUAGGI IMPERATIVI: quando i comandi sono una sequenza di passi che conducono alla soluzione di un
problema e quindi il programma è un insieme di comandi impartiti al calcolatore;
- LINGUAGGI DICHIARATIVI: rappresenta la descrizione delle caratteristiche che deve avere tale soluzione e il
programma è quindi un insieme di dichiarazioni.

Per tradurre un linguaggio di programmazione in linguaggio eseguibile esistono due metodi: interpretazione e
compilazione.
- INTERPRETAZIONE à metodo che permette all’interprete di eseguire il linguaggio seguendo i passi.
- COMPILAZIONE à metodo che permette al compilatore di tradurre il codice sorgente (il codice del linguaggio di
alto livello) in codice macchina , creando il codice oggetto che deve essere seguito dall’elaboratore.

LA RETE

Internet è uno strumento di trasmissione e diffusione dell’informazione in formato digitale à nasce nel 1969 dopo la
guerra fredda. Quando parliamo di internet, intendiamo sia l’infrastruttura fisica sia l’insieme di regole standardizzate
che consente lo scambio di informazioni.
La condivisione di informazione avviene grazie ai protocolli di comunicazione, ovvero gli strumenti che permettono la
comunicazione nei diversi livelli. Ad ogni livello è necessario un protocollo diverso.
PROTOCOLLI TCP/IP à gestiscono la trasmissione dei dati, che si basa sulla tecnica di commutazione di pacchetto: il
TCP suddivide il flusso dei dati in pacchetti mentre l’IP gestisce l’instradamento, ovvero li inoltra ai diversi destinatari.

Chiunque voglia immettersi sulla rete ha la necessità di utilizzare un protocollo; ogni nodo della rete deve essere però
univo e questa univocità viene garantita dall’impiego dell’indirizzo IP, ovvero una sequenza di numeri (4 gruppi di cifre
con valori dall’1 al 255) che identifica ogni computer della rete.
L’IP viene convertito in DOMINIO grazie al servizio di DNS per essere più facilmente memorizzabile dall’uomo.
Ad esempio l’IP 137.456.168.3 rappresenta la rete del dipartimento di Filologia di Bologna e corrisponde al dominio
linclass.classics.unibo.it.
Affinché un utente possa usufruire di un servizio Internet necessita di interagire con altri utenti à modello peer-to-
peer. Il client richiede un servizio al server e successivamente si scambiano informazioni. Il caso più noto è Emule.

Nel 1990 nasce il WORLD WIDE WEB, editor per ipertesti (programma per scrittura e composizione) e browser
(programma per lettura e navigazione). Il web è un’architettura basata sugli ipertesti che si serve di Internet. È formato
da diversi elementi:
- URI (UNIVERSAL RESOURCE IDENTIFIER) : serve ad identificare ogni singolo documento.
- URL (UNIVERSAL RESOURCE LOCATOR) : indirizzo fisico con il quale ogni risorsa può essere recuperata su internet.
- HTTP (HYPER TEXT TRANSFER PROTOCOL): è il protocollo che serve per lo scambio di dati sul web.
- HTML (HYPER TEXT MARKUP LANGUAGE): è il linguaggio utilizzato per la pubblicazione degli elementi pubblicati
sul WWW. È un marcatore di ipertesti. Tutti i documenti sono in formato HTML. Quello che vediamo durante una
navigazione sul web è il risultato dell’interpretazione del codice da parte di software che sono in grado di
convertirlo. All’HTML si sta progressivamente sostituendo l’ XHTML (EXTENSIBLE HYPER TEXT MARKUP
LANGUAGE), una ridefinizione di HTML. Il compito di questo nuovo linguaggio prevede un uso più restrittivo dei tag
HTML (sia in termini di validità che in termini di sintassi) per descrivere solo la struttura logica della pagina, mentre
il layout e la resa grafica sono imposti dai fogli di stile a cascata (Cascading Style Sheets, CSS).

3
RECUPERARE DOCUMENTI SUL WEB
DIRECTORY E MOTORI DI RICERCA

Per recuperare documenti sul web si possono adottare due tecniche:


- Si conosce l’url e lo si digita nella barra del browser;
- Ci si avvale delle directory o dei motori di ricerca;

Le directory sono una forma di organizzazione dei siti Web che segue uno schema di classificazione per argomento
simile a quello delle biblioteche (per arte, per musica, letteratura). Ogni directory definisce una serie di categorie entro
le quali far rientrare delle sottocategorie. Alcune delle directory più note sono: Yahoo, Virgilio e anche Google dispone
di un catalogo.

I motori di ricerca rappresentano la risorsa cui l’utente fa più spesso ricorso. L’interrogazione, ovvero la query, avviene
tramite delle parole chiave che vengono digitate e consentono di ricorrere all’url delle pagine richieste. La validità di un
motore di ricerca è data dalla precision del risultato, in relazione al rapporto tra le pagine trovate e quelle rilevanti,
ovvero quelle inerenti all’interrogazione richiesta e dal recall, ovvero la capacità del motore di ricerca di trovare il
maggior numero di pagine rilevanti.
Google rappresenta il motore di ricerca più utilizzato dagli utenti. Fra le sue principali caratteristiche vi è la velocità nei
tempi di risposta all’interrogazione dell’utente e il numero di pagine archiviate nel database. A questi bisogna
aggiungere una nuova tecnica ideata da Google ovvero la relevance ranking, cioè la modalità di selezione dei risultati
restituiti all’utente. Più un sito è linkato, più in alto verrà posta tra i risultati.

HTML

Il codice HTML consiste in una serie di tag racchiusi tra parentesi uncinate e aggiunte all’inizio e alle fine di ogni porzione
testuale. Il marcatore finale è costituito dall’istruzione preceduta da uno slash (/) ad indicare che il tag è concluso.
I marcatori (o tag) hanno la funzione di definire le caratteristiche di struttura e di aspetto del documento.
HTML ci permette di usare anche attributi, che hanno lo scopo di descrivere determinate caratteristiche del testo;
vengono inseriti all’interno del tag stesso dopo =”.
Alcuni esempi di tag:
- <p> paragrafo;
- <br> per andare a capo;
- <a> con l’attributo “href” per collegamenti ipertestuali;
- <img> con l’attributo “src” per aggiungere immagini;

Un altro importante tag è rappresentato da <META> à insieme ai suoi attributi, serve a auto-catalogare le pagine Web.
Come sappiamo, i metadati non sono altro che possibilità di aggiungere ad una pagina Web indicazioni relative alla sua
identificazione. Tutto ciò viene fatto per gestire e recuperare più in fretta i documenti.

HTML è un linguaggio di MARKUP basato su SGML à più precisamente è una DTD SGML. Purtroppo, è un linguaggio
che impone delle restrinzioni:
- È un linguaggio di rappresentazione chiuso à l’autore può scegliere solo entro un numero predefinito di elementi,
capaci di descrivere solo alcuni elementi testuali, omettendone altri.
- È un linguaggio dotato di una sintassi poco potente, incapace di descrivere elementi complessi à per questo non
può essere utilizzato come sistema di interscambio per contenuti informazionali elaborati.
- Predilige marcatori stilistici piuttosto che strutturali à si occupa maggiormente della descrizione dell’aspetto fisico
del documento piuttosto che della sua struttura logica.

4
DATABASE

Il database è una raccolta di dati omogenea relativa ad uno specifico dominio, cioè ad un determinato settore o
argomento, organizzato in modo strutturato. Si parla di dati strutturati quando tali dati sono accessibili all’interno del
database à ad esempio una descrizione bibliografica è un dato strutturato perché è possibile identificarne gli elementi
costitutivi: autore, titolo, casa editrice, luogo di edizione, data. Compito del DB è:
- AMMINISTRAZIONE à progettare, creare ed eliminare il DB;
- TRANSAZIONE à inserire, aggiornare, cancellare i dati;
- INTERROGAZIONE à accedere e consultare i dati.

SISTEMA INFORMATIVO à l’insieme di documenti che rappresenta i contenuti che caratterizzano una persona/ente;
un insieme di dati è un sistema informativo. à il DB
SISTEMA INFORMATICO à la piattaforma tecnologica che ospita il corpus di dati. à il DBMS
Quindi, il Db è un sistema informativo, ovvero una collezione di dati, che viene gestita da un sistema informatico, DBMS,
cioè un software che si occupa di gestione dei dati.

La fase di PROGETTAZIONE di un DB è la più importante e si può dividere in 3 livelli:


1. PROGETTAZIONE CONCETTUALE à MODELLO CONCETTUALE: ha il compito di individuare i dati, le relazioni
tra i dati e i vincoli esistenti. Lo strumento può utilizzato per la progettazione concettuale è il DIAGRAMMA
ENTITA’/RELAZIONE o MODELLO E/R.
2. PROGETTAZIONE LOGICA à MODELLO LOGICO: a questo livello si individuano le strutture dati necessarie per
realizzare il progetto. È proprio in questa fase che si sceglie il modello di dati (gerarchico, reticolare, relazionale,
a oggetti).
3. PROGETTAZIONE FISICA à MODELLO FISICO: è il livello più vicino al software; in quest’ultima fase vengono
definiti i parametri di memorizzazione e di ricerca dei dati. Da questa fase scaturisce la scelta dello schema
fisico dei dati.

MODELLO LOGICO à insieme dei concetti utilizzati per organizzare i dati e descriverne la struttura in modo
comprensibile per il calcolatore.
Esistono diversi tipi di modello logico:
1. MODELLO GERARCHICO: basato su strutture ad albero;
2. MODELLO RETICOLARE: basato sull’uso di grafi;
3. MODELLO RELAZIONALE: basato sulla strutturazione dei dati in tabelle; è lo strumento più utilizzato. In
questo schema, ogni tabella è una relazione fra i suoi elementi ed è caratterizzato da un numero fisso di
colonne, dette ATTRIBUTI O CAMPI, e da un numero variabile di righe, dette TUPLE O ENNUPLE.
Devono essere rispettate delle condizioni:
- Ogni colonna deve avere un’intestazione diversa dall’altra, quindi un nome;
- Ogni colonna deve contenere dei valori omogenei, ovvero che appartengono allo stesso dominio (per esempio
l’attributo “autore” deve avere dei valori che corrispondono a nomi di persona);
- Ogni riga deve essere diversa dall’altra e soprattutto deve essere identificata univocamente. Affinché sia possibile,
ogni riga deve contenere un valore univoco che la distingua dalle altre à CHIAVE IDENTIFICATIVA UNIVOCA
(CHIAVE ID). Questo campo di solito accoglie un numero intero. Quando si collegano elementi all’interno di una
stessa tabella, si parlerà di CHIAVE PRIMARIA (PRIMARY KEY), mentre se vogliamo creare un collegamento tra più
tabelle si utilizzerà la CHIAVE ESTERNA (FOREIGN KEY).
- La posizione delle righe e colonne è irrilevante;

Il modello relazionale vede il suo successo proprio grazie al fatto che è possibile creare delle relazioni basati
esclusivamente su valori e proprio tramite le chiavi che è possibile mettere in relazione tabelle diverse. Però, è possibile
che si incorra in anomalie o doppioni dettati dall’errato inserimento di dati. Per questo, si parlerà di NORMALIZZAZIONE,
un processo che tende ad eliminare la ripetizione dei dati (ridondanza) scomponendo le tabelle in tabelle più piccole e
senza anomalie.

4. MODELLO A OGGETTI: basato sul concetto di oggetto e di classe;

SCHEMA à indica la descrizione dei dati, ovvero tutta la serie di aspetti che si vogliono enunciare;
ISTANZA à indica la serie dei valori associati al DB e dipende dal modello logico utilizzato.

5
LINGUAGGI DI MARKUP

Il termine “markup” deriva dalla stampa tipografica tradizionale e si riferisce a quell’insieme di simboli e annotazioni
che l’autore o l’editore aggiunge al manoscritto per istruire lo stampatore sulle caratteristiche del documento da
destinare alla stampa; quindi, indica la possibilità di aggiungere al testo notizie legate alla visualizzazione e quindi
all’aspetto del documento. Il markup viene chiamato in linguistica computazionale anche ANNOTAZIONE DEL TESTO.
Tali notizie aggiuntive possono riguardare due differenti aspetti del documento:
- ASPETTO à formattazione, stile del carattere, disposizione degli elementi nella pagina, allineamento;
- STRUTTURA LOGICA à creazione di blocchi di testo (paragrafi,titoli,note).

È possibile distinguere due tipi di markup:


- MARKUP PROCEDURALE/SPECIFICO à consiste in un insieme di istruzioni operative che indicano la struttura e la
composizione della pagina, le spaziature, la caratteristica dei font; è detta proprio procedurale in quanto indica alla
macchina la procedura per proseguire alla stampa. Per l’umanista, però, sono indispensabili anche altri aspetti che
nel markup procedurale non sono analizzati (ad esempio la segnalazione di titoli e di paragrafi, intestazione,
indicazioni di note), per questo si è rilevata indispensabile la creazione del markup dichiarativo.
- MARKUP DICHIARATIVO/GENERICOà il markup dichiarativo è formato da una serie di marcatori o tag; si
concentrano quindi sulla struttura del testo e delegano ad altri linguaggio il compito del layout. Si interessa della
struttura logica.

I principali linguaggi di markup dichiarativo sono:


1. SGML à è il capostipite;
2. HTML à derivazione del linguaggio SGML pensata per l’esecuzione di ipertesti;
3. XML à sottoinsieme di SGML pensato per la realizzazione di testi elettronici fruibili sul Web;

SGML

Il termine vuol dire “STANDARD GENERALIZED MARKUP LANGUAGE” à nasce con l’obiettivo dell’interscambio di
documenti tra hardware e software diversi e garantire la portabilità dei dati.
Si basa su un markup dichiarativo e quindi si interessa principalmente alla struttura logica del testo piuttosto che al suo
aspetto. Si fonda sull’idea che ogni documento debba essere dotato di una struttura logica definibile tramite una
rappresentazione ad albero in cui ciascun nodo dell’albero corrisponde ad un elemento.
Più che un linguaggio, è necessario definirlo come un METALINGUAGGIO che fornisce esclusivamente le regole
sintattiche necessarie alla creazione di altri linguaggi di markup.

I marcatori utilizzati nei linguaggi di markup sono racchiusi in un vocabolario di marcatura detto DEFINIZIONE DEL TIPO
DI DOCUMENTO (DTD) à è la grammatica del metalinguaggio. All’interno sono elencati:
- Tag necessari alla struttura e all’aspetto del testo;
- Descrizione di ogni elemento, il loro ordine e se possono apparire à quanti parole in un paragrafo;
- Simboli che rappresentano abbreviazione, forme contratte.

XML

È stato creato nel 1996 e vuol dire Extensible Markup Language à è un sottoinsieme di SGML nato in seguito ai limiti
di HTML, soprattutto per la creazione di documenti sul WWW. Si tratta quindi di un METALINGUAGGIO.
La differenza sta nel fatto che possono essere utilizzati dei tag a piacimento e ciascun elemento dovrà poi essere
associato ad uno schema che ne definisce la grammatica, il vocabolario à SCHEMA XML.
Rispetta alcune regole rigide:
- E’ CASE SENSITIVE à si deve fare attenzione alle maiuscole e alle minuscole.
- Il valore dell’attributo deve essere sempre messo tra le virgolette nel tag à <immagine di riferimento=”img.jpg.”/>
- I tag devono essere inseriti in modo corretto à <a><b></b></a>.
- Deve esistere un tag iniziale, chiamato RADICE, che contenga tutti gli altri.

TEI (TEXT ENCODING INITIATIVE) à creato nel 1987, è un consorzio di istituzioni internazionali, di ambito linguistico e
letterario, che ha sviluppato uno standard per la rappresentazione dei testi in formato digitale.

6
IPERTESTI

L’ipertesto è un insieme non lineare di documenti con informazioni di varia natura (testi, immagini, brani musicali,
filmati), collegati l'uno all'altro per mezzo di connessioni logiche e rimandi ( link ) che consentono all'utente di costruirsi
di volta in volta un autonomo percorso di lettura.
Alcune delle caratteristiche principali dell’ipertesto sono:
- MULTISEQUENZIALITA’ E MULTILINEARITA’ à consentono un’organizzazione dei contenuti in modo che siano
liberamente fruiti dal lettore, secondo le sue esigenze.
- INTERATTIVITA’ à possibilità offerta al lettore di manipolare i documenti, di agire e modificare il testo.
- MULTIMEDIALITA’ à i blocchi di testo degli ipertesti possono essere costituiti anche da video, foto, audio.

Esistono quattro tipologie di strutture per ipertesti:


- IPERTESTI A SEQUENZA LINEARE à ogni pagina è collegata alla successiva in modo sequenziale; l’unica modalità
di navigazione è quella di scorrere le pagine una dopo l’altra
- IPERTESTI A STRUTTURA GERARCHICA O AD ALBERO à da una pagina principale, se ne diramano altre in un altro
livello; ogni livello dell’albero può essere ulteriormente articolato in sotto pagine;
- IPERTESTI A GRIGLIA à ad ogni nodo della griglia si aggiunge la possibilità di approfondimento con altri nodi
disposti secondo la struttura ad albero;
- IPERTESTI A STRUTTURA A RETE O A GRAFO à tutte le pagine possono essere collegate fra di loro.

ARCHITETTURA DI UN IPERTESTO

Con architettura si intende l’organizzazione dell’ipertesto nelle sue pagine: come si articola e da quali elementi è
costituito. Gli elementi sono:
- STRUMENTI DI NAVIGAZIONE à il cui scopo è fornire al lettore un’idea dei contenuti proposti nell’ipertesto e
soprattutto far capire com’è strutturato e costruito;
1. Metanavigazione à sezione della pagina in cui vengono messi a disposizione dell’utente strumenti di aiuto e
funzionalità generali: motore di ricerca, mappa, guida alla navigazione;
2. Navigazione Principale O Globale à le voci del navigatore devono avere un nome significativo che evochi
immediatamente i contenuti; il navigatore deve subito capire quale sarà la sua destinazione.
3. Navigazione Secondaria à comprende le sottosezioni e ne fa parte la navigazione contestuale, ovvero
elementi che si collegano ad altri elementi.
4. Briciole Di Pane à servono a mostrare il percorso e in quale pagina si trova il navigatore (Home > Sezione >
Sotto-sezione > Pagina corrente.)

- ELEMENTI DELLA PAGINA à le parti in cui si articola ogni singola unità di lettura. La struttura della pagina è
generalmente composta da: testata, corpo, barra di navigazione e piè di pagina.

PRINCIPI DI DIGITALIZZAZIONE E GESTIONE DELLE IMMAGINI

DIGITALIZZARE UN’IMMAGINE è un processo che ha lo scopo principale di trasformare un’immagine in digitale per
evitare la sua usura nel tempo oppure per effettuare modifiche all’immagine stessa. Per digitalizzare un’immagine si
utilizzano le unità di input, lo scanner. L’elaboratore è in grado di ricostruire l’immagine mantenendo i “punti” da cui è
composta e rispettando il suo valore à tali punti si chiamano pixel, in linguaggio informatico.
Il primo parametro da valutare per creare un’immagine digitale è il numero di pixel presenti à il termine “dpi” è l’unità
di misura impiegata per il numero di pixel presenti in un’immagine. MAGGIORE E’ IL NUMERO DI PIXEL, MAGGIORE
SARA’ LA RISOLUZIONE DELL’IMMAGINE, vale a dire la fedeltà all’oggetto originale.
Il secondo parametro è la profondità dei pixel, cioè la gamma di valori che ogni pixel può assumere. Ad esempio, in un
caso di immagine in bianco e nero, i valori che i pixel possono assumere sono solo 2: 1 per il bianco e 0 per il nero.
Invece, nel caso di immagine a colori, esistono migliaia di valori che ogni pixel può assumere: ad esempio in un’immagine
di 8 bit, ogni pixel può ottenere 256 (28) possibili valori, cioè sfumature di colore. In un’immagine a 24 bit ci sono un
totale 16,7 milioni di colori (224).

GIF à memorizza pochi colori (256) ed è utilizzato principalmente per immagine animate, pulsanti e bottoni;
JPEG à memorizza 16,7 milioni di colori ma comporta una perdita alta di dati in caso di compressione; adatto per la
pubblicazione di immagini sul Web;
PNG à consente dai 256 ai 16,7 milioni di colori, non comporta la perdita di dati; è un mix tra i due precedenti formati.
TIFF à formato che produce immagini di elevata qualità; non è compatibile con il web.

7
LINGUISTICA COMPUTAZIONALE E ANALISI DEL TESTO

La linguistica computazionale è la prima disciplina che ha affrontato il problema del TRATTAMENTO AUTOMATICO DEL
LINGUAGGIO NATURALE (TAL), vale a dire quella serie di pratiche orientate alla creazione di strumenti per accedere al
contenuto digitale dei dati linguistici, con l’obiettivo di acquisire conoscenza dai documenti testuali.
Con analisi del testo si intende il procedimento che consente di estrarre tutte le parole presenti in un testo, stabilendo
il numero di volte in cui ciascuna forma occorre. Tali risultati consentono di ragionare sull’uso di un certo vocabolario e
di stabilire ipotesi interpretative sul lessico.

TEXT RETRIEVAL (RECUPERO DI STRINGHE DI CARATTERI)

La prima fase di analisi del testo memorizzato in formato digitale è la verifica della presenza delle diverse forme testuali
presenti all’interno del testo à tale procedimento si chiama TOKENIZZAZIONE.
La macchina individua tutte le unità minime di testo compresa la punteggiatura, estrapola tutte le forme di quella parola
presenti nel testo e verifica il numero delle volte in cui compaiono, quindi DEFINISCE LE OCCORRENZE (TOKENS).

Successivamente, crea l’indice, ovvero l’elenco di tali parole che costituisce il vocabolario delle forme grafiche (TYPES).
Diremo quindi che il TYPE è la parola in astratto mentre il TOKEN la parola che si ripete un certo numero di volte.

Il passo successivo è la collocazione delle parole rispetto al contesto in cui si trovano à CONCORDANZE. Non sempre
nel preparare le concordanze vanno elaborate tutte le parti del testo: infatti si tende ad evitare articoli, congiunzioni (le
cosiddette “parole vuote”) perché non portano a nulla e si preferiscono aggettivi, sostantivi (“parole piene”).
L’analisi delle concordanze permette quindi di verificare il contesto d’uso del vocabolario e permette soprattutto di
capire il lessico di un autore.

Infine, si verifica quante volte la forma grafica occorre à FREQUENZE. Le liste di frequenze riportano le parole o in
ordine alfabetico oppure seguendo l’ordine di frequenza (il più utilizzato rispetto al meno utilizzato). La posizione che
ogni vocabolo occupa all’interno della lista di frequenze viene detta “rango”.

TEXT ANALYSIS

All’interno dell’analisi del testo, troviamo altri strumenti:


- NORMALIZZAZIONE à individua tutte le parole composte, riduce gli articoli con apostrofo, scioglie le sigle;
normalizza il testo.
- PART OF SPEECH (POS) à operazione con la quale si assegna ad ogni token una parte del discorso precisa
(preposizione, aggettivo);
- ANNOTAZIONE à arricchisce il testo di informazioni; ad esempio, arricchendo un parte del testo con tag particolari.
Le informazioni posso essere aggiunte direttamente al corpo del testo (annotazione embedded) o in un file separato
(stand-off annotation).
- LEMMATIZZAZIONE à operazione che individua un unico lemma, cioè un’unica forma grammaticale, per i vocaboli
che hanno delle forme flesse à mangiamo, mangiano diventa mangiare. Riduce ad unità questa forme
raccogliendole sotto un’unica forma base, quella che appare nel dizionario.
- STEMMING à processo che estrae la radice di una parola, rimuovendo le desinenze.
- PARSING à procedimento di analisi linguistica necessario a ricostruire la struttura sintattica di una frase.
- POS TAGGING à marca le diverse parti del discorso.