Sei sulla pagina 1di 30

C RAM: Random access Memory

CPU: Central Processing Unit


Bus di sistema
Memoria di Massa
Memoria flash : Pen drive, USB-driveAP. 1 DEFINIZIONI ED ORIGINI INFORMATICA

Le Periferiche di INPUT/ OUTPUT: strumenti che permettono all'utente di interagire con la


macchina tastiera e mouse (input) VS monitor e stampante (Output)

L'informatica è una disciplina che si occupa del trattamento automatico dell' informazione

SCIENZE DELL'INFORMAZIONE: in generale tutte quelle discipline che si occupano dei processi e dei sistemi
di reperimento, conservazione, trasformazione e trasmissione dei dati informativi.

Cosa fa la COMPUTER SCIENCE, quindi diremmo? C'è spazio per ambiguità? Ciò che la <costringe a fare è
trasformare i dati, tutti gli oggetti che portano informazioni, costruiti in base a precisi schemi e secondo
specifiche regole. Quello che è formalizzato diventa computabile. Ambiguità e indeterminatezza devono
essere sostituiti da schemi e regole, strutture e modelli.

L'informatica costringe i saperi tradizionali a fare cosa? Diremo che l'informatica obbliga a RENDERE
ESPLICITI I PROCESSI che coinvolgono l'oggetto di studio delle discipline umanistiche(Ciotti, 2002).
L'informatica cioè «costringe i saperi tradizionali a dichiarare e formalizzare le proprie procedure»
(Ferrarini, 2006).

La Informatica Umanistica (IU)affonda le sue radici nel settore della? - Le prime sperimentazioni sono
condotte con quale scopo e con chi nel 1949? Senza voler fare una storia dettagliata della IU , alcune
considerazioni sono necessarie per contestualizzare l'ambito di interesse di questa disciplina ormaisolo
relativamente recente. L' IU affonda le proprie radici in un settore denominato LINGUISTICA
COMPUTAZIONALE:- Le prime sperimentazioni disciplinari si collocano nel TENTATIVO di automatizzare
PROCEDIMENTI MANUALI di estrazione di parole da corpora di dati. Siamo nel 1949 e Padre Roberto Busa
inizia a produrre l'index verborum (o meglio le concordanze) degli opera omnia di Tommaso d'Aquino.

Si colloca negli anni 70 la fondazione della rivista ' Computers and the Humanities" e la salita di quali
associazioni? Un uso ancora strumentale della macchina informatica porta a una progressiva riflessione
sulle metodologie legate all' analisi del testo. Il risultato si colloca nella fondazione della rivista "Computers
and the Humanities" (siamo nel 1966) e nella nascita, negli anni settanta del secolo scorso, di due
importanti associazioni: l'Association for Literary and Lin-guistic Computing (ALLC; fondata nel 1973, e
l'Association for Computer in the Humanities (AcH, fondata nel 1978).Ogni anno ACH e ALLC organizzano
una conferenza internazionale che costituisce il punto di riferimento per il settore della humanities
computer science. Iniziano, dalla metà degli anni settanta, i primi convegni internazionali e nascono
numerosi centri di humanities computing. I membri di ACH e ALLC sono editor di un'altra importante rivista
di setto-re: "Literary and Linguistic Computing" < http://llc.oxfordjournals.org > (fondata nel 1986). ACH
gestisce poi la lista di discussione "Humanist", «an international electronic seminar on humanities
computing and the di-gitai humanities» < http://www.princeton.edu/ ~ mccarty/humanist/ > (il primo
volume è del 1987-88).

Alla fine anni 80 si ha poi lo SGML, e negli anni 90 cosa? Arriviamo così alla fine degli anni ottanta,
momento di riflessione sulle problematiche connesse con la rappresentazione digitale del testo tramite
linguaggi specifici di codifica. - La disponibilità dei personal computers permette nuove sperimentazioni nel
campo. Nel 1986 lo Standard Generalized Markup Language (SGML). Gli anni novanta del Novecento sono
segnati dall'avvento del World Wide Web che consente la pubblicazione online di materiali in formato
digitale e porta a un progressivo ampliamento dell'orizzonte di scambio nella comunità dell' IU.
Qual è l'obiettivo dell'umanista con L'informatica Umanista? Diremo che l'umanista deve essere in grado,
per ogni tipo di fonte su cui lavora, di comprendere quale è la strategia computazionale più adeguata.
Ogni fonte può essere cioè destinata a un trattamento differente, a seconda di quelle che sono le sue
caratteristiche: un testo letterario sarà sottoposto a un procedimento digitale diverso da un documento
d'archivio, l'immagine di un dipinto andrà trattata in modo differente da una raccolta bibliografi-
ca. Sarà poi necessario valutare cosa si intende fare con tale oggetto digitale
(riversarlo in rete o archiviarlo) e cosa si intende ottenere dalla risorsa digitalizzata (per esempio
visualizzarla, interrogarla, renderla scaricabile dall'utente). Ogni fonte materiale esigerà allora un diverso
approccio metodologico e tecnico: un manoscritto richiederà la digitalizzazione in formato immagine o in
formato testo; una raccolta di schede bibliografiche troverà nel database la sua strutturazione ideale; un
testo elettronico renderà necessario l'impiego di linguaggi formali di codifica come XML e così via.
Ogni oggetto digitale complesso disporrà allora di metodi diversi di inter-rogazione, consentirà il
reperimento di certi tipi di dato e prevederà l'impiego di strumenti differenti di accesso.

Importanti sono gli strumenti software, anche detti come? Per quale obiettivo e nel costruire cosa per
l'umanista? Diversi quindi i modelli di riferimento, ma anche gli strumenti software
(text tools), che consentiranno la creazione, la manipolazione e la fruizione
della risorsa digitale.
Per progettare OGGETTI DIGITALI COMPLESSI è da parte dell'Umanista, infatti necessaria non solo la
consapevolezza dell'oggetto della ricerca, ma anche delle tecnologie disponibili, significa innanzitutto
conoscenza dei principi che stanno alla base di tali strumenti.

Il memex è un calcolatore analogico dotato di un sistema di archiviazione, ideato dallo


scienziato e tecnologo statunitense Vannevar Bush negli anni trenta e mai realizzato, da molti considerato
il precursore del personal computer e degli ipertesti.

Cosa si intende con OGGETTO DIGITALE?

• OGGETTO DIGITALE: Con oggetto digitale intenderemo ogni forma di ARCHIVIAZIONE in memoria di
massa: un cesto, un documento, un'immagine ma anche un ipertesto o una base di dati. Parleremo di
oggetti digitali complessi in relazione alla presenza di più media o diversi linguaggi o ancora differenti
tecnologie che cooperano alla creazione dell'oggetto.

• STRUTTURA. Il concetto di struttura si applica, come vedremo, ha diversi livelli e


RIGUARDA l'organizzazione delle Componenti di un DATO. Diremo che in generale applicare una struttura
significa assegnare certe caratteristiche ad un dato, finalizzate alla sua rappresentazione informatica.

• CLASSE: Il problema della classificazione, cioè dell'organizzazione dei DATI in categorie, riguarda vari
ambiti di interesse: andiamo dal -concetto di classe nei database e nelle biblioteche (sistemi di
classificazione o categorizzazione) VS concetto di classe nei linguaggi di programmazione (programmazione
orientata agli oggetti) e nella costruzione di oncologie (modelli concettuali).

• MODELLO. Il concetto di modello va inteso a un duplice livello:


- come ASTRAZIONE e SCELTA delle unità da destinare alla rappresentazione informatica oppure VS
- come Linguaggio di Rappresentazione.
Es. Andiamo allora dal concetto di modello, come ad esempio nei linguaggi di markup, che significa
scelta delle unità di contenuto da destinare alla memorizzazione elettronica, ottenuta selezionando
determinate proprietà ritenute rilevanti, al medesimo concetto nelle basi di dati dove il modello è il
linguaggio di descrizione utilizzato per costruire la rappresentazione di una certa realtà.
• DATO/INFORMAZIONE/CONOSCENZA: Se a un livello zero parleremo di
- INFORMAZIONE: in riferimento al DATO (soggetto a una certa codifica), a un secondo livello:
-il DATO: diventa INFORMAZIONE quando è soggetto di un procedimento di Assegnazione di
Struttura. quindi Il dato diventa informazione quando gli viene associata una componente descrittiva.
Il livello successivo è la CONOSCENZA: intesa come informazione comprensibile alla macchina.

SISTEMA OPERATIVO ( OS= SO) = INSIEME dei programmi che consente all’utente di interagire con la
macchina. Il SO infatti:
- GESTISCE l’hardware, AGISCE COME piattaforma per i programmi, INTERPRETA ed ESEGUE (i comandi
impartiti dall’utente tramite i programmi applicativi,) GESTISCE: i dati e i programmi dell’utente tramite un
sistema di memorizzazione in file e cartelle.
- Tramite la UI, il SO rende semplice l’utilizzo delle risorse del calcolatore da parte dell’utente, essa infatti
è lo strumento che media fra l’utente e i dispositivi hardware e software.

- L’architettura di un SO è STRATIFICATA in più GESTORI:


-il gestore dei PROCESSI :organizza l’esecuzione dei programmi sul
processore,
-il gestore della MEMORIA Principale: che, in base ai diversi processi contemporaneamente in
corso, coordina le sezioni della memoria RAM interessate e coinvolte nell’esecuzione del processo,
-il gestore dei DISPOSITIVI I/O
- il gestore del File System
- il gestore della MEMORIA Secondaria: che ha il compito della
memorizzazione permanente sull’unità di disco di dati e programmi.

LINGUAGGI DI MARKUP Cap.4


I codici ASCII e UNICODE permettono la rappresentazione del testo " leggibile dalla macchina" (detto
come in informatica- inglese-)

- quale è il processo del Livello di Codifica, quindi?

- In Base ai limiti della Codifica, abbiamo codifica di Basso e Alto livello, ovvero?

Il codice ASCII e l’UNICODE sono strumenti che consentono la rappresentazione del testo in una

forma leggibile dal calcolatore, la cosiddetta Machine Readable form = livello di codifica (che è un

processo di conversione da un dato analogico al formato digitale, ovvero la sua rappresentazione


informatica)

LIMITI DI CODIFICA = portabilità e compatibilità + rappresenta nella memoria del pc solo la sequenza dei
segni grafici che rappresentano il testo, un testo però contiene una serie di informazioni a vari livelli.

Distingueremo:

la CODIFICA di BASSO livello =o codifica dei dati elementari

una CODIFICA di ALTO livello =o

rappresentazione dei dati a livello di strutture intermedie che chiamiamo MARKUP: Vi è possibilità di
aggiungere alla sequenza di caratteri che rappresentano il documento digitale altre STRINGHE di caratteri
denominate MARCATORI utili a descrivere determinati aspetti funzionali alla produzione del documento
elettronico MARKUP = con esso è possibile aggiungere notizie legate alla visualizzazione e all’aspetto del
documento ma è possibile anche assegnare a sezioni del testo altri elementi descrittivi che ne definiscono
certe caratteristiche. Chiamato anche annotazione del testo = passo preliminare per ogni operazione di
successiva elaborazione o trattamento del documento digitale, elementi ed attributi sono definibili come
strumenti per il markup.
- È un processo interpretativo, risultato dall’analisi di un testo e riguarda la costruzione di un modello di
quel testo che è più adeguato alle esigenze della rappresentazione elettronica. Codificare tramite
linguaggi formali di rappresentazione del testo = vuol dire contribuire ad arginare questa
perdita, effettuare un’analisi del testo, mirata a individuarne le caratteristiche e formulare una
interpretazione della fonte
Tipologie di markup:
- Proprietario VS un organizzazione ne detiene la proprietà
NON proprietario = può essere creato e definito dall’azienda che lega le istruzioni di
codifica all’applicativo in grado di interpretarle oppure può presentarsi con un set di istruzione
standard e condivise da un insieme di organizzazioni che non ne detengono la proprietà
- Leggibile VS non leggibile = può essere delegato a un applicativo che incorpora e nasconde i
marcatori rendendo il file interpretabile solo dall’applicativo in questione, in quello leggibile invece
non è necessario ricorrere a nessun particolare programma per la visualizzazione
- Orientato al layout VS orientato alla struttura = si possono usare marcatori o per definire
caratteristiche fisiche del documento oppure per segnalare elementi di struttura logica
- Procedurale VS dichiarativo = nel primo caso si presenta sotto forma di istruzioni che specificano
determinate caratteristiche, nel secondo caso le indicazioni sono orientate alla descrizione di certe
caratteristiche formali

Abitualmente usiamo quale forma di Markup? Con l'uso di quali segni? - Qual è la funzione/scopo dei
linguaggi markup?

Abitualmente utilizziamo una forma di markup che potremmo definire puntuazionale = l’impiego di segni di
interpunzione mostra come l’uso di simboli notazionali veicoli la leggibilità del documento. Il termine

markup deriva dalla stampa tipografica per riferirsi a quell’insieme di simboli e annotazioni che l’autore o

l’editore aggiunge al manoscritto per istruire lo stampatore sulle caratteristiche del documento

Funzione linguaggi di markup = fornire un insieme di strumenti che consentano di aggiungere notizie sul
testo, queste notizie possono riguardare l’aspetto formattazione e disposizione di elementi nella pagina

Descrivi i sistemi di " Word processing" and di " Text Processing"

- Qual è uno dei problemi dei software proprietari (word)? - What does RTF stand e che tipo di formato?

Sistemi di WORD PROCESSOR = programmi che consentono di fare operazioni di scrittura, correzione e
lettura di un testo TEXT PROCESSING = programmi che sfruttano le potenzialità grafiche del calcolatore per
tentare di rappresentare sul video esattamente ciò che apparirà sulla carta stampata

-Un problema dei software proprietari (word) è che questi legano l’elaborazione del testo a un
determinato programma, rendendo problematica la portabilità tra hardware e software diversi, impiegano
caratteri di controllo invisibili che rendono il file leggibile solo dal sistema che l’ha generato

Microsoft = formato RTF (Rich Text Format) = proprietario ma leggibile che consente lo scambio di
documenti tra varie applicazioni, il testo del documento RTF viene arricchito di nuove informazioni sulla
formattazione

Differenza tra Markup Procedurale VS Markup Dichiarativo:


- 1) Da cosa sono costituiti i linguaggi di Generic Markup?
Markup PROCEDURALE = insieme di istruzioni operative che indicano localmente la struttura tipografica e
compositiva della pagina. Tipo di marcatura che indica alla macchina alle procedure di trattamento a cui
deve sottoporre la sequenza di caratteri al momento della stampa. Limiti = le divisioni del testo in sezioni
o capitoli in un markup del genere vengono perdute in quanto non segnalate, e quindi per accedere ad
esse è necessario conoscerne alla resa tipografica.

Markup DICHIARATIVO = si è reso necessario un altro tipo di linguaggio che consentisse la


rappresentazione della struttura astratta del documento, linguaggi di markup generico ove i simboli sono
prevalentemente indicatori di struttura.

- linguaggi basati su Generic markup sono costituiti da un insieme di identificatori


chiamati i TAGS che indicano la funzione logico-strutturale assolta dal suddetto blocco di testo. Poiché
dichiarano a quale tipo di struttura appartiene una porzione della fonte, tali linguaggi sono anche detti
dichiarativi essi delegano ad altri linguaggi il compito del layout.

I linguaggi markup dichiarativi sono:


- SGML = standard ISO ufficiale per la creazione di testi in MRF , è stato elaborato nel 1986 per
definire uno schema linguistico standard internazionale nell'ambito della codifica dei testi. Il suo
obiettivo è consentire l'interscambio di documenti in formato elettronico tra ambienti hardware e
software diversi. Si basa su un markup generico, .La sua è
una struttura astratta identificata in una rappresentazione ad albero in cui a ciascun nodo corrisponde
un elemento e ai rami uscenti corrispondono le relazioni tra elementi e sotto-elementi a un dato
livello. SGML può definire un insieme di marcatori che adempiano al compito primario dello
standard. È dotato di sintassi astratta che spiega come operare il markup di un documento testuale,
fornendo regole che istruiscono l'utente su come aggiungere i marcatori. È un METALINGUAGGIO che
fornisce solo le regole sintattiche necessarie all'edificazione di altri linguaggi di markup di testi. Per
l'uso dei caratteri SGML propone l’ISO 646 comune nel mondo anglofono ma insufficiente per le
altre lingue perché potrebbero esigere lettere accentate e alfabeti diversi, consente però di usare
riferimenti di entità e di specificare un altro set di caratteri che si intende usare, è infatti indipendente
dalle lingue e può essere usato anche per le lingue che non usano l'alfabeto latino.

- HTML = è un formato:
- non proprietario basato su SGML, è una DTD SGML che nasce nel rispetto
delle specifiche della sintassi dello standard e che prescrive un vocabolario legato a quella classe di
documenti che sono gli ipertesti. Il limite principale è l'incapacità di fornire una adeguata
rappresentazione dell'informazione. È:
1. Un linguaggio di rappresentazione CHIUSO = si può scegliere entro un numero predefinito di
elementi
2. E’ un linguaggio che ha una sintassi poco potente incapace di descrivere fenomeni complessi
3. Predilige marcatori stilistici più che strutturali

- XML = Progetto iniziato nel’ 96 nell'ambito della SGML activities del W3C, nel ‘98 le specifiche
sono diventate una raccomandazione ufficiale, con il nome di Extensible Markup Language. È un
sottoinsieme di SGML semplificato e ottimizzato per applicazioni in ambiente web , permette di
specificare molte classi di linguaggi di marcatura . Grande novità e la descrizione logica delle
informazioni testuali in formato leggibile e comprensibile dall'utente, prescindendo dalle indicazioni
relative a come i dati devono essere visualizzati = solo in un secondo momento i dati marcati in
XML possono ricevere istruzioni circa le modalità di visualizzazione. Il markup XML esprime
quindi valore della stringa di caratteri cui il tag è associato a prescindere dalle modalità di resa
grafica appunto focalizza la codifica sulla struttura e quindi sul valore dei blocchi logici,
documentando l'ordinamento gerarchico che sovraintende all'organizzazione degli elementi della fonte

La DTD (definizione del tipo di documento- Document type definition) non è in grado di distinguere fra tipi
di dati ed elementi XML che appartengono a un dato tipo con XML schema è possibile definire dei tipi di
dati e poi dichiarare quegli elementi che fanno parte di ciascun tipo, si tratta di un linguaggio formale
espressivo, perché adeguato alle caratteristiche sintattiche di XML.

XML è CASE SENSITIVE=


-il valore dell'attributo va sempre posto tra virgolette,
-è necessario un corretto andamento dei marcatori, deve esistere un tag che contiene tutti gli altri,
possono essere usati:
a)elementi vuoti, ovvero marcatori che non racchiudono blocchi o porzioni di testo ma forniscono
un'indicazione come la fine di una riga.

XML per la rappresentazione di dati semi-strutturati = è detto anche linguaggio SELF-DESCRIBING = dispone


degli strumenti sufficienti per essere autonomo nella descrizione di un documento, è un formato di
scambio molto usato in ambito informatico, da un lato ha un sistema per la descrizione analitica di
ipotesi interpretative espresse sul testo, dall'altro è un linguaggio di interscambio tra applicazioni.

Documenti DATA centric = sono quelli che presentano una struttura chiaramente individuabile e possono
essere rappresentati in un database.

Documenti DOCUMENT centric = dispongono di una struttura solo


sommariamente risolvibile, possono meglio essere rappresentati utilizzando tecnologie di markup, sono
usati per essere eletti da un utente umano.

—Per trasformare un file XML in database ci sono 2 possibilità:

1) RIVERSARE un file XML in un database relazionale quando abbiamo data centric con dati semplici e
strutturati
2) CREARE un database XML NATIVO (consigliato quando si hanno dati semi strutturati e nel caso di
document centric)

Concetto di testo = organizzazione rigidamente gerarchica degli elementi costitutivi. Teoria OHCO è stata


presentata per la prima volta da un gruppo di studiosi americani ed è confluita in un importante articolo
che nasce da questa riflessione , i limiti di questa teoria sono dovuti al fatto che non tutti gli oggetti
testuali sono rigidamente gerarchici, mentre il markup SGMLEXML impone tale tipo di rappresentazione.
{ Questo pone limiti alla rappresentazione di strutture fluide così come la casistica della over planning
hierachies che possono esorbitare l'organizzazione logica degli elementi testuali punto il problema delle
gerarchie sovrapposte e che rompono la ben formatezza della XML}.
-Il documento non è solo un veicolo materiale, all'atto della memorizzazione esiste un testo come
riprodotto da uno specifico esemplare materiale, una sequenza codificata e variabile di significati grafici.

Ogni modello di testo è il risultato del punto di vista assunto sulla fonte ed è l'espressione del livello di
analisi testuale che lo studioso intende affrontare, il limite del concetto di testo è la problematicità della
definizione di genere letterario e l'ambiguità del concetto di punto di vista appunto ci sono dei macro-livelli
di intervento interpretativi, sono tre e corrispondono a 3 modelli( o 3 punti di vista):
- STRUTTURA =individuazione delle partizioni principali e secondarie del testo
- RAPPRESENTAZIONE (formato) = si intende l'aspetto FISICO del Documento, la RIPRODUZIONE in
formato digitale delle caratteristiche della versione cartacea.
- Fenomeni INTERLINEARI /CONTENUTO = scelta specifica dei fenomeni virgola in relazione alle esigenze
analitiche del lavoro di resa elettronica
Per agevolare la portabilità dei prodotti digitali e per consentire la condivisione dei formati di scambio è
stato realizzato un progetto denominato TEI= è una DTD per testi umanistici, uno schema di codifica che
vuole contemplare tutta la serie di fenomeni di interesse umanistico e trovare per ciascuno un vocabolario
unico{L'obiettivo è arrivare ad una formalizzazione per normalizzare i criteri, modalità e lessico del markup}.

Abitualmente utilizziamo una forma di markup che potremmo definire puntuazionale = l’impiego di segni di
interpunzione mostra come l’uso di simboli notazionali veicoli la leggibilità del documento.{ Il termine
markup deriva dalla stampa tipografica per riferirsi a quell’insieme di simboli e annotazioni che l’autore o
l’editore aggiunge al manoscritto per istruire lo stampatore sulle caratteristiche del documento}

Funzione linguaggi di markup = fornire un insieme di strumenti che consentano di aggiungere notizie sul
testo, queste notizie possono riguardare l’aspetto formattazione e disposizione di elementi nella pagina

Vi è possibilità di aggiungere alla sequenza di caratteri che rappresentano il documento digitale


altre STRINGHE di caratteri denominate MARCATORI utili a descrivere determinati aspetti
funzionali alla produzione del documento elettronico
MARKUP = con esso è possibile aggiungere notizie legate alla visualizzazione e all’aspetto del documento
ma
è possibile anche assegnare a sezioni del testo altri elementi descrittivi che ne definiscono certe
caratteristiche. Chiamato anche annotazione del testo = passo preliminare per ogni operazione di
successiva
elaborazione o trattamento del documento digitale, elementi ed attributi sono definibili come strumenti
per il
markup
- È un processo interpretativo, risultato dall’analisi di un testo e riguarda la costruzione di un modello di
quel testo che è più adeguato alle esigenze della rappresentazione elettronica

Codificare tramite linguaggi formali di rappresentazione del testo = vuol dire contribuire ad arginare
questa
perdita, effettuare un’analisi del testo, mirata a individuarne le caratteristiche e formulare una
interpretazione della fonte

Tipologie di markup:
- Proprietario VS
NON proprietario = può essere creato e definito dall’azienda che lega le istruzioni di
codifica all’applicativo in grado di interpretarle oppure può presentarsi con un set di istruzione
standard e condivise da un insieme di organizzazioni che non ne detengono la proprietà
- Leggibile VS non leggibile = può essere delegato a un applicativo che incorpora e nasconde i
marcatori rendendo il file interpretabile solo dall’applicativo in questione, in quello leggibile invece
non è necessario ricorrere a nessun particolare programma per la visualizzazione
- Orientato al layout VS orientato alla struttura = si possono usare marcatori o per definire
caratteristiche fisiche del documento oppure per segnalare elementi di struttura logica
- Procedurale VS dichiarativo = nel primo caso si presenta sotto forma di istruzioni che specificano
determinate caratteristiche, nel secondo caso le indicazioni sono orientate alla descrizione di certe
caratteristiche formali
Concetto di testo = organizzazione rigidamente gerarchica degli elementi costitutivi. Teoria OHCO è stata
presentata per la prima volta da un gruppo di studiosi americani ed è confluita in un importante articolo
che nasce da questa riflessione punto i limiti di questa teoria sono dovuti al fatto che non tutti gli oggetti
testuali sono rigidamente gerarchici, mentre il markup SGMLEXML impone tale tipo di rappresentazione.
{ Questo pone limiti alla rappresentazione di strutture fluide così come la casistica della over planning
hierachies che
possono esorbitare l'organizzazione logica degli elementi testuali punto il problema delle gerarchie
sovrapposte e che rompono la ben formatezza della XML}.
-Il documento non è solo un veicolo materiale, all'atto della memorizzazione esiste un testo come
riprodotto da uno specifico esemplare materiale, una sequenza codificata e variabile di significati grafici.

Ogni modello di testo è il risultato del punto di vista assunto sulla fonte ed è l'espressione del livello di
analisi testuale che lo studioso intende affrontare, il limite del concetto di testo e la problematicità della
definizione di genere letterario e l'ambiguità del concetto di punto di vista appunto ci sono dei macro-livelli
di intervento interpretativi, sono tre e corrispondono a 3 modelli( o 3 punti di vista):
- STRUTTURA =individuazione delle partizioni principali e secondarie del testo
- RAPPRESENTAZIONE (formato) = si intende l'aspetto FISICO del Documento, la RIPRODUZIONE in
formato digitale delle caratteristiche della versione cartacea.
- Fenomeni INTERLINEARI /CONTENUTO = scelta specifica dei fenomeni virgola in relazione alle esigenze
analitiche del lavoro di resa elettronica
Per agevolare la portabilità dei prodotti digitali e per consentire la condivisione dei formati di scambio è
stato realizzato un progetto denominato TEI= è una DTD per testi umanistici, uno schema di codifica che
vuole contemplare tutta la serie di fenomeni di interesse umanistico e trovare per ciascuno un vocabolario
unico.{L'obiettivo è arrivare ad una formalizzazione per normalizzare i criteri, modalità e lessico del
markup}.

FORMALIZZAZIONE ED ELABORAZIONE INFO. Macchina ed


ingranaggi cap.1
INFORMATICA: s’intende la SCIENZA che studia i "sistemi di RAPPRESENTANZIONE ed ELABORAZIONE
dell’ INFORMAZIONE" (sia in modo concreto che astratto).
- Il calcolatore è un AUTOMA: (ossia una macchina capace di eseguire compiti ed attività che portano ad
un risultato in modo automatico)
P.S.{partendo da un problema da risolvere, l’elaboratore elettronico esegue determinate operazioni,
descritte con precise istruzioni, per arrivare ad una soluzione}.

Cos'è il " Calcolatore", e quando ed in che modo esegue compiti? Il CALCOLATORE: è una macchina in grado
di eseguire compiti quando espressi in modo FORMALE (cioè basati su precise regole e comunicati
attraverso un determinato CODICE), -accetta Istruzioni quando la Rappresentazione dell'Informazione
avviene tramite SIMBOLI (che stanno al posto dei Contenuti Concreti).

La trasmissione digitale deve avere simboli computabili, ovvero?


- Le istruzioni per essere eseguibili devono utilizzare cosa?
- a Questo punto Cosa è il Calcolatore e cosa sono quindi i Programmi? La trasmissione di informazione
deve avvenire in un formato DIGITALE: per ora diremo che i simboli diventano COMPUTABILI (quando
sono espressi in forma comprensibile alla macchina)
- Un aspetto è comprendere come debbano essere espresse le ISTRUZIONI in modo tale che
divengano eseguibili dal calcolatore attraverso dei PROGRAMMI.
I CALCOLATORI sono nati DOPO (l’ideazione di macchine astratte) cioè teorizzazioni sulla calcolabilità.
{Con la rappresentazione astratta di una macchina è possibile analizzare il suo comportamento senza la
necessità di una sua realizzazione fisica.}
P.S. Godel e Turing, primi ideatori delle macchine computazionali astratte, cercarono di verificare se ogni
algoritmo fosse risolvibile in modo automatico.

- Le caratteristiche "formali" di una macchina astratta :furono identificate per la prima volta da Turing, il
quale ideò una macchina composta da questi elementi = un nastro infinito suddiviso in celle, ognuna delle
quali può contenere un solo simbolo tra quelli appartenenti all’alfabeto finito, una testina di lettura e
scrittura preposta alla lettura del simbolo della cella sulla quale è posizionata e alla scrittura sul nastro;
parallelamente alla testina vi è un meccanismo che muove il nastro una casella alla volta, un’unità di
controllo che sposta la testina e determina una serie finita di stati che la macchina può assumere (automa a
stati finiti).

-Von Neumann comprese che la macchina universale poteva essere realizzata praticamente: si ha: a) una
memoria in cui sono presenti i dati e i programmi (M), b) un’unità di controllo centrale che presiede a
tutte le operazioni del calcolatore, interpretando le istruzioni prelevate dalla memoria e c)inviando alle
altre unità i segnali per l’esecuzione delle operazioni (CC), un’unità aritmetica che esegue operazioni
aritmetiche e restituisce i risultati all’utente (CA), un’unità di input per l’immissione di dati e programmi (I),
un’unità di output (O).

- Il CALCOLATORE è dunque un Esecutore di Programmi e un PROGRAMMA: altro non è che


un : Insieme di Istruzioni espresse in modo formale ( cioè tramite un algoritmo) Cosa hanno il compito di
tradurre l' algoritmo da dare al calcolatore per una forma eseguibile? I LINGUAGGI DI
PROGRAMMAZIONE: hanno il compito di tradurre l' algoritmo in forma eseguibile dal calcolatore

Cos'è un Algoritmo? ALGORITMO: un INSIEME di Regole volte a Risolvere un problema attraverso un


insieme FINITO di Operazioni

Oggetto digitale = file di qualsiasi tipo. Per risolvere un problema esso deve essere descritto in modo
formale e rigoroso, nonché tramite una sequenza di passi finita.

- Affinché un ALGORITMO sia
eseguibile dalla macchina è necessario che rispetti determinate condizioni:
1. ogni istruzione deve essere univoca
2. ogni istruzione deve essere eseguibile dalla macchina in un numero finito di passi
3. l’esecuzione dell’algoritmo deve arrivare a compimento e dunque terminare

L’unico codice comprensibile dalla


macchina è il :
- CODICE BINARIO = codice a base 2, le macchine possono manipolare solo i 2 simboli (o segni)
della notazione binaria (0-1): la codifica binaria consente la codifica di un numero infinito di fenomeni, a
condizione che i suoi 2 simboli siano organizzati in gruppi e che la loro posizione in una
sequenza sia significativa, dunque ogni oggetto digitale è una sequenza di 0 e 1.
- Per BIT (cifra binaria): s’intende UNITÀ DI MISURA che consente di calcolare quanti 0 e 1 compongono
un oggetto digitale;
-Ogni simbolo (0 e 1) =1 bit (equivale a 1 bit): 1 byte rappresenta una sequenza di 8 bit e dal momento che
ogni bit può assumere 2 stati, un byte conta in totale 256 possibili combinazioni (2⁸=256).
( La descrizione di algoritmi: generalmente avviene tramite Diagrammi di Flusso)
-Le strutture algoritmiche possono essere:
- sequenziale
- selettiva
- iterativa

codificazione dell’algoritmo:
- risoluzione
- codifica
- esecuzione

-Per agevolare la programmazione, è stata stabilita una corrispondenza tra : a) le sequenze di bit della
macchina ed b)un linguaggio simbolico: sono nati così i LINGUAGGI ASSEMBLY

linguaggi di BASSO livello= Linguaggio macchina e assembly

Linguaggi ad ALTO livello = raggruppati in famiglie, in base alla metodologia di programmazione:

- linguaggi imperativi
- dichiarativi
- ad oggetti

I TIPI DI DATI: (data type) è l’insieme dei valori e l’insieme delle operazioni che possono essere assegnati a
dati come (numeri interi decimali, caratteri alfanumerici). Per i SIMBOLI ALFANUMERICI, esiste una tavola
di corrispondenza tra le cifre binarie e tali simboli.

Ogni momento del processo algoritmico procede per scelte binarie in base a una condizione che può essere
vera o falsa (proposizione logica).

-Nell’ ALGEBRA BOOLEANA: le operazioni logiche principali sono AND (congiunzione), OR (disgiunzione)


e NOT (negazione), i 2 valori di verità sono rappresentati come 0 (falso) e 1 (vero). La combinazione di 2
valori, tramite le 3 operazioni logiche, produce le TAVOLE DI VERITÀ .

-Nella Comunicazione Uomo-macchina: i dati vengono a) comunicati all’elaboratore dall’uomo tramite


un’unità di Input e tramite un codice noto all’uomo, b) quindi i dati vengono interpretati dalla macchina
secondo il suo codice, e poi li c) restituisce, tramite le unità di Output, nel codice noto all’uomo.

Sono 2 le componenti principali che costituiscono l'elaboratore:


HARDWARE: che è l'insieme dei " Dispositivi Fisici" che consentono alla macchina di
funzionare
SOFTWARE: rappresentato dai " Programmi", grazie ai quali la
macchina risolve classi di PROBLEMI (dove per problema intenderemo per esempio salvare, spostare,
copiare file, ma anche navigare il Web o creare documenti), memorizzati su determinati supporti ed
eseguiti da specifici dispositivi.

La TAVOLA DI CORRISPONDENZA: formata dalle corrispondenze biunivoche tra i simboli notazionali che


caratterizzano un determinato sistema di scrittura e la relativa sequenza in codice binario è detta Coded
Character Set (CCS).

-Esistono molteplici tavole di caratteri basate su sequenze binarie: la più nota è :


l’American Standard Code for Information Interchange (ASCII),: che essendo formata da sequenze binarie
di 7 bit per ogni simbolo, consente la rappresentazione di 128 simboli ( 2⁷= 128) .
(Tale codice è BASATO sull’alfabeto delle LINGUE ANGLOSASSONI , perciò manca di tanti caratteri usati in
altri alfabeti.
- Sono state definite delle tavole standard da parte dell’International Standards Organization
(ISO) secondo un metodo codificato nello standard ISO 8859-n. La corretta lettura di un testo scritto usando
una certa tabella richiede un FONT che contenga i caratteri di quella tabella.
Per superare questo inconveniente, è stato proposto il sistema UNICODE che essendo codificato con 16
bit, comprende 65.536 = contiene in una singola tabella tutti i simboli della maggior parte delle lingue del
mondo. MA:
- questo sistema non è stato approvato universalmente, molti programmi non sono in grado di utilizzarlo.
-Sono stati allora creati dei charset, detti UTF ( Universal character Set Transformation Format ): che usa 7
bit e solo 8 quando serve la codifica UniCode .

ISTEMA OPERATIVO (OS): Il software di base della macchina l'insieme di programmi cui è delegato il
compito di gestire le applicazioni e l'interazione fra l'uomo e la macchina.
INTERFACCIA GRAFICA: costituisce lo STRUMENTO che agevola questo dialogo.
- APPLICATIVI: sono i programmi che POSSONO essere eseguiti dal calcolatore.

Dal punto di vista della comunicazione uomo-macchina


- il DATO è l'oggetto su cui si opera con un certo trattamento informatico,
L' INFORMAZIONE: è il significato del dato rispetto al contesto in cui il dato è inserito. Nel
momento in cui un dato (un numero, una stringa alfabetica, un'immagine) è contestualizzato diventa
informazione

Qual è l'unico codice comprensibile dalla macchina e su cosa corre o si basa? Perché è un sistema
posizionale? Sappiamo che affinché il processo comunicativo abbia luogo è necessaria la condivisione di un
codice che renda possibile il dialogo fra l'uomo e la
macchina.
- L'unico codice comprensibile dalla macchina è il CODICE BINARIO: un Codice Notazionale a base 2. Le
macchine possono cioè manipolare solo i due simboli (o segni) della notazione binaria (o e 1) e ripeterli in
un numero indefinito di volte, a patto che i suoi due simboli siano riuniti in gruppo e a patto di rendere
significativa la posizione che il segno occupa in una sequenza: il sistema di numerazione binaria è infatti
detto sistema posizionale.

La trasmissione di informazione deve avvenire in un formato DIGITALE: per ora diremo che i simboli
diventano COMPUTABILI (quando sono espressi in forma comprensibile alla macchina)
- Un aspetto è comprendere come debbano essere espresse le ISTRUZIONI in
modo tale che divengano eseguibili dal calcolatore attraverso dei PROGRAMMI.
- Il CALCOLATORE è dunque un Esecutore di Programmi e un PROGRAMMA: altro non è che
un: Insieme di Istruzioni espresse in modo formale (cioè tramite un algoritmo)

I TIPI DI DATI: (data type) è l’insieme dei valori e l’insieme delle operazioni che possono essere assegnati a
dati come (numeri interi decimali, caratteri alfanumerici). Ogni momento del processo algoritmico
procede per scelte binarie in base a una condizione che può essere vera o falsa (proposizione logica).
-Nell’ ALGEBRA BOOLEANA: le operazioni logiche principali sono AND (congiunzione), OR (disgiunzione)
e NOT (negazione), i 2 valori di verità sono rappresentati come 0 (falso) e 1 (vero). La combinazione di 2
valori, tramite le 3 operazioni logiche, produce le TAVOLE DI VERITÀ.
RAM= (acronimo dell'inglese Random Access Memory ovvero memoria ad accesso casuale in
contrapposizione con la memoria ad accesso sequenziale) è un tipo di memoria volatile. Il compito della

CPU=Una unità centrale di elaborazione o processore centrale (in inglese: central processing unit), CPU è
di leggere le istruzioni espresse in linguaggio macchina dalla memoria interna, decodificarle ed eseguirle. La
CPU è composta da: 1) unità di controllo (decodifica istruzioni) e 2) unità aritme/co-logica (esegue
operazioni aritmetiche e logiche). La CPU dispone di una speciale memoria (denominata registro) dove
vengono immagazzinati dati e istruzioni che stanno per essere o sono stati processati. Due tipi di registro: 1)
registro indirizzi (rappresentare l’indirizzo della cella di memoria cui la CPU accede e il 2) registro dati (nel
quale vengono copiati i dati letti dalla memoria).

Il bus di sistema (bus dati, bus indirizzi e bus controllo) ha la funzione di collegare fra di loro le diverse unità
consentendo lo scambio dei dati.

La memoria esterna (di archiviazione) contenente dati e programmi in modo persistente ed è indicata come
memoria di massa (hard disk, floppy disk).

Le periferiche di Input/Output consentono di interagire con la macchina.

Il softwer di base è Il SO(sistema operativo) consente al programmatore di interagire con il calcolatore


tramite una visione astratta delle risorse hardware e rappresenta il primo software caricato all’accensione
del calcolatore, opera da intermediario fra l’utente e la struttura fisica.

Software applicativi → programmi che possono essere u/lizzati dall’utente per risolvere determinate classi
di problemi.

IL SO è COSTIUTITO DA DELLE INTERFACCE

Interfaccia → strumento che media fra l’utente e i disposi/vi hardware e soeware e permette di interagire
in modo semplice. Interfacce softwer:

1) Interfaccia a caratteri: comandi impar// tramite istruzioni in un linguaggio comprensibile alla macchina;

2) Interfaccia grafica: l’utente può lavorare manipolando una rappresentazione grafica delle componenti.

Interfaccia amichevole → facilmente utilizzabile dall’utente, metafora della scrivania ES.ICONE

Gli strati del SO Archite:ura per strati:


 Gestore dei processi (= programmi in fase di esecuzione);
 Gestore della memoria principale, che coordina le sezioni della memoria RAM;
 Gestore dei disposi/vi di I/O;
 Gestore dei file system, strumento con cui l’utente registra i propri dati;
 Gestore della memoria secondaria (di massa), memorizzazione permanente di dati e programmi.

I programmi applicativi → dotati di particolare interfaccia con cui l’utente può manipolare i contenuti. Ogni
applicativo gestisce uno specifico formato di dati.
Un file è cos/tuito da nome ed estensione che specifica il tipo di dato, quindi il formato → si intende la
classe dei documenti e uno dei differenti formati di quella classe. Formati proprietari → leggibili da uno
specifico applicativo; Formati non proprietari → non legati a un programma.

2 LA RETE E L’INFORMAZIONE MULTIMEDIALE Il principale strumento di Internet è i World Wide Web →


come architettura informativa e sistema di accesso interattivo ad oggetti multimediali. La facilità del
linguaggio, ovvero l’HTML, ha condotto alla creazione di siti web di interesse per l’umanista.
Internet: da web=rete di calcolatori e protocolli Internet → strumento di trasmissione e diffusione
dell’informazione in formato digitale, consente lo scambio dei dati. La sua nascita si colloca nel 1969, nel
periodo della Guerra Fredda. Costruito per il dipartimento della Difesa degli Stati Uniti. La rete doveva
consentire il dialogo fra le macchine e assicurare le comunicazioni. Quando si parla di Internet ci si riferisce
all’infrastruttura e al sistema inteso come serie di regole standardizzate. La comunicazione avviene tramite
protocolli di comunicazione che sono gli strumenti che garantiscono la comunicazione ai diversi livelli nei
quali si articola Internet.

Protocolli TCP/IP (Transmission Control Protocol (TCP) e l’Internet Protocol (IP). → serie di protocolli
elaborata da Cerf e Kahn. Compito: gestione della trasmissione dei dati a livello di trasporto e di rete. Si
basa sulla tecnica di commutazione di pacchetto: il TCP suddivide il flusso di dati in pacchetti mentre l’IP
gestisce l’instradamento e li inoltra ai nodi di destinazione.
I protocolli sono pubblici. Ogni nodo della rete (host) deve essere individuato in modo univoco, il tutto è
garantito dall’impiego di indirizzi rappresentati sotto forma di stringhe numeriche. Indirizzo IP →
sequenza numerica (quattro gruppi di cifre separate da un punto, ciascun gruppo con valori 0<x255) che
identifica univocamente ogni macchina della rete in modo gerarchico. È convertito in indirizzo simbolico di
dominio tramite il Domain Name System. 1. Architettura client server: una macchina (client) richiede un
servizio ad un’altra macchina (server); 2. Modello peer-to-peer: i nodi della rete che comunicano rivestono
ruoli interscambiabili.
Il www: decentralizzazione e universalità:
L’dea del web nasce alla fine degli anni ottanta presso il CEERN di Ginevra grazie a Tim Berners-Lee.
Obiettivo originario era di trovare un sistema per consentire a dati relativi a software, persone e progetti di
ricerca di essere collegati fra loro.
Enquire → primo programma ad an/cipare i WWW. Usava collegamen/ fra le diverse pagine di
informazione, ogni pagina era un nodo e per creare nuovi nodi era necessario collegarsi ad un nodo già
esistente.
Tangle → successore, sistema di documentazione globale, sono collegamenti fra ogni tipo di informazione.
Decentralizzazione delle risorse e universalità di accesso sono le componenti fondamentali. Come
modello del sistema viene scelto l’ipertesto che permette di collegare fra loro i dati e quindi associare
informazioni tramite l’hypertext links.
Nel 1990 nasce il WWW → editor di ipertesti (programma per la scrittura e la composizione) e browser
(programma per lettura e navigazione). Nel 1994 nasce il World Wide Web Consortium (W3C).

IPERTESTO ED IPERMEDIA progettazione e sviluppo CAP.5


Il Web è un’architettura basata sugli ipertesti che si serve di Internet, intesa come infrastru:ura fisica di
comunicazione e intesa come insieme di protocolli. Stru:ure costitutive fondamentali del Web:
 URI: per identificare il documento tramite un nome convenzionale persistente. L’URL è un sottoinsieme
dell’URI ed è l’indirizzo fisico con il quale ogni risorsa viene recuperata sul Web.
 HTTP: protocollo di scambio dei dati e si basa su una serie di regole minime condivise, è dichiarato
nell’URL.
 HTML: linguaggio del W3C per la pubblicazione di costrutti ipertestuali navigabili. I documenti
visualizzabili sul Web sono scritti in HTML e quello che vediamo è il risultato dell’interpretazione di questo
codice da parte del software. L’uso di questo standard è garanzia di interoperabilità tecnica ovvero
possibilità di consentire a sistemi diversi di dialogare fra loro. È lo strumento necessario a garantire
l’interscambio dei dati.
Fondamentalmente si tratta di un linguaggio per la formattazione delle pagine. È un’archite:ura a livelli
in cui le diverse componenti delle pagine sono nettamente separate in modo tale che ad ognuna di esse
corrisponda un livello indipendente. Utilizzo di due standard: 1. XHTML: per contenuto e struttura.
Linguaggio che limita il set delle istruzioni alla stru:ura e lasciare ad altri linguaggi il layout. Le indicazioni
sono stringhe di cara:eri che vengono aggiunte all’interno del documento e sono chiamate marcatori o tags.
2. Fogli di stile CSS: per la presentazione. Fogli a “cascata”, la funzione è di fornire comandi per arricchire
l’aspetto visuale ed estetico di una pagina. Le istruzioni di formattazione possono essere raccolte in un file e
richiamate ad ogni pagina del sito.
Il codice HTML consiste in una serie di indicazioni descrittive racchiuse tra parentesi uncinate e aggiunte
all’inizio e alla fine di ogni porzione testuale a cui si intende assegnare una determinata caratteristica. Il
marcatore finale è costituito dall’istruzione preceduta da uno slash .
Marcatori → definiscono le caratteristiche di struttura e aspetto del documento.
Attributi→ descrivono determinate caratteristiche dell’elemento, vanno inseriti nel marcatore dopo
l’elemento separati da uno spazio e seguiti dal simbolo di uguale.
HTML ci perme:e di ges/re:
 Indicazioni a livello di struttura;
 Indicazioni a livello di formattazione;
 Inserimento di immagini;
 Gestione dei collegamenti ipertestuali; A questi due livelli (stru:ura e aspe:o) si deve aggiungere il
Javascript e gli app let Java → strumenti che gestiscono l’interattività, ovvero rispondono a determinate
azioni dell’utente.

Il Web è il fondamento della multimedialità in quanto ambiente di integrazione di media diversi.


Campionamento e quantizzazione → operazioni che consentono la trasformazione di un segnale analogico
in forma digitale.
Il testo, come veicolo di trasmissione, è inteso come ogni forma di rappresentazione digitale.

Risoluzione dell’immagine e profondità del colore: qualità dell’immagine digitale rispetto all’originale;
Formato del file: agilità di consultazione, file leggeri e veloci da visualizzare per evitare tempi di
caricamento della pagina troppo lunghi.
Formati immagini → GIF, JPEG, PNG

File audio Formato più noto → MP3, formato compresso che consente di ges/re file più leggeri rispe:o ad
altri presen/ sul Web. È un formato portabile. L’audio deve essere valutato anche come istanza di
apprendimento alterna/va alla le:ura e u/le strumento di memorizzazione dei contenu/.

I video Esistono diversi sistemi per incorporare Alma/ sul Web: applet Java ma anche applicazioni
speciAche. MPEG → formato compresso divenuto standard per la creazione di filmati.

Web e metadati: iden/Acare le risorse ele:roniche Metada/ → meta informazioni, rappresentano la


possibilità di aggiungere a una pagina Web indicazioni rela/ve alla sua iden/Acazione e connotazione. Per
agevolare le macchine nel recupero delle sole notizie di interesse per l’utente.
Al tag dell’HTML spe:a il compito di ospitare tali notizie, tramite una serie di attributi basilari che
cos/tuiscono un primo livello di auto-catalogazione delle pagine Web. Pochi descri:ori quali:
 Nome dell’autore;  Descrizione del contenuto;  Elenco delle parole chiave;  Soeware con il quale il
documento è stato creato;  Set di cara:eri e il tipo di documento (in termini di formato). Ai metadati spe:a
il compito di trasformare i documenti in informazioni.

Interrogare il Web: motori di ricerca e directory per recuperare documenti sul Web: 1. Conoscere l’indirizzo
URL della risorsa; 2. Attraverso mortori di ricerca, cataloghi o directory. Directory → forma di
organizzazione dei siti Web che segue uno schema di classificazione per argomento. Ogni directory
definisce una serie di categorie di riferimento entro le quali far rientrare sottocategorie dipendenti e quindi
mira ad assegnare ogni sito ad una delle categorie predefinite nell’albero gerarchico. La categorizzazione è
mirata alla selezione dei siti dai contenuti ritenuti più significativi dall’utente. Le directory più note: Yahoo
e Google.
Motori di ricerca → risorsa cui l’utente fa più ricorso. L’interrogazione (query) avviene tramite parole
chiave che consentono il reperimento di pagine e rela/vi URL. Accade a livello di interfaccia utente, lato
browser. I motori di ricerca indicizzano il Web in modo automa/co tramite specifici soeware (spiders).
Interrogare il Web tramite motore di ricerca signiAca interrogare la base dati che è stata indicizzata da
quello specifico motore. I motori di ricerca mirano ad indicizzare tutti gli URL. Meta-motore → sito che
cerca sul Web u/lizzando diversi motori.

Un motore di ricerca è cos/tuito da:


 Programma che interroga il Web (indicizza le pagine);
 Database che raccoglie e archivia le parole estratte;
 Interfaccia utente;
L’interrogazione può anche avvenire a:raverso gli operatori logici AND, OR, NOT. Supporto di notazioni →
parola*: troncamento; “parola e parola”: cercare una frase così come viene scri:a.
Valutazione della validità del motore di ricerca tramite due parametri:
-1. Precisione del risultato dell’interrogazione in relazione al rapporto fra le pagine trovate e quello delle
pagine rilevan/; la relevance è un punteggio numerico che rappresenta quanto ciascun risultato incontri i
bisogni informativi dell’utente che ha formulato la query.
-2. Recall: capacità del motore di trovare il maggior numero di pagine rilevanti rispe:o a tu:e quelle
trovate.

GOOGLE
- Tecnica matematica del relevance ranking ovvero la modalità di selezione dei risulta/ restituiti dall’utente.
Più un sito è linkato e più in alto sarà nella lista dei risultati. Altre funzionalità: ricerca avanzata, ricerca per
immagini, ricerca di libri, Google Scholar per la ricerca sulla letteratura accademica.

OPAC → On-line public access catalog = catalogo elettronico che consente di interrogare le biblioteche
aderenti. L’u/lizzo degli OPAC consente di reperire un determinato titolo, di ricercare tu:e le opere di un
determinato autore. Si parla di biblioteca ele:ronica.  OPAC del Servizio Bibliotecario Nazionale (SBN):
no/zie rela/ve ad una pubblicazione e sapere quali sono le biblioteche che sul territorio nazionale hanno un
determinato volume.  Meta-OPAC Azalai (MAI): è possibile ricercare su molteplici cataloghi per veriAcare
il posseduto di documen/ poco comuni.

Blog e Wiki cos/tuiscono il Web 2.0. Wiki → sito web che perme:e a ciascuno dei suoi u/lizzatori di
aggiungere contenu/ ma anche di modiAcare quelli già esisten/ inseri/ da altri u/lizzatori. Blog → sito web
pensato perché un singolo pubblichi i suoi scritti (post).
Sistemi che consentono di creare pagine web sul server remoto: Content Management System (CMS)
condivide il trend dominate del Web ovvero la distinzione della forma e del contenuto. CMS → applicazioni
che me:ono a disposizione anche una stru:ura di sito deAnita. È possibile disporre di un’organizzazione dei
contenu/ a livello di elemen/ della navigazione e di una serie di modelli graAci con cui ges/re l’aspe:o del
sito

DBMS (Database Management System) → sistema soeware di ges/one dei da/. Si occupa
dell’aggiornamento, della manutenzione, e della consultazione di un insieme di registrazioni contenute in
un supporto di memoria di massa. È un insieme di programmi rivolto alla ges/one di da/ di memorizzazione
in formato digitale. L’SQL è diventato il linguaggio standard per lavorare su un DB. Modello logico, schema
e istanza del DB Modello dei da/ → insieme di conceF u/lizza/ per organizzare i da/ e descriverne la stru:ura
in modo comprensibile al calcolatore. Esistono diverse /pologie di modelli, che corrispondono ai diversi
conceF e /pi di dato e ai diversi costru:ori di /po.  Modello gerarchico: stru:ure ad albero.  Modello
re/colare: uso di graA.  Modello relazionale: stru:urazione dei da/ in tabelle.  Modello a oggeF:
programmazione orientata agli oggeF.

Fanno parte di un DBMS sistemi di DDL (definizione dello schema del DB) e di DML (manipolazione del DB)

Markup → è chiamato annotazione del testo, è il passo preliminare per ogni operazione di successiva
elaborazione o trattamento del documento digitale
Funzione dei linguaggi di markup → fornire un insieme di strumen/ che consentano di aggiungere no/zie sul
testo riguardan/:
1. Aspetto: formattazione e disposizione degli elementi nella pagina.
2. La struttura logica: funzione dei blocchi di testo.

I sistemi di text processing basa/ sull’impiego di un word processors sono detti di tipo WYSIWYG (what
you see is what you get). Questi sistemi agevolano il lavoro dell’utente consentendogli di interagire con
l’interfaccia grafica.

Si parla di linguaggi di marcatura del testo (markup languages) → linguaggi che si basano su un insieme di
istruzioni e indicazioni orientate alla descrizione dei fenomeni di stru:urazione, composizione,
impaginazione del testo. I marcatori sono sequenze di cara:eri visibili che vengono immessi dentro il file,
dire:amente accanto alla sequenza di cara:eri, marcando blocchi di testo cui intendono assegnare una
determinata funzione. In questo modo è garan/ta la leggibilità

Fonti primarie e secondari

Qual è la differenza tra Internet VS WEB? Sono due strumenti fondamentali per la ricerca dell’umanista
digitale e si sono sempre confuse, solo a partire dagli anni 2000 si è fatto chiarezza su questa distinzione. Da
un lato, Internet= rappresenta l'hardware della rete, l'infrastruttura che funziona con un protocollo
comune che crea la connessione.
2) D'altra parte, il World Wide Web è il software della rete, la vasta rete di applicazioni e protocolli che usa
internet e che fanno comunicare il tutto e “parlare”. Dunque è il principale strumento di internet, costituito
da documenti o pagine web dette siti localizzati su dispositivi diversi collegati tra loro e consultabili per
mezzo di programmi detti Browser. Il web è lo strumento che ci permette di pubblicare e rendere
accessibile a tutti il nostro patrimonio culturale

Da quali 3 fondamenti è costituito il World Wide Web.? ( visibili e conoscibili da te) - <u>http://= Hyper
Text Transfer Protocol ( il Protocollo per il Trasporto di Ipertesti)
- <b>HTML= Hyper Text Markup Language( il linguaggio degli ipertesti)
- <em>URL= Universal Resource Locator ( ogni risorsa sul Web ha questo indirizzo chiamato URL ci
permette dunque di ritrovare e raggiungere la risorsa)
1. digitiamo l’url nella barra degli indirizzi ed inizia la ricerca 2. il server restituirà attraverso il protocollo
http 3.una pagina html che possiamo leggere
In capitolo 4° , lesson 4.2. from Teams
-Cos'è un Ipertesto? -IPERTESTO=Documento informatizzato costituito da diverse porzioni di testo
collegate tra loro da nessi logici implementati come collegamenti che consentono al lettore il passaggio da
un blocco di testo all' altro" (Lazzari, 2010). Esempi di ipertesto è anche il dizionario pur essendo
antecedente al sistema digitale, ma il modello per eccellenza dell’ipertesto si ha solo col web.
- " ogni forma di testualità - parole, immagini, suoni, che si presenta in blocchi o lessìe(frammento testuale
di Barthes) o anche unità di lettura (nodi o finestre o pagine o anche parole) collegati tra di loro da link (che
appaiono sotto forma di parole attive) (Tomasi, 2012)

Cos'è una Rete LAN? Una Local Area Network è un Insieme di DISPOSITIVI COLLEGATI INSIEME in un
LUOGO FISICO (edificio pubblico o privato, ufficio, casa). Una LAN può essere piccola o grande, da una rete
domestica con un utente a una rete aziendale con migliaia di utenti e dispositivi.

-Cos'è una Rete di CALCOLATORI?


- Come sono chiamati i singoli elementi della rete? Rete di CALCOLATORI= <b>insieme di 2 o più
Calcolatori e dispositivi, connessi tra loro allo scopo di comunicare e condividere dati e risorse.
- I singoli elementi della rete sono i Nodi.

Cos'è la CODIFICA? CODIFICA: da Gigliozzi: È il momento iniziale, ma più importante, di qualsiasi indagine"
- Gleßgen: Non è semplicemente una procedura tecnica ma si tratta di una " tematica filologica e semiotica,
come lo sono l'elaborazione della scrittura o quella della stampa".

Perché abbiamo solo 2 simboli nel codice binario? Perché non abbiamo bisogno di più simboli?
1)Perché non abbiamo bisogno di più simboli per aumentare la complessità
2) Perché possono essere memorizzati sui DISPOSITIVI BISTABILI (che possono assumere 2 configurazioni
alternative es. " la scheda perforata" i cui fori indicavano la presenza del o del non segnale)
, pensiamo alla " polarizzazione
sul nastro magnetico, le incisioni sul CD- Rom)
Protocollo= insieme di regole standardizzate

L’umanista digitale chi è ?

[I documenti ipertestuali NON si trovano soltanto sul web, ma anche sotto forma di CD-ROM o
DVD].
IPERTESTO: può essere quindi considerato un modello, in quanto rappresentazione di una certa posizione
della realtà. Ogni forma di testualità che si presenta in BLOCCHI COLLEGATI TRA LORO da link è un
ipertesto = tipo di strutturazione delle informazioni che consente al lettore di percorrere in modo
interattivo, una grande quantità di informazioni in modi scelti dal lettore stesso e nei modi previsti
dall’autore dell’ipertesto.

Caratteristiche dell' ipertesto: - è un modello testuale caratterizzato da multisequenzialità e multilinearità,


ad esempio se clicco su una parola che non conosco posso trovare subito la definizione, -l'interattività e
multimedialità, per esempio posso ascoltare la pronuncia di' una parola.
-Continuo movimento come testo potenzialmente in evoluzione perché il contenuto può essere modificato
e aggiornato con nuovi tipi di collegamenti nuove architetture testuali. Essendo la versione più aggiornata e
con più informazioni lo studioso si affida alle fonti digitali per le sue ricerche, ma quando deve svolgere
delle citazioni tende a citare la versione cartacea, a causa degli stereotipi che ne fanno una versione più
autorevole ed affidabile

Storia IPERTESTO: è un concetto che nasce negli anni ’40 e verte sulla necessità di collegare informazioni tra
di loro e il cui adeguamento in ambito digitale è posteriore. Solo con l’avvento di internet e del web il
concetto ha iniziato acircolare diffusamente.
P.S. Nel ’45 Bush pubblicò un saggio scaturito dalla riflessione su come le tecnologie possano contribuire
all’organizzazione del sapere umano
Il Memex di Bush l’inventore è Bush che solo immagina un sistema di interconnessione delle informazioni
chiamato Memex, viene presentato come una scrivania elettronica di lavoro, è basato su dei macchinari che
facendo muovere delle bobine di microfilm permetteva di proiettare le informazioni contenute nella
scrivania, resa disponibile sotto forma di sequenze di fotogrammi sono strumenti ottici non digitali che
permettevano come dice l’acronimo, una memory expansion, "espansione della memoria", di fornire un
potenziamento del loro lavoro e collegare il patrimonio testuale. Comunicare informazioni è ritenuta una
necessità. Bush propone un modello associativo: la mente umana opera per associazioni, e la funzione del
Memex è di consentire all’utente di creare relazioni. Si tratta del tentativo di riprodurre i processi mentali e
meccanicizzare la selezione per associazione. Modello teorico dell’ipertesto che non si era però
concretizzato. Con il suo progetto immaginò che tutta l’informazione potesse essere pubblicata sotto forma
di ipertesto. Tuttavia, tale progetto non venne mai finanziato.
Engelbart inventò l’ONLINE system (NLS), un ambiente di lavoro dove le comunicazioni fra i testi

Nel ’45 Bush pubblicò un saggio scaturito dalla riflessione su come le tecnologie possano contribuire
all’organizzazione del sapere umano = egli immaginò un sistema di interconnessione
delle informazioni che chiamò Memex e aveva lo scopo di collegare il patrimonio testuale. Viene presentato
come una scrivania elettronica di lavoro, ad uso individuale, in cui ciascuno può memorizzare libri,
documenti e immagini, e connettere fra di loro gli elementi ritenuti pertinenti al lettore. Bush propose un
modello associativo = il Memex consentiva all’utente di stabilire collegamenti fra blocchi di testo, operando
come la mente umana, la quale lavora per associazione, non per indicizzazione. Nelson coniò il termine
hypertext con il quale intendeva una scrittura non sequenziale, basandosi sul presupposto che il pensiero
umano non opera in modo sequenziale, ma per collegamenti. Con il suo progetto immaginò che tutta
l’informazione potesse essere pubblicata sotto forma di ipertesto. Tale progetto non venne mai finanziato.
Engelbart inventò l’ONLINE system (NLS), un ambiente di lavoro dove le comunicazioni fra i testi.

Si hanno 4 modalità di creazione dei collegamenti fra le pagine di un ipertesto:


- Ipertesti a SEQUENZA LINEARE = ogni pagina è collegata alla successiva in modo sequenziale, pertanto
l'unica modalità di navigazione è quella di scorrere le pagine una dopo l'altra
- Ipertesti a struttura GERARCHICA (o ad albero) = da una pagina principale, radice dell'ipertesto, si
diramano una serie di altre pagine di primo livello gerarchicamente ordinate, scende verso il basso e
tende ad assestarsi verso un approfondimento in verticale
- Ipertesti A GRIGLIA = ordinata secondo la logica determinata dalla griglia di raccolta dei nodi che
ha una segmentazione stratificata sul piano e in profondità - Ipertesti a struttura di RETE o GRAFO = tutte
le pagine possono essere collegate fra di loro, è la
struttura più frequente e che meglio rappresenta il paradigma della navigazione multi-sequenziale

Uno dei principali rischi dell’ipertesto è il DISORIENTAMENTO. Inoltre, essendo l'attenzione concentrata sui
LINK, può capitare che il passaggio da uno all'altro avvenga senza una ragione specifica.
L'architettura è l'organizzazione dell'ipertesto: come si articola e da quali elementi è costituito. Gli elementi
dell'architettura di un ipertesto sono:
- STRUMENTI DELLA NAVIGAZIONE = forniscono al lettore un'idea dei contenuti presenti nell’ipertesto e gli
fanno capire le modalità con cui è stato costituito e strutturato, permettendogli di orientarsi fra i
materiali
- Elementi DELLA PAGINA = sono le parti in cui si articola la pagina: testata, corpo, barra di navigazione,
piè di pagina
- METANAVIGAZIONE = sezione della pagina in cui vengono messi a disposizione dell'utente strumenti di
aiuto e funzionalità generali
- NAVIGAZIONE PRINCIPALE o globale = è la barra di navigazione
- Navigazione SECONDARIA
- BRICIOLE DI PANE = indicano all'utente in quale punto della struttura si trova (ad esempio home,
sezione, pagina corrente)
Gli ipertesti letterari sono oggetto di studio e di interesse per gli umanisti. Nella progettazione di
ipertesti l'oggetto centrale della comunicazione è il TESTO.
- Il primo livello della rappresentazione informatica di un testo letterario è la TRASCRIZIONE = si tratta di un
primo atto di modellizzazione.
-La scelta del testo da trascrivere elettronicamente è una scelta ragionata dell'edizione cartacea di
riferimento. Si verifica l'attendibilità filologica della versione elettronica realizzata, ossia si verifica
l'essenza di refusi e il rispetto delle scelte di struttura logica del testo in relazione all’edizione utilizzata.
Con la trascrizione digitale si dà
vita a una nuova forma di edizione. Passo successivo è la definizione dei collegamenti: la scelta delle
correlazioni fra gli elementi ritenuti significativi al fine dell'analisi del testo è un'operazione di ermeneutica.
Particolare attenzione deve essere rivolta al significato del link, che vuol dire scelta oculata del vocabolo da
rendere linkabile, scelta che deve essere significativa anche per il lettore che dovrà essere in grado di
comprendere dove lo condurrà il collegamento. I link in-text costituiscono il rapporto che il testo intrattiene
con se stesso.
- Paratesto = elementi che accompagnano il testo, ma non sono il testo in senso stretto e che identificano la
specifica edizione assunta come riferimento
- Apparato di commento
- Intertesto = citazioni dirette di altre opere, traduzioni
- Metatesto = informazione di commento e testi critici
- Architesto = serie di nozioni di approfondimento su: autore, opera, periodo storico ecc.

—Classificazione delle tipologie di link:


- Dentro al testo
- Fra il testo e altri testi (intertesto)
- Fra il testo e il commento (metatesto)
- Fra il testo e gli approfondimenti sul testo (architesto)

Cap. 6 Principi di digital e gestione immagini


La DIGITALIZZAZIONE di un oggetto materiale ha lo scopo di convertire un segnale analogico in una
forma digitale. Digitalizzare un’immagine significa riprodurre l’oggetto materiale in formato
digitale, secondo PARAMETRI VARIABILI, lo scopo della digitalizzazione e dunque, e la destinazione d’uso
del file realizzato.

-Lo scopo della digitalizzazione di una FONTE PRIMARIA può essere la necessità di preservare l’originale
dall’usura, delegando all’immagine digitale la funzione di strumento di consultazione della fonte.
La digitalizzazione può avvenire in formato testuale e in formato immagine. La scelta dipende dal tipo di
originale. Ma la scelta dipende anche dall’utilizzo che si vorrà fare del documento digitale e dal tipo di
trattamento a cui si vuole sottoporlo.

-Digitalizzazione = processo di memorizzazione di un documento attraverso la sua conversione in una


sequenza di caratteri binari, ognuno dei quali corrisponde a una porzione del documento
originale. Immagine digitale = rappresentazione al computer di un oggetto, la quale dopo
essere stata acquisita nella memoria dell’elaboratore tramite un dispositivo di cattura, può essere
manipolata dall’operatore.

-I sistemi di cattura delle immagini sono vari e differenti, il più noto è lo SCANNER. Tutti i "sistemi di
digitalizzazione"— lavorano dividendo l’immagine in una GRIGLIA di punti, ASSEGNANDO a ciascuna di
essi un VALORE e memorizzando i valori dei punti in forma sequenziale nel computer, il quale è in grado di
—ricostruire l’immagine leggendo questi valori e riproducendoli sullo schermo. Ogni punto è detto PIXEL
(in riferimento allo schermo), o DOT( in riferimento alla stampa).

I parametri della digitalizzazione sono 2:


- Il IL NUMERO DEI PUNTI in cui dividere l’immagine originale
- La PROFONDITÀ del pixel, cioè la gamma di valori associabili ad ogni singolo punto
-La qualità del file, detta RISOLUZIONE è direttamente proporzionale alle dimensioni dell’immagine e al
numero di colori utilizzati per rappresentarla.{ Dpi = unità di misura comunemente usata per misurare il
numero di pixel presenti nell’immagine digitale in orizzontale e in verticale, è però più opportuno parlare
di dpi/ppi (pixel per inch) = più dpi ci sono e più la risoluzione dell’immagine digitale, ossia la sua fedeltà
all’oggetto originale, sarà alta, maggiore sarà il peso del file.}

- Nel caso di immagini in bianco/nero la gamma di valori dei pixel è


limitata a soli due valori possibili: 0 nero e 1 bianco, si tratta di immagini a 1 bit con profondità del pixel
equivalente a 2. Nel caso delle immagini in scala di grigio ogni pixel avrà una serie di valori binari e ad
ogni valore corrisponderà un tono differente di grigio.

-Generalmente una greyscale image usa fino a 1 byte per


ogni punto. Nel caso di immagini a colori lo scanner, dopo aver diviso l’immagine in pixel misura il colore
di ogni punto, assegnando ad esso un valore.

- Il numero di colori che la macchina è in grado di riconoscere è determinato dal numero dei bit impiegati
per ogni punto.

-Nel formato RGB il colore di ogni singolo pixel è dato da 3 valori di 8 bit ciascuno: ogni colore ha 256
sfumature/tonalità possibili, nel complesso risultano
16,7 milioni possibili valori. 256⁸= 16,7 m).
I tre valori combinati forniscono il colore del pixel che costituisce l’immagine.

A seconda del tipo di materiale è richiesta un’appropriata strategia di digitalizzazione al fine di ottenere
risultati soddisfacenti. A seconda dell’obiettivo che si intende raggiungere con la digitalizzazione, si possono
produrre 3 livelli qualitativi dell’immagine: basso, medio e alto. La QUALITÀ di un’immagine digitale
dipendeda 2 parametri:
- Numero di pixel
- Gamma di valori di cui ogni pixel è dotato
La relazione tra la qualità dell’immagine e la combinazione di ppi e profondità del pixel non è lineare. Per
i materiali in bianco e nero aumentare la gamma di colori non migliora la qualità dell’immagine, ma ne
aumenta soltanto le dimensioni, perciò conviene limitarsi ad aumentare il numero dei ppi. Per i materiali in
scala di grigio la miglior resa digitale si ottiene aumentando la gamma di valori associati a ogni pixel.

-Per ottenere un’immagine di buona qualità, la digitalizzazione andrebbe operata direttamente sull’oggetto
originale, ma generalmente avviene che la scansione sia fatta su un fonte intermedia per evitare che
l’oggetto venga danneggiato.

- Un’immagine digitale può essere SALVATA IN FORMATI DIVERSI, a seconda della sua destinazione finale:

-I formati esistenti possono essere compressi, con o senza perdita di dati (GIF, JPEG, PNG), non
compressi (TIFF). Sono i più comuni formati di immagine in quanto sono gestibili da piattaforme hardware e
software differenti: sono formati immagine non proprietari.
- I formati COMPRESSI sono ben pensati per la distribuzione, poiché i file risultano essere più LEGGERI e
VELOCI da caricare e scaricare; lo svantaggio è dato dalla perdita di informazione e dal fatto che, una volta
compresso il file, all’atto della decompressione
non tutti i dati vengono ripristinati.

- Formato GIF è soggetto ad una compressione che non comporta alcuna perdita di dati; lo svantaggio
è che il formato memorizza solo 256 colori: dunque non è adatto alle fotografie a colori

- JPEG consente di visualizzare 16,7 milioni di colori, ma la compressione comporta la perdita di dati.


Il formato è adatto per le fotografie a colori ed è il più utilizzato sul web

- PNG creato appositamente per il web, consente una visualizzazione da 256b a 16,7 milioni di colori
e può essere compresso senza generare alcuna perdita di dati

- TIFF produce immagini di elevata qualità ed è dunque utilizzato per l’archiviazione a lunga durata, èin
grado di visualizzare 16,7 milioni di colori

Le procedure di PATTERN RECOGNITION consentono di riconoscere automaticamente gli elementi di una


FONTE al
fine di classificarli.
Un PATTERN: è un OGGETTO in qualche modo IDENTIFICABILE, ( può essere una parola o un carattere di un
testo punto ogni entità riconoscibile può essere definita un pattern punto per riconoscimento si
intende l'inserimento di un pattern all'interno di una classe definita).

- Il procedimento di CLUSTERING suddivide ipatterns in gruppi sulla base di classi. Tra le varie tecniche, vi


sono procedimenti di identificazione delle componenti della scrittura manoscritta, fondati su modelli
grafici che consentono un successivo riconoscimento automatico: tali modelli consentono di associare un
certo tracciato a un determinato segno
manoscritto.

— Per la digitalizzazione di una collezione


di immagini è necessario:
- Garantire l’interoperabilità e l’accessibilità alle collezioni digitali
- Assicurare un livello alto delle collezioni (TIFF)
- Evitare la rinscansione in futuro provvedendo a progressive conversioni dei materiali i nuovi formati
- definire un sistema di storage scalabile e durevole
- Adottare dei sistemi per gestire il copyright delle immagini

In base al numero di bit, ed allo scopo di digitalizzare immagini abbiamo: photo


Cap.7 Sistemi di analisi Text. E Ling. Computazionale
In cosa consiste l'analisi del testo?
- Quale disciplina si occupò del problema del trattamento automatico del linguaggio naturale?
- Quale il processo di TOKENIZZAZIONE?

ANALISI DEL TESTO = procedimento che consente di ESTRARRE tutte le parole presenti in un testo,
STABILENDO:
- il NUMERO DI VOLTE in cui ciascuna forma occorre, questi risultati permettono di ragionare sull’uso
di un certo vocabolo o di stabilire ipotesi interpretative.
-Disporre di CORPORA = disporre di grandi quantità di dati è necessario per operare con sistemi automatici
di analisi, un corpus si deve basare su una serie di regole di aggregazione, selezione e organizzazione
precise. L’affidabilità di un corpus come fonte di dati dipende dalla sua capacità di fornirci un modello
fedele del lessico e della grammatica di una lingua.

La LINGUISTICA COMPUTAZIONALE: è stata la prima ad affrontare il problema del trattamento automatico


del linguaggio naturale, serie di strumenti per accedere al contenuto digitale dei dati linguistici per
acquisire conoscenza di documenti testuali.
TEXT RETRIEVAL = recupero automatico di stringhe di caratteri. 1° fase di analisi di un testo memorizzato
in forma digitale = verifica della presenza delle parole nel testo = procedimento chiamato
TOKENIZZAZIONE= cioè individuazione di tutte le unità minime del testo compresi i segni di
interpunzione, processo automatico che consiste nell’estrapolare tutte le forme presenti all’interno del
testo affiancandole ad un codice numerico, per verificare il numero di volte in cui compaiono.
>>Il fine = produzione dell’indice ovvero dell’elenco di tali parole che costituisce il vocabolario delle forme
grafiche Successivamente = si collocano le parole rispetto al contesto testuale d’uso e la verifica di quante
volte ogni forma grafica occorre.

Diversi livelli della manipolazione del testo = possibili interventi analitici sul piano morfo-lessicale,
sintattico e semantico. Tipologie di interrogazione del testo così manipolato = si ha un recupero e
un’astrazione non solo di dati, ma anche di informazione intesa come dato interpretato.

Cos'è un Programma di Concordanze e cosa tende ad evitare?


- Cosa permette l'analisi delle concordanze e quali i 2 tipi di presentazione di esse?
- Le parole riportate hanno una posizione per frequenza, detta?..

Text retrieval = software di reperimento dei vocaboli entro un testo o un corpus testuale, sono in grado di
estrarre tutte le sequenze di caratteri che stanno tra due spazi bianchi.
-PROGRAMMA DI CONCORDANZE = applicativo che enuclea tutte le parole presenti in un testo,
presentandole in ordine e accompagnate da un contesto ed indicazioni per il reperimento e la
localizzazione = si tende ad EVITARE le PAROLE VUOTE: particelle, preposizioni poiché non aiutano la
ricerca. Analisi delle concordanze = permette di verificare il contesto d’uso del vocabolario, le concrete
accezioni delle parole e permette di disambiguare.

— Ci sono 2 tipi di presentazione delle concordanze:


- KWIC = le forme sono presentate in colonna
- KWOC = la key word viene collocata esternamente e poi riportata all’interno del contesto

Frequenze = parole accompagnate dal numero di volte in cui occorrono ed eventualmente la percentuale


rispetto al numero tot di parole. La posizione che ogni vocabolo occupa all’interno della lista di frequenza
viene detta “rango”. Hapax = parole che compaiono una volta sola

Per cosa stanno gli acronimi di Concordanze KWIC ( ) e KWOC ( Key Word Out of Context)?
- Com'è chiamato il trattamento automat. del linguaggio naturale? Quali processi e preceduti da cosa?
- Tra questi processi spiega: LEMMATIZZAZIONE , lemma, stemming ;

-( Key Word In Context)= KWIC VS KWOC( Key Word Out of Context)

-Trattamento automatico del linguaggio naturale ( NLP ) composto da processi come: -normalizzazione,
lemmatizzazione, part of speech, tagging, riduzione sinonimia ecc. è importante la fase manuale di analisi:
PRE-PROCESSING: riducendo le sigle, le parole composte, riconoscere nomi propri e intervenire con
l’annotazione del testo.
Livelli di analisi del testo:
- Morfo-lessicale = occorrenze
- Sintattico = costrutto delle frasi
- Semantico = combinazione di lessico, morfologia e sintassi

LEMMATIZZAZIONE = utile ad estrarre un lemma da una forma. Lemmatizzare un testo significa


individuare 1 unico lemma, un'unica forma grammaticale per i vocaboli che nelle lingue naturali sono
forme flesse.

LEMMA = parola che appare sui dizionari. La lemmatizzazione serve per raccogliere sotto un’unica forma
base.
Stemming = processo AUTOMATICO per estrarre la RADICE(stem) di una parola, rimuovendone la
desinenza.

Nuove frontiere dell’analisi del testo = TEXT MINING = EXTRATION( estrazione) di informazione significativa
del testo non strutturato, con l'obiettivo di ottenere una nuova conoscenza: sistemi di clustering
(raggruppamento) e di classificazione

Analisi STILOMETRICHE = indagini che consistono nell'applicazione di tecniche statistiche allo studio delle


caratteristiche di un testo

-misurare la LUNGHEZZA delle parole o frasi oppure la FREQUENZA di certi tipi di parole.

STILE = non è solo riconoscibile ma anche formalmente definibile e può perciò divenire oggetto della
ricerca condotta usando il PC. Lo stile è ciò che caratterizza l'opera e le opere di un autore = STYLISTIC
FINGERPRINT ovvero caratteristiche tipiche e distintive di un’opera, una serie di usi stilistici.

- PARSING: Il procedimento di analisi linguistica necessario a ricostruire la struttura sintattica di 1 frase


- POS tagging; il Tagger POS è un programma che associa un'etichetta descrittiva a ogni costituente
grammaticale.

Cap.8 Semantic web: models and architecture e linguaggi


- Negli ultimi anni c'è stata la volontà di ampliare le potenzialità del web, per agevolare il recupero
di documenti( retreival) e informazioni da parte degli utenti umani in termini di velocità e precisione e poi
permettere ai programmi di comprendere il significato dei documenti e consentire alle applicazioni di
dialogare tra loro, condividendo la dimensione semantica del vocabolario in uso nei testi che circolano nel
web, quindi condividere non solo parole chiave ma concetti = un web intelligente.

La POLISEMIA del linguaggio umano LIMITA la condivisione della conoscenza = l’obiettivo è finalizzato alla


comprensione del significato dei documenti da parte delle macchine e fare del web un luogo in grado di
gestire collegamenti semantici = il LINK dovrebbe descrivere il luogo in cui porta, dovrebbe saper predire il
valore della sua azione.

4 LIMITI del web attuale:


- Ricerca e recupero di documenti = non sempre il risultato della ricerca è quello che volevamo

- Ricerca e recupero di informazioni = se voglio informazioni intese come risultato di un ragionamento non
è detto che esistano documenti

- La correlazione fra informazioni = non è detto che i collegamenti fatti da chi crea la pagina siano gli stessi
che interessano la mia ricerca

- Dialogo fra applicazioni = sarebbe utile un interscambio per avere un'unica ricerca globale
Per Tim Barners-Lee, fondatore del WWW e primo ad utilizzare l’espressione semantic web ha come
obiettivo un web in cui agiscano agenti software intelligenti ovvero applicazioni in grado di capire il
contenuto delle pagine e portare l’utente all’informazione ricercata.
Capire significati, creare percorsi in base alle informazioni richieste, collegare logicamente elementi diversi
= è il campo della gestione della conoscenza intesa come relazione tra concetti.
-Quali sono i 5 processi di " Gestione della conoscenza" per capire il Semantic web( concetto)?
- Perché la rappresentazione è fondamentale tra questi, e quale la soluzione?
- Per quanto riguarda l'elaborazione, oltre dizionari e thesaurus ,cosa ?

Capire significati, creare percorsi in base alle informazioni richieste, collegare logicamente elementi diversi
= è il campo della gestione della conoscenza intesa come relazione tra concetti.

- Abbiamo 5 processi di
gestione della conoscenza:

- Acquisizione
-Rappresentazione
- Elaborazione
- Condivisione
- Utilizzo

Rappresentare la conoscenza = è 1 degli elementi fondamentali del semantic web perché le macchine
abbiano accesso ad un insieme strutturato di informazioni e ad una serie di regole di inferenza da
impiegare per il ragionamento automatico. È importante l'interoperabilità sul piano tecnologico e
sintattico = adesione a linguaggi standard e accedere ad un repertorio di conoscenze condivise.
-La soluzione = uso dei METADATI = dati su dati con il compito di descrivere il contenuto veicolato dalle
singole pagine web.
- Procedimento di definizione dei metadati nel semantic web =
ELABORAZIONE= di un modello semantico e di un modello concettuale. Ragionamento su 3 livelli:

- Acquisire tassonomie e thesauri


- Formalizzare i concetti tramite le antologie
- Logica descrittiva per il ragionamento automatico
{L'obiettivo è modellizzare la conoscenza di un dominio specifico definendone le relazioni.}

FRA le iniziative proposte per la definizione di un vocabolario più ricco c'è il DUBLIN CORE METADATA
ELEMENT SET( O semplicemente DC) = un vocabolario ideato per assegnare etichette e basilari alle risorse
della rete, fornire un elenco di nomi di marcatori applicabile alle risorse web e garantire l'uso di tale
vocabolario di metadati tramite differenti linguaggi formali. La descrizione di una risorsa
elettronica si avvicina tramite vocabolario DC alla categoria catalogazione libraria, come si può ricavare da
una scheda catalografica.

DC versione 1 ha definito 15 categorie, la versione 2 ha aggiunto dei QUALIFICATORI


per rendere meno ambiguo il significato di certi elementi e associare certi altri a vocaboli controllati.

- L’attributo CONTENT ospita il valore associato ad ogni elemento DC

1° livello = linguaggio di indicizzazione, scegliere un vocabolario controllato = valore che venga selezionato
rispetto a un insieme aperto di valori = necessità di univocità semantica. È necessario che tale vocabolario
sia contestualizzato rispetto a una gerarchia di riferimento = devono essere definite classi o categorie
secondo relazioni di specificità o generalità. TASSONOMIE = organizzazione sotto forma di struttura ad
albero degli elementi di un vocabolario controllato
THESAURO = e il vocabolario di un linguaggio di indicizzazione controllato ed organizzato in maniera
formale per esplicitare le relazioni tra concetti.
Abbiamo 3 relazioni semantiche tra i termini:
- Sinonimica
- Gerarchica
- Associativa
Per arricchire una semantica si passa modelli concettuali a teorie logiche = è il modello di una particolare
area di conoscenza o attività, denominata dominio.

- ONTOLOGIA ( Ontology) = una DESCRIZIONE formale ESPLICITA dei concetti di un DOMINIO


specifico, popolata di istanze e completata con regole di inferenza viene detta base di conoscenza. Passi
da fare:
definire le classi, 

La soluzione al problema dei nomi sono gli URI (W3C = URL) = gli VS URL localizzano le risorse sul web, gli
URI dovrebbero consentire di rintracciare le risorse che possono cambiare locazione, perchè identificano
una informazione tramite una informazione.
-Sono il primo esempio di METADATO SEMANTICO = così si evita il problema della volatilità degli indirizzi,
perché tramite gli URI una risorsa è identificata univocamente ed è quindi rintracciabile. UNICODE = si
userà per la questione degli alfabeti.

XML = scelto come linguaggio per la rappresentazione dei documenti =


+ facilmente comprensibile dall'uomo e leggibile dalla macchina per prevenire i conflitti a livello di
comunicazione delle etichette è stato definito il meccanismo dei NAMESPACES = il cui obiettivo è
distinguere i nomi degli elementi utilizzati in file XML creati in diverse applicazioni o realizzati da diversi
utenti

- Servono
linguaggi che prima di definire formalmente la semantica permettano di poterle esprimere attraverso
ASSERZIONI = RESOURCE DESCRIPTION FRAMEWORK utili a formalizzare asserti sulle risorse.

Cap. 9 Un nuovo paradigma, la biblioteca digitale


Quali sono i 3 livelli del ciclo di vita di un SISTEMA INFORMATIVO?
- Su questi punti sono sorti dibattiti su Digital Preservation e Interoperabilità, cosa sono?
- Cos'è una Biblioteca Digitale?

-Ci sono 3 livelli in cui si articola il ciclo di vita di un SISTEMA INFORMATIVO:


- 1)Produzione
-2) Archiviazione
- 3)Disseminazione
-Produrre testi usando formati dati standard
- conoscere metodi per la strutturazione di materiali
- riversare i dati in rete
-accedere al web
-creare collegamenti tra singole risorse e fra collezioni.

2 aspetti su cui si è incentrato il dibattito negli ultimi anni:


- Digital preservation
- Interoperabilità = cioè lo SCAMBIO di DATI e COMUNICAZIONE fra biblioteche digitali.

BIBLIOTECA DIGITALE = collezione di documenti digitali strutturati con una organizzazione complessiva


coerente (di natura SEMANTICA e TEMATICA )che si manifesta tramite relazioni INTERdocumentali e

INTRAdocumentali.  

Potrebbero piacerti anche