Sei sulla pagina 1di 47

LEZ 1--- STORIA E INTRODUZIONE

INFORMATICA-> coniato anni ’60-> Philippe Dreyfus, dal fr. Informatique (contraz. Information
e automatique) disciplina che si occupa della progettazione e della costruz di macchina in grado
di trattare o elaborare in modo automatico l’informazione.
Engcomputer science e information technology (IT)
Telecomunicazioni si occupano della trasmissione dell’informazione a distanza con lo scopo di
comunicare INFORMATION & COMUNICATION TECHNOLOGY (ICT) non solo tecnica ma
anche alla comunicazione, ovvero alla trasmissione e al trattamento a distanza dell’informazione.
Informatica compito di codificare un problema e cercare di risolverlo in maniera autonoma con poco
coinvolgimento umano. Questa scienza è basata generalmente su tre concetti: quello di dato, quello di
informazione e quello di conoscenza.
Datoqualcosa di molto concreto che viene espresso con i simboli: non per forza porta informazioni ma è
qualcosa che esiste, materiale ed esplicito es. ideogrammi e gatto bianco.
Informazione la porta il dato. Gatto bianco ed ideogrammi= certo tipo di informazione codificato sotto
forma di dato ma sono simboli/segni equivalenti che pescano da un determinato set (un alfabeto finito) e che
trasmettono una determinata informazione.
Diversi livelli di informazione quella di primo livello e la conoscenza sempre relativa a un certo
dominio ed è un’informazione molto più approfondita e interconnessa.

codifica del mondo naturale in simboli e la loro manipolazione in maniera automatica è uno dei compiti
principali dell’informatica
uomo ha sempre cercato di costruire strumenti che lo aiutassero nel suo lavoro
abaco Cina, 2000 a.C. poi diffuso tra greci e romani sistema di calcolo manuale basato su una
rappresentazione numerica posizionale (stessa cifra assume pesi diversi a seconda della posizione)
avviene dunque la codifica
Macchina di Anticitera nome dal luogo di rinvenimento della macchina, contenuta in un relitto
fatta di ruote dentate e ingranaggi una specie di calendario che codifica il moto delle stelle e degli astri
attraverso ruote dentate, per tenere traccia del tempo e per prevedere eventi astronomici ricorrenti (equinozi,
mesi, giorni, eclissi ecc) strumento assolutamente meccanico che risolve il problema di calcolare il tempo
ed eventualmente prevedere alcuni fenomeni astrali.
Pascalina Blaise Pascal, 1642 esegue addizioni e sottrazioni di numeri composti da un massimo di
dodici cifre, operando automaticamente i riporti.
Macchine finora avevano obiettivo mirato e ben specifico. Tuttavia, al di là di risolvere un problema
puntuale, l’uomo cerca da sempre di fornire la risposta universale a tutto. (special/single purpose<->
general purpose)
Charles Babbage il primo a introdurre il concetto di calcolatore programmabile progettò analytical
engine (macchina in grado di operare in input ed output su schede perforate, dotata di memoria che poteva
contenere 1000 numeri di 50 cifre decimali ciascuno), ma che non realizzò per mancanza di fondi-> unità
aritmetica indipendente in grado di eseguire 4 operazioni aritmetiche, confronti e radici quadrate macchina
programmabile ed elementi che potremmo definire parte di una memoria espandibile, poiché la memoria su
cui lavora può essere allargata.
Prima programmatriceAda Lovelace Charles Babbage a Torino tiene una lezione sulla sua macchina,
invitato da Luigi Menabrea che trascrive la sua lezione in francese-> note di questa lezione vengono
condivise con Ada affinché venissero tradotte anche in inglese non solo traduzione studia la macchina+
corrispondenza con Babbage stessoscrive articolo scientifico e oltre alle informazioni di Babbage inserisce
nota G (tentativo di dire come usare la macchina, ad esempio per calcolare una sequenza numerica famosa
con applicazioni pratiche, come i numeri di Bernoulli primo software)
Ada dice che la macchina analitica può agire anche su altre cose, risolvere altri problemi attraverso codifica
formale.

Per informatica bisogna utilizzare la logica booleana cerca di risolvere qualsiasi tipo di asserzione in due
risultati possibili, vero e falso.
Ci hanno lavorato Gottfried Wilhelm (von) Leibniz , George Boole (per primo ha formalizzato questo tipo
di logica), e Akira Nakajima.
Boole per esprimere le asserzioni vero e falso in simboli matematici sceglie 0 e 1 0 (falso) o 1 (vero).
Operazioni fondamentali somma logica (data da AND oppure ^), il prodotto logico (dato da OR
oppure v) e infine la negazione (data da NOT oppure ¬).
La logica booleanaalla base dei linguaggi per l’informatica.
Calcolo automatico ha portato a molte riflessioni teoriche es. a cavallo tra filosofia e matematica (e
dunque logica) è quella di Kurt Friedrich Gödel, matematico che definisce i due teoremi
dell’incompletezza.
Il secondo Qualsiasi sistema informatico, qualsiasi logica sono incompleti, non possono contenere tutto
poiché in ultima istanza manca la spiegazione di sé stessi un qualsiasi sistema formale non può essere
usato per spiegare sé stesso

Tesi di Church e Turing formulata indipendentemente, ma contenuto sostanzialmente equivalente se


un problema (matematico) è umanamente calcolabile, allora esisterà un modo meccanico in grado di
calcolarlo tesi comunemente accettata ma non dimostrabile non ha dimostrazione formale matematica
ma finora non è stata smentita.
Modello a cui fa riferimento è la macchina di Turing studiata come entità astratta costituita da:
 Alfabeto finito di simboli (contenente simbolo speciale blank e uno o più altri simboli)
 Nastro (lunghezza infinita) suddiviso in celle e ognuna contiene un simbolo
 Testina che legge simbolo della cella corrente e spostarsi nella cella adiacente (destra o sinistra)
 Insieme finito di stati: uno stato iniziale e uno più altri stati alcuni dei quali sono finali.
 Registro di stato: memorizza stato corrente scelto nell’insieme degli stati
 Tabella delle azioni o funzione di transizione tabella con 5 colonne e numero finito di righe in
cui sono indicati stato corrente, simbolo della cella corrente, simbolo da scrivere nella cella corrente,
verso (sinistra o destra), nuovo stato da memorizzare nel registro di stato.
Sistema automatico lettura del simbolo contenuto nella cella corrente, poi individuazione nella tabella
delle azioni, scrittura del nuovo simbolo nella cella corrente, spostamento della testina nella cella adiacente
nel verso indicato, impostazione del nuovo stato nel registro dello stato.
Modello del calcolo automatico di Turing è invariato tutt’oggi e costituisce risoluzione del teorema di Godel
in quanto per Turing tutto è calcolabile.
Test di Turing the Imitation game gioco da tavola dell’Inghilterra vittoriana dove si fa finta di scrivere
dei messaggi e si deve indovinare chi dice cosa, ma Turing lo utilizza per testare l’intelligenza delle
macchine.
3 attori-> 2 umani e una macchina conversano tramite terminale (modello chat-line). Arbitro umano deve
valutare in base alle risposte chi dei due è l’umano e chi la macchina. Macchina supera test se viene
scambiato per umano.
Uno dei primi sistemi conversazionali ELIZA (programmato nel ’66) simula comportamento di uno
psicologo rogeriano, stimola interlocutore umano a produrre frasi di senso compiuto espressioni
precompilate dal programmatore

Konrad Zuse Z3 primo elaboratore di tipo digitale elettromeccanico e alimentato ad energia elettrica
/programmabile/ basato su relè elettromagnetici.
Thomas Harold Flowers Inghilterra Colossus primo calcolatore completamente elettronico, basato
su valvole termoioniche (o tubi a vuoto) dispositivo di memoria= nastro perforato attraverso i cui buchi
si registrano l’automazione binaria semplice.
USA John Mauchly e John Presper ENIAC (primo calcolatore elettronico universale (general
purpose)) Electronic Numerical Integrator and Computer pesanti limiti della tecnica di
progrmammazione EDVAC (Electronic Discrete Variable Automatic Computer) impiego di
un’aritmetica non più decimale ma binaria+ unico dispositivo di memoria per istruzioni e dati.
Anni ’50 transistor dispositivi formati da semiconduttori che sostituirono valvole termoioniche molto
meno costosi, più veloci e compatti
Anni ’60 circuiti integrati (microchip) circuiti elettronici miniaturizzati introduzione del
microprocessore
Legge di Mooreil numero di transistor che possono essere integrati in un unico circuito raddoppia
approssimativamente ogni 2 anni con la stessa velocità si evolvono caratteristiche dei dispositivi quali la
velocità di elaborazione e la capacità di memorizzazione.

Architettura di Von Neumann caratteristiche principali sono:


 Calcolatore universale (general purpose)
 Dispositivo di memorizzare che rappresenti con stessa codifica dati e istruzioni
 Aritmetica binaria invece che decimale
 Separaz dispositivo di memorizzazione e dispositivo di elaborazione
Calcolatore si struttura così:
 Processore (CPU) legge le istruzioni e le esegue operando trasformazioni sui dati
 Memoria insieme di unità di memorizzazione (celle) ogni cella può contenere dati o istruzioni
 Interfaccia che sia di input o di output gestisce interazione con l’ambiente esterno, in
particolare con gli utenti del calcolatore, collegandosi con le periferiche
 Bus canale di comunicazione che gestisce scambio di informazioni con gli altri sottosistemi
Difetto intrinseco dell’architettura di Von Neumann collo di bottiglia di Von Neumann CPU troppo
veloce per il BUS
Roberto Busa prime sperimentazioni dell’utilizzo di computer nell’ambito umanistico anni ’40padre
gesuita che si è occupato dell’Index Thomisticus (indice di tutte le opere di Tommaso D’Aquino)
lemmatizzazione dell’opera omnia.
1946 contatta IBM(56 volumi, 70.000 pagine, 11 milioni di parole)lavoro che può fare una macchina
poiché più veloce e precisa edizione esce nel 1980 prima edizione completamente curata da una
macchina, dove tutto l’indice, l’impaginazione e tutti gli aspetti editoriali sono creati da una macchina
Nel 1985 uscì la versione dell’opera in ipertesto, e nel 2005 fu pubblicata sul web.

LEZ 2--- CODIFICA, RAPPRESENTAZIONE E MEMORIA


Codifica e decodifica, importanti per trasmettere informazione.
Nell’ambito dei computer codifica unificataqualsiasi tipo di informazione codificata nel sistema binario
Alfabeto finito semplice 0 e 1 ognuno un bit, contrazione di binary digit (cifra binaria)
Scelta di alfabeto binario per la sua semplicità con cui i simboli possono essere rappresentati da dispositivi
bistabili (dispositivi fisici in grado di assumere due configurazioni alternative e di permanere stabilmente
nella configurazione loro assegnata): es
 Presenza/assenza di un foro in una scheda
 Diversi stati di polarizzazione di una sostanza magnetizzabile
 Presenza/assenza di carica elettrica di una sostanza
 Passaggio/ non passaggio di corrente in un cavo conduttore
 Passaggio/ non passaggio di luce in un cavo ottico
Dispositivo bistabile= dispositivo di memoria non per forza elettronico, ma anche scheda di cartone
Roberto Busa per Index Thomisticus calcolò di usare delle schede perforate (unico supporto allora
disponibile) avrebbe avuto bisogno di 12 milioni di schede.
N° bit 2n sequenze possibili
La base a 8bit (byte) importante in informaticaa lungo ritenuta sufficiente per codificare le informazioni
molto utilizzata oggi ancora le immagini vengono codificate con una base a 8bit.
Oggi nei nostri sistemi si tende a basi a 64bit e anche più grandi sistemi sono più ricchi ed espressivi di
una volta.
Sistema metrico decimale =base 10  sistemi binari= base 2
multipli del sistema binario
Implementato algoritmo per la conversione
per i numeri decimali si deve dividere il
numero per 2 riportando il resto che va a
comporre il codice binario.

Sistemi di memoria del computer


MEMORIA CENTRALE (RAM) celle,
ciascuna costituita da alcuni dispositivi
bistabili generalmente organizzati in gruppi di
8.
Realizzata con circuiti elettronici integrati,
memoria centrale caratterizzata da volatilità e
sua capacità di memorizzare richiede continuo flusso di alimentazione elettrica spegnimento del
calcolatore determina cancellazione di tutto il suo contenuto.
Dispositivo di memoria può supportare diversi tipi d’accesso:
 Accesso sequenziale: prima di poter leggere una cella è necessario leggere quelle che la precedono.
 Accesso diretto: dato l’indirizzo di una cella, ne è possibile l’accesso immediato
 Accesso misto: (diretto+sequenziale) con un accesso diretto si accede a un blocco di celle all’interno
del quale la singola cella viene individuata con una ricerca sequenziale
 Accesso associativo: accesso a una cella non è guidato dal suo indirizzo ma da suo contenuto che
viene ricercato in parallelo su più celle (memorie cache)

MEMORIE DI MASSA garantisce la persistenza dei dati


Offre una maggiore capacità e un minor costo di memorizzazione
supporti rimovibili memorie di massa fisse.
Per prevenire perdita dati se memoria di massa si danneggia Backup (tecnica per disaster recovery)
produzione di copie aggiuntive
Memorie di massa si possono classificare in: dispositivi magnetici, dispositivi ottici e memorie flash
Dispositivi magnetici materiali ferromagnetici quando esposti a campo magnetico esterno assumono stato
di magnetizzazione supporto di memorizzazione dei dispositivi magnetici costituito da superficie ricoperta
di uno strato di materiale ferromagnetico
Disco rigido piatti e testine di lettura sulle superfici dei piatti vi sono le tracce sottili strisce circolati su
cui testine scrivono i dati
Formattazione preparazione del supporto al suo primo utilizzo cancellaz di tutte gli eventuali dati
preesistenti e individuazione di eventuali blocchi danneggiati.
Deframmentazione ottimizza prestazioni del disco e organizzaz più efficiente

DISCHI OTTICIletti tramite un apposito drive (lettore) con l’ausilio di una luce laser
Disco ottico costruito a strati: disco di materiale plastico (substrato), strato riflettente, strato di vernice
protettiva, etichetta
Su substrato lunghissima traccia a spirale Pit (fosse per codificare i dati) e land (superficie piana tra i
pit)
ROM sola lettura; WORM write once read many supporti scrivibili; re-recordable, RW, Read
Write supporti riscrivibili
CDpiù vecchio, lunghezza d’onda molto ampia (vicino all’infrarosso) CD ROM, CD-R, CD-RW
DVD materiale audiovisivo, laser di colore rosso con lunghezza onda inferiore a CD
BD (blu ray disk)laser di colore blu-violetto, materiale audiovisivo ad alta risoluzione

MEMORIE FLASH EEPROM supporto il cui contenuto informativo può essere scritto o cancellato e
riprogrammato mediante processi elettrici capacità intermedia tra RAM e disco rigido
Tipologie: memory card, drive USB, drive a stato solido
Morse sistema economicolettere usate più frequentemente = lunghezza corta; lettere meno
usuali più lunghe sistema non perfettamente binario (silenzio breve che distingue le lettere e il silenzio
lungo che distingue le parole) tecnicamente sistema a base 4.

Character encoding ASCII (American Standard Code for Information Interchange) standard creato
dall’ANSI (American National Standard Institute) per la codifica delle informazioni testuali
Prima ogni computer proprio sistema operativo e proprio sistema di codifica delle informazioni ciò che
scrivevo in un computer in un altro non riuscivo a leggerlo sistemi diversi
Necessaria base comune, a livello prima americano, poi internazionaleASCII =tabella di concordanza tra
un codice binario, le lettere dell’alfabeto e la punteggiaturabase dell’editoria dei testi elettronici
ASCII base di 8bit, quindi ogni pezzo di informazione è lungo 8 caselle, però per la codifica solo 7,
mentre ultimo bit solo di controllo (primi 7 per definire l’info e l’8 è un controllo statistico)base reale è
7bit, che produce 128 elementi128 grafemi (alfabeto, segni di interpunzione, segni matematici come
parentesi, + o -, poi ci sono controlli vari come spazio, stampa ecc) tuttavia limiti sistema adatto solo
all’inglese, non includendo caratteri speciali delle altre lingue.
ASCIIbase a 8bit vera 256 grafemi possibili possibile implementare simboli come le vocali accentate
Ma non ancora sufficienteUNICODE progetto internazionale supportato da vari enti governativi e
non standard continuamente aggiornato range di quasi 140 sistemi di scrittura, sia in uso che morti,
storici es greco antico, copto.
Unicode affronta anche problema della letteratura pregressa tante caselle possibili e ogni casella ha un
grafema particolare.

Nel mondo umanistico già prima dell’arrivo dello Unicode necessità della codifica di testi in scritte non
latine Betacode (Fondazione Packard, diretta da David W. Packard, filologo classico)necessità di
codificare in formato elettronico la letteratura greca, quella latina ecc e in ASCII non era possibile.
Betacode utilizza l’ASCII come formato, inserisce all’interno del computer caratteri in ASCII e poi usa un
layer, uno strato informativo in mezzo per tradurre queste informazioni es. se scrivo A intendo alfa, se scrivo
B intendo beta.
ergo Betacode è un modo di rappresentare il greco e altre lingue utilizzando come codifica l’ASCII
rappresentare in maniera fedele i testi
es. sulla tastiera scrivo g, sullo schermo vedo gamma, ma nel computer viene salvato g

Unicodesistema espandibile perché ogni casellario è espandibile. Unicode estende ASCII, ma non lo
sostituisce tabelle possiedono anche delle caselle vuote, che servono per eventuali nuovi caratteri che
vengono
scoperti in documenti antichi.
Fontrappresentazione grafica che varia a seconda dei sistemi di codifica prefissati, delle informazioni
vettore che sullo schermo rappresenta una codifica che può essere sia ASCII sia Unicode (informazione di
codifica è il corpo, il font è un vestitolo stesso corpo può indossare vari vestiti)
Font specializzati in una determinata grafia, infatti non esistono font universali; il Times New Roman ad
esempio, uno dei Font più conosciuti, copre tante grafie ma non copre tutto il casellario Unicode.
Font specifici: es se scrivo in russo verosimilmente ho un font specifico che mi copre l’alfabeto cirillico;
tanti Font specialistici implementano in forma privata le caselle dello Unicodeattribuiscono un grafema
anche a quella casella
Alcuni Font iper-specializzati in un determinato settore per guadagnare espressività implementano dunque
anche caselle private rischio: non può essere letto in maniera universale poiché solo io che ho scritto quel
Font posso interpretarlo si rischiano conflitti in caso quest’ultimo voglia riempire proprio quella casella.
font non ha solo un lato estetico ma anche uno funzionale.
Fonteredità che ci arriva dalla vecchia editoria: quasi tutti quelli che usiamo = creazioni dal ‘600 in poi di
case tipografiche specializzate es. Helvetica di Gary Hustwit è uno dei più conosciuti.
Perseus project partito dagli autori greci e latini e attualmente sta inglobando testi letterari di vari tipi di
culture, anche contemporanee mantengono codifiche diverse per non legarsi ad un sistema specifico,
sorta di biblioteca che deve conservare e pubblicare testi e mantenere tutte le codifiche possibili per avere
sempre strumenti di trasformazione possibilità di avere diverse rese grafiche dello stesso testo pescando da
codifiche diverse, sia legate a specifici Font o layout di tastiera, a traslitterazioni, al Betacode o vari tipi di
Unicodeformati più nuovi non sostituiscono quelli vecchi ma si fanno trasformazioni controllate.
ASCII, Unicode e Betacode non allo stesso livello
Le punte della montagna sono l’ASCII e lo Unicode, ma sotto di loro ci sono milioni di esperimenti fatti in
diversi settori es. Betacode.
Unicode= standard internazionale, il Betacode è un esperimento di professionisti del settore fatto per cercare
di risolvere un problema specifico (standard vs. esperimenti scientifici specifici).

LEZ 3 MARKUP E TEXT ENCODING


Livello 0 codifica di baserappresentare ciascun carattere che compone il testo in codice binario
l’informazione.
Prima che possano essere studiati con l'ausilio di macchine, i testi devono essere codificati in una
forma leggibile dalla macchina metodi per questa trascrizione sono chiamati schemi di codifica del testo
Codifica di alto livelloTali schemi devono prevedere meccanismi per rappresentare i caratteri del testo e
la sua struttura logica e fisica, informazioni accessorie ottenute mediante analisi o interpretazione.
In ogni sistema non solo caratteri, ma anche schemi, strategie di codifica
Annotazione, di marcatura o di markup marcatura di un testo è un modo per fornire informazioni sulla
struttura di un testo, per identificare le sue parti logiche e strutturali e infine per fornire indicazioni su sue
ulteriori elaborazioni. (deriva da abitudine tipografica di marcare con varie annotazioni parti del testo da
evidenziare o correggere per segnalarle)
Elementi fondamentali di un linguaggio di marcatura:
 Insieme di marcatori o tag che individuano blocchi testuali a cui viene assegnata interpretazione
 Grammatica che regola l'uso dei tag
 semantica che definisce la funzione della marcatura
Inoltre un linguaggio di marcatura deve rispondere a una serie di requisiti:
 potenza espressivapermette al linguaggio di essere applicato al numero più ampio possibile di
tipologie e generi testuali; Ehi inoltre permette di associare metadati descrittivi (es servono
all’identificazione e recupero del documento) e gestionali (informazioni sulle modalità di
archiviazione e manutenzione) ai documenti digitali
 portabilità e riusabilità portabilità= documento leggibile su qualunque tipo di piattaforma o
dispositivo informatico senza problemi di compatibilità; riusabilità= possibilità di accedere al
documento anche a distanza di tempo dalla sua creazione.
 standardizzazione e aperturalinguaggio usato universalmente dalla comunità di utenti, oltre che
aperto e di dominio pubblico.
Marcatura, dunque guida nella comprensione del testo, ma posso utilizzare notazione anche per determinato
lavoro/procedura (usare note anche per creare informazioni su come fare formattazione un determinato
testo).
Editoria contenuto che bisogna formattare e dargli forma impaginazione specifica output editoriale
(es informazione: tipo di font o di interlinea) formattazione= modo di trasmettere info non relativa al
contenuto)lavoro sul layout
Nell’editoria sono importanti gli schemi condivisi che non siano autoreferenziali es Chicago Manual of
Style sistema che si riferisce soprattutto a come formattare la bibliografia, le note e le citazioni simboli
precisi per ogni operazione necessità di formalizzazione.
Testo formattato per avere impaginazioni belle, ma anche per definire le strutture logiche di un testo
comprensione più veloce rispetto al testo plain.
I molteplici linguaggi di marcatura si dividono in: marcatura descrittiva e marcatura procedurale.
Marcatura proceduraledefinisco le procedure esatte, precise e specifiche che un soggetto, una macchina
o una persona, deve seguire per arrivare al risultato es a una certa parola va applicato un certo carattere,
dimensione, ecc informazioni dettagliate su come arrivare ad un output grafico ben specifico,
un’impaginazione funzione principale dunque è la resa grafica, no info sulla struttura e contenuto del
testo es LaTex e RTF

Marcatura descrittiva si divide il testo in unità logiche, e dunque la uso per dire qualcosa sui contenuti
del testo o sulla struttura, non sulla resa grafica es indicando il titolo dell’articolo e il primo paragrafo
Livello di astrazione superiore descriz del testo dal punto di vista del contenuto
Word permette di fare sia marcatura procedurale che descrittiva, dipende da che operazione facciamo
La marcatura descrittiva ha diversi vantaggi:
 composizione del testo semplificata;
 più attenzione alla struttura del testo;
 Ci possono essere rese grafiche alternative del documento fogli stile;
 formattazione può essere gestita in maniera centralizzata;
 La creazione dell’apparato testuale può essere automatizzata. Se usiamo intestazioni su Word
possiamo ad es creare un indice in maniera automatizzata (come per la tesi di laurea);
 portabilità e interoperabilità, di modo che se cambiamo programma non cambia il testo;
 fornisce un supporto per il recupero automatico dell’informazione, poiché il documento viene
trattato come un database;
 Infine dà la possibilità di eseguire procedure analitiche, stilometrice, ecc.
Quindi anche quando dobbiamo dare output grafico, la marcatura descrittiva è dunque lo strumento vincente.
Un testo organizza contenuto in diversi livelli modello gerarchico struttura OHCO (Ordered Hierarchy
of Content Objects) per descrivere qualsiasi testo dal punto di vista strutturalepensiamo al testo come
struttura concettuale
content objects possono anche essere chiamati “elementi”.

SGML Standard General Markup Language (linguaggio di marcatura standard generalizzato). Da quando
usiamo le macchine da scrivere elettroniche abbiamo dei caratteri speciali che codificano il testo elettronico,
che danno informazioni sulla formattazione. L’ASCII stesso ha delle caselle specifiche che danno istruzioni
alla macchina ma non di contenuto.
Dal 1960 circa si comincia a utilizzare dei marcatori, tag descrittivi fine degli anni ’60 si è proposto uno
standard Gencode(R) fino ad arrivare a un comitato che standardizza e formalizza prima il GML e poi lo
standard.
Breve storia dell’SGML. Storicamente i manoscritti elettronici contenevano codici di controllo o macro che
causavano la formattazione del documento in un modo particolare ("codifica specifica").
Al contrario, la codifica generica, alla fine degli anni '60, utilizza tag descrittivi
inizio del movimento di codifica generico presentazione fatta da William Tunnicliffe, presidente del
Comitato di composizione della Graphic Communications Association (GCA), durante una riunione al
Canadian Government Printing Office nel settembre 1967 argomento: separazione delle informazioni,
contenuto dei documenti dal loro formato.
Fine degli anni '60, un designer di libri di New York, Stanley Rice, propose l'idea di un catalogo universale
di tag "struttura editoriale" parametrizzati.
Norman Scharpf, direttore del GCA ha stabilito un progetto di codifica generico nel Comitato di
composizione il "concetto GenCode(R)", riconoscendo che erano necessari codici generici diversi per
diversi tipi di documenti e che i documenti più piccoli potevano essere incorporati come elementi di quelli
più grandiprogetto si è evoluto nel Comitato GenCode
Nel 1969, Charles Goldfarb stava conducendo un progetto di ricerca IBM sui sistemi informativi integrati
degli uffici legali. Poi con Edward Mosher e Raymond Lorie Generalized Markup Language (GML)
GML (iniziali dei suoi tre inventori)basato sulle idee di codifica generiche di Rice e Tunnicliffe. Invece di
un semplice schema di tagging, GML ha introdotto il concetto di un tipo di documento definito formalmente
con una struttura a elementi annidati esplicita sostanziale accettazione da parte del settore.
La stessa IBM, secondo editore più grande del mondo, ha adottato GML e ora produce oltre il 90% dei suoi
documenti con esso Dopo il completamento di GML, Goldfarb ha continuato ricerca sulle strutture dei
documenti, creando concetti aggiuntivi, come brevi riferimenti, processi di collegamento e tipi di documenti
simultanei successivamente sviluppati come parte di SGML.
Nel 1978, American National Standards Institute (ANSI) ha istituito il comitato dei linguaggi informatici per
l'elaborazione del testo, presieduto da Charles Card, allora di Univac, con Norman Scharpf come membro.
A Goldfarb fu chiesto di unirsi e, infine, di guidare un progetto per uno standard di linguaggio di descrizione
del testo basato su GML. Comitato GCA GenCode fornì un nucleo di persone dedicate al compito di
sviluppare il design del linguaggio di base di Goldfarb per SGML in uno standard.
La prima bozza di lavoro dello standard SGML pubblicata nel 1980.
Nel 1985 pubblicata una bozza di proposta per uno standard internazionale e l'International SGML Users'
Group è stato fondato nel Regno Unito da Joan Smith (primo presidente) ruolo: educare il pubblico
all'SGML poi dopo altro anno di revisione e commento testo finale!
GMLnon definisce un vocabolario unico per tutti, non inventano un linguaggio di marcatura ma
definiscono un metalinguaggio (insegnano come scrivere un linguaggio per formattare un testo) per
evidenziare una certa parola deve essere circondata da determinati caratteri.
Ergo! Metalinguaggio = linguaggio che ci permette di scrivere altri tipi di linguaggi.
Quando è stato definito lo standard negli anni ’70 sguardo verso il futuro, perché un’applicazione che
aderisce allo standard SGML lo è tale anche nel futuro standard anche per successive applicazioni.
strumento fondamentale che da una parte dà strumenti a chi usa i testi per crearsi i propri strumenti, dall’altra
ha permesso di mantenere centralizzata la gestione di questi tipi di strumenti per permettere interoperabilità.
Tuttavia l’SGML ha dei limiti:
 struttura pesante;
 troppo poco formalizzato per essere gestito dagli elaboratori, dunque anche il software difficile da
sviluppare perché le variabili sono tante;
 troppe funzioni sono opzionali;
 standard è troppo di alto livello, le regole sono troppo astratte per essere elaborate all’interno di un
elaboratore. strutture troppo pesanti e non abbastanza robuste per l’editoria digitale, cioè per il web
 Inoltre sono obbligatori DTD (una descrizione formale della grammatica di un linguaggio markup;
Document Type Definition) e uno StyleSheet, e anche una validazione del documento.

Implementazione dell’SGML HTML, il linguaggio con il quale è scritto il web (Hyper Text Markup
Language). Non esiste un documento che noi guardiamo sul web che non è stato scritto in HTML.
Ideato nel 1990 (da Tim Benners Lee con lo scopo di sviluppare sistema di pubblicazione per tenere in
contatto comunità internazionale dei fisici) , ma fino a pochi anni fa l’HTML =uno dei tanti linguaggi che
sono stati fatti a partire dalle regole dell’SGML
Esiste una versione più recenteHTML5
L’HTML è uno strumento ibrido perché prevede marcatori sia di tipo descrittivo che procedurale.
Il web non è una piattaforma implementata da professionisti ma da gente comunepieno di documenti
invalidi (sintassi con errori)
Il Markdown è un altro linguaggio di marcatura molto semplice Whatsapp usa un linguaggio di marcatura
derivato proprio da quest’ultimo. Si tratta dunque di un linguaggio di marcatura leggero finalizzato a scrivere
un testo strutturato in maniera semplice che possa poi essere convertito in (X)HTML valido.

LEZ 4- HTML, XML E TEI


HTML in grado di incorporare altre tecnologie che ne espandono potenzialità con colori, immagini,
animazioni, streaming audio e video ecc.
Estensione .html oppure .htm
Tag di apertura tra parentesi angolari (< >) come SGML e tag di chiusura con / (< / >).
Alcuni tag non hanno bisogno del tag di chiusura, poiché richiedono applicazione puntuale, es. <img> tag
a chiusura implicita.
HTML si aprono con l’indicazione della definizione del documento (DTD) che segna le specifiche utilizzate
e indica implicitamente quali elementi, attributi ed entità possono essere presenti (elementi: marcatori e loro
contenuto; attributi (fanno parte del content model): aggiungono informazioni, utili per descrivere più
accuratamente la struttura dei dati rappresentata, sono metainformazioni; entità: permettono di creare
collegamenti a dati esterni al documento, oppure possono indicare dei caratteri che non sono presenti nella
tabella codici del documento (usate dunque per caratteri che non fanno parte della tavola ASCII).
Inoltre HTML linguaggio case insensitive non fa differenza se tag scritti con maiuscole o minuscole.
HTML è molto user-friendly perché è facile da imparare, permette di avere una competenza più o meno
completa per strutturare qualsiasi tipo di documento e pubblicarlo velocemente.
Non è altrettanto friendly per le macchine i browser sopperiscono alle nostre mancanze, soprattutto di
sintassi, ma passano sopra a molti errori; infatti tanti documenti HTML non sono sintatticamente validi.
Problema quando dobbiamo trasmettere dei dati in maniera strutturata; l’integrità e la struttura del dato è
importante e l’HTML non è la soluzione migliore bisogno di linguaggi alternativi (struttura un po’ più
rigida, sintassi più stringente e che fosse rispettata) Tra questi XML ( Extensible Markup Language).

XML
Creato nel 1996 dal World Wide Web Consortium (partecipato sia da enti governativi che da industrie es
Apple e Amazon che si occupa di definire delle buone norme per il web, ma che non rilascia standard,
ovvero delle specifiche stringenti, ma rilascia delle raccomandazioni), un consorzio che definisce le buone
norme da usare sul web. Nel 1996 definita la prima bozza, nel 1997 viene rilasciata una proposed
recommendation e nel 1998 una recommendation (raccomandazione=di fatto è uno standard, è una norma
approvata dai massimi esperti di questo settore)
XML nasce con questa prima esigenza di definire un metalinguaggio che fosse più rigido rispetto all’HTML.
L’XMLversione semplificata dell’SGML, che non implica DTD e che deve essere ben formattato,
extendibile perché dà la possibilità di creare tag personalizzati.
Caratteristiche:
 linguaggio a marcatori, tag che descrivono la struttura e la forma di un determinato documento;
 Ogni marcatore identifica un elemento o un componente del documento;
 I marcatori vengono inseriti all’interno del documento;
 Sia il testo, sia i marcatori sono memorizzati in formato ASCII.
 XML usa la codifica dei caratteri UNICODE
 documento XML è leggibile anche da utente umano senza la mediazione di un software specifico.
Linguaggio facilmente leggibile sia da un umano che da una macchina e anche per questo sistema è valida
struttura ad albero elemento (documento) che fa da radice (root), all’interno del quale vengono nidificati
gli altri elementipossono trovarsi al di fuori solo i commenti (sezioni di testo ignorate dal programma,utili
a inserire osservazioni e annotazioni) e le direttive di elaborazione (es. dichiarazione della versione di XML
utilizzata).
Diff con HTML se facciamo errore di sintassi salta tutto nell’XML; metalinguaggio pensato per definire
una struttura molto rigida. Es errore di sintassi: mancanza dei marcatori di inizio o di fine del paragrafo (<)
oppure tag sovrappostila regola della gerarchia ordinata non dev’essere violata.
Attributi (informazioni aggiuntive) devono essere racchiusi da virgolette alte
XML è case sensitive maiuscole e minuscole che non vanno confuse codici binari diversi (questo già
all’interno dell’ASCII).
XML usato per tutto, dal scrivere pagine web, al produrre documenti da pubblicare online, ma soprattutto per
strutturare dati.
Inoltre l’XML veniva usato anche per la trasmissione di dati da un computer all’altro.
L’XMLformato ridondante, pesante da usare per tanti dati.
Metalinguaggio no vocabolario o elenco di tag da imparare a memoria  ci si può inventare propri tag
oppure linguaggio figlio che si basa sull’XML
XML è tutt’ora lo standard per strutturare tutta una serie di documenti. Nell’HTML invece non posso
definirmi i tag.

TEI (Text Encoding Iniziative)


Con l’XML possono essere costruiti tanti progetti, tanti software es. TEI (progetto fondamentale perché si
occupa di testi elettronici nell’ambito delle scienze umane) necessità degli stessi tag per dire le stesse cose.
TEI iniziativa internazionale che cerca di fornire delle strutture dati condivisibili su vari ambiti delle
scienze umanistiche.
cronistoria del TEInasce nel 1987 da un convegno a cura dell’Association for Computers and the
Humanities, in collaborazione con l’Association for Computational Linguistics e l’Association for Literary
and Linguistic Computing Urgenza, poiché si sentiva che proliferazione di sistemi di codifica diversi e
mal progettati minacciasse lo sviluppo del pieno potenziale dei computer per supportare la ricerca
umanistica. 1990prima bozza del progetto
1994prodotta la prima versione ufficiale
2002 versione 4 di questo progetto.
tuttora questo standard è continuamente implementato.

questo standard basa il proprio lavoro sull’XML in generale file TEI non è altro che un documento XML
che presenta una struttura ben definita.
TEIvocabolario molto grande di tag che si possono usare per definire vari tipi di testi Tutti i file TEI si
strutturano grosso modo così: in primo luogo c’è l’intestazione, dove ci sono dei metadati (che si riferiscono
a cosa dice il testo, chi ha pubblicato testo, ecc ovvero sono informazioni sul testo/opera); poi c’è la parte del
body (corpo dove si trova il testo marcato, con tutti gli strati informativi che aggiungo man mano).
L’intestazione fondamentale perché un documento senza metadati risulta monco.
La vera differenza tag, perché sono diversi a seconda di che cosa sto marcando (es. variano in base al
dominio, es. teatro o storia antica uso tag diversi).
TEI= linguaggio perché definisce un vocabolarioPer definire un vocabolario che comprenda tutta la
specificità delle scienze umane, questo vocabolario ha una grande espressività e risulta enorme di
conseguenza è difficilmente usabile Molto spesso viene detto che TEI è un accordo su come esprimere il
disaccordo tanti studiosi diversi guardano lo stesso oggetto, un pezzo di testo sotto punti di vista diversi e
hanno necessità di marcarlo, di commentarlo ecc secondo esigenze diverse.
Che cosa codifica il TEI, e in che ambiti viene utilizzato?
 L'infrastruttura TEI
 L'intestazione TEI
 Elementi disponibili in tutti i documenti TEI
 Struttura del testo predefinita
 Caratteri, glifi e modalità di scrittura
 Verso
 Testi di performance
 Trascrizioni di discorsi
 Dizionari
 Descrizione del manoscritto
 Rappresentazione delle Fonti Primarie
 Apparecchio critico
 Nomi, date, persone e luoghi
 Tabelle, formule, grafica e musica notata
 Corporazioni linguistiche
 Collegamento, segmentazione e allineamento
 Meccanismi analitici semplici
 Strutture delle caratteristiche
 Grafici, reti e alberi
 Strutture non gerarchiche
 Certezza, precisione e responsabilità
Problema del TEI davanti ad una parola abbiamo a disposizione un numero elevato di possibili tag che
possiamo usare, e molto spesso non si sa quali usare moltissime opzioni tutte validesfumature diverse di
significato.
Anche all’interno del TEI sottogruppi di lavoro che sostengono che avendo un vocabolario molto grande
bisogna fare un vocabolario specifico per ogni settore selezionare i tag che funzionano nel loro ambito e
creare un sotto-standard es Per l’epigrafia, vocabolario si chiama EPIDOC, utile per le integrazioni che
molto spesso fa un epigrafista su un testo antico; ma anche dei marcatori specifici per indicare i numerali

Algoritmi/linguaggi/software/OS (sistema operativo)


Algoritmo (Muhammad ibn Musa al-Khwarizmi (780-850 d.C.) che scrive un libro di algebradefinito il
padre dell’algebra)sequenza di istruzioni per realizzare un trattamento dell’informazione, meglio se in un
ordine ben specifico e dunque arrivare alla soluzione di un problema preformulato.
Funzionamento algoritmo:
 Presuppone esecutore che esegua algoritmo (nell’informatica computer)
 Algoritmo formulato in un linguaggio comprensibile all’esecutore, che non sia ambiguo.
 Esecutore può eseguire algoritmo in un linguaggio che non conosce a patto che algoritmo
preventivamente tradotto
 Istruzioni elementari che richiedano operazioni elementari
 Ordine di esecuzione delle istruzioni deve essere specificato
 Numero finito di istruzioni e output fornito in un tempo finito
 Algoritmo deve essere deterministico eseguendo algoritmo più volte, sempre stessi dati di output
 Algoritmo parametrico è un algoritmo che è in grado di risolvere non un solo problema, ma una
classe di essi.
 All’interno di un algoritmo può esserci un altro algoritmo precedentemente specificato.

Linguaggio di programmazione linguaggio formale (non ambiguo a diff del linguaggio naturale) usato
per scrivere algoritmi.
Linguaggio scritto, comprensibile agli uomini ma che è facilmente intellegibile anche da una macchina.
programma software, algoritmo espresso in un dato linguaggio di programmazione.

LEZ 5- LINGUAGGI/SOFTWARE/ OS /GRAFICA


Dal punto di vista dei linguaggi che vengono utilizzati per scrivere i vari software distinzione tra
linguaggi di alto livello e quelli di basso livello. Più linguaggio è vicino alla nostra lingua naturale alto
livello; più invece linguaggio si avvicina al linguaggio binario (linguaggio-macchina) linguaggio di basso
livello.
La piramide naturalmente prevede vari step intermedi es linguaggi degli assemblatori in mezzo ai due
estremi.
Il più basso livellolinguaggio macchina, in alfabeto binario, usato per programmare l’unità centrale,
ovvero il microprocessore di un dispositivo.
I linguaggi di alto livello sono molties il Basic, il
Pascal, C, C++, Java, LISP, PHP, Python, ecc.
In mezzo linguaggi che si occupano di prendere comandi
da uno o dall’altro estremo e trasportarli assembly.
Un’altra distinzionelinguaggi che possono essere
interpretati o che invece possono essere compilati.
Linguaggio alto deve preventivamente essere tradotto in
linguaggio-macchina corrispondenteattività svolta da un
traduttore specifico per quel linguaggio.

Compilatore riceve in input intero programma in linguaggio di alto livello (programma sorgente) e
produce in output la sua tradizione in linguaggio macchina (programma oggetto).
Interprete riceve in input programma sorgente e ne traduce le singole istruzioni facendole eseguire
direttamente.
es traduzione traduzione simultanea in una conferenza linguaggio interpretato
Traduttore che traduce e poi pubblica linguaggio compilato.
linguaggio compilato prevede la compilazione meno immediato, più difficile e meno veloce dei linguaggi
interpretati, però più accurato.
Java Scriptlinguaggio che permette di programmare, ma a sua volta
linguaggio interpretato interprete è Chrome, un browser. Chrome è
scritto attraverso C++, un linguaggio di programmazione, a sua volta
compilato in uno intermedio, Assembly (un altro linguaggio di
programmazione), a sua volta riscritto in codice binario in quelli che
vengono chiamati Relocatable Object Code.
Ogni operazione es fare click o spostare il mouse intervengono tutti questi vari livelli: il nostro input
scende a catena fra vari linguaggi software fino ad arrivare al microprocessore e poi ritorna al mittente per
trasmettere il risultato.

Software
Azienda commissiona a una software house in genere committente acquista dal produttore anche versione
sorgente e titolarità del diritto d’autore.
Altri casi produttore immette prodotto sul mercato, mantenendo titolarità diritto d’autore e concedendone
la licenza d’uso che consente l’utilizzo del prodotto su un numero limitato di calcolatori.
Alcuni prodotti vengono distribuiti via internet con licenza shareware (prodotto può essere liberamente
ridistribuito, può essere utilizzato per un periodo di prova che di solito dura un mese).
Licenza freeware prodotto distribuito gratuitamente dal titolare del diritto d’autore che può decidere se
fornire anche la versione sorgente—copiato e distribuito liberamente.
Software libero e software open source entrambi distribuiti con versione sorgente dal titolare del diritto
d’autore che ne incoraggia l’uso, lo studio, modifiche e redistribuzione a titolo gratuito ma nel rispetto di
alcune regole:
 Versioni modificate devono sempre menzionare autori delle versioni precedenti;
 Non si può distribuire software originario o modificato con licenze incompatibili con quella
originaria;
 Software originario o modificato deve sempre essere distribuito anche in formato sorgente
si possono distinguere tra software applicativi o software di base.
software applicativi usati in ambiti ben precisi es. video-scrittura, fogli di calcolo, presentazioni, gestione
di banche dati, grafica, organizer (agende, rubriche), multimedia, posta, navigazione, ecc.-->dominio ben
preciso.
Software di base (sistemi operativi)differenza con software applicativi a volte è labile.
Componenti del sistema operativo:
 Nucleo (kernel= gheriglio, nocciolo) gestisce la CPU e il suo impiego da parte dei programmi.
 gestore della memoria gestisce allocazione della RAM ai programmi in esecuzione.
 Gestore dei dispositivi di I/Ogestisce le periferiche e le relative operazioni di input/output.
 File system gestisce l’archiviazione e il reperimento dei dati sulle memorie di massa
 Gestore della rete gestisce comunicazione con altri calcolatori connessi in rete, condivisione
delle risorse locali e utilizzo delle risorse lontane.
 Interprete dei comandi gestisce interazione con l’utente
Sistema operativo gestisce anche il supporto per la grafica, il desktop ecc i sistemi operativi sono molti:
Windows, MacOs, Linux, FreeBSD, redhat, SunCobalt, Solaris, eccetera.
3 famiglie principali di sistemi operativi: Linux (che comprende Android ad esempio), Unix
& Unix-life (che comprende MacOS ad esempio), e il mondo Windows (GUI basato su finestre).
UNIXprogetto sviluppato da Dennis Ritchie, Ken Thompson, Douglas Mcllroy e Joe Ossanna sigla
(Uniplexed Information and Computing Service). Nasce all’inizio degli anni ‘70 presso i laboratori della
AT&T (grande azienda di telecomunicazioni americana che si occupa anche di ricerca e sviluppo); essa
possedeva dei laboratori Bell dove si facevano vari tipi di sperimentazioni.
1971 questo progetto viene scritto in un linguaggio di medio livello (Assembly)riscritto nel 1972 in C.
UNIX sistema generico che per la prima volta può essere installato su una varietà di hardware diversi.
Prima chi produceva una macchina grossomodo si occupava anche di scrivere il software di base che la
gestiva (hardware e software erano integrati nei primi computer) UNIX scinde le due cose primo
sistema operativo che può essere installato su architetture molto diverse.
UNIX è basato sull’elaborazione del testorapidissima diffusione sia nel mondo dell’industria (perché
ottimizza le macchine di allora rendendole più piccole ed economiche, permettendo loro di svolgere compiti
più onerosi) sia nel mondo universitario e della ricerca in generale.
UNIX prima interfaccia CLI (interfaccia a linee comando), poi GUI.
UNIX= progetto di ricerca continuamente sviluppato in maniera aperta e collaborativa
Per un cavillo legale AT&T non poteva vendere UNIX dunque UNIX veniva distribuito in maniera
gratuita diffusione e uno sviluppo molto importante e veloce.
Sviluppati tra fine anni ’70 e l’inizio degli anni ‘80 anche dei sottosistemi di UNIX BSD o il System V.
Le cose cambiano all’inizio degli anni ’80 UNIX diventa un prodotto commerciale perché cambia lo
statuto giuridico dell’AT&T (nel 1984 si separano dai Bell Labs) e cominciano a vendere questo software
proprio perché diventa un prodotto commerciale, non era più permesso modificare il codice.
Diversi attori principali che hanno visto la crescita di questo software non sono d’accordo con questa politica
commerciale scindono la loro partecipazione a UNIX e creano progetti diversi.
Nel 1983 nasce ad esempio il GNU Project grande progetto che si fa in contrapposizione a UNIX
reputano che progetto di ricerca deve essere disponibile gratuitamente creazione di progetto parallelo
riscrivono UNIX da capo con un altro codice creazione di prodotto con le stesse funzionalità di UNIX, ma
gratuito e libero.
1991 a UNIX viene donato anche un sistema per gestire il Kernel. Anche
Il Kernel di GNU creato grazie a Linus Torvalds, un dottorando da allora viene rilasciato sotto il nome di
Linux. Dunque Linux è solo il Kernel e quando parliamo di Linux, in verità parliamo di GNU Linux,
(matrimonio tra il Kernel Linux e il progetto GNU che offre la parte applicativa)
Al suo interno Linux è un ecosistema gigantescotantissime distribuzioni
Diffusione sistemi operativi nel mondo del desktop/laptop, gran parte degli utenti utilizzano Windows; per
quanto riguarda i server maggior diffusione i sistemi Linux, più sicuri e performanti dei sistemi Windows nel
campo specifico dei server.

Grafica
Prima fondamentale introdurre differenza tra analogico e digitalemodi diversi di rappresentare una
quantità o di rappresentare una variazione di una determinata grandezza, che può riferirsi a un qualsiasi tipo
di informazioneanalogico o anche detto continuo, oppure un modo digitale detto anche discreto.
L’analogico corrisponde ad una grandezza che varia in maniera uniformetra due misurazioni possiamo
farne un’infinità di altre; una variabile analogica può assumere un numero infinito di valori.
Grandezza che varia in maniera discreta, a scatti, a step finiti, numero finito di valoridigitale.
grandezza digitale può assumere un numero finito di valori, di stati intermedi, non infinito.
Tempo lettura che ne diamo sempre digitale, meridiana-> ombra cresce in analogia con il tempo, quindi
strumento analogico, ma lettura del tempo è sempre sottoposta a divisione in numero finito di valori, quindi
digitale.
Ergo un’unità che varia in maniera continua analogica; l’unità di misura che invece varia a stepdigitale.
codifica è binaria, per cui 0 e 1 sono misure discrete, finite.
corrispettivo analogico di un’immagine sul computer vecchie pellicole che si usano in fotografia
La luce naturale reagiva con il materiale fotosensibile e dava un’immagine analogica.
Se immagini digitali vengono ingrandite unità minime, cioè i pixel (contrazione di picture element)
immagini fatte da pixel sono digitali.

Esistono due tipi differenti fondamentali di grafica: la grafica raster e la grafica vettoriale.
Raster (significa ‘trama/reticolo/griglia’), di derivazione latina (da ‘rastrum’ che significa ‘rastrello’).
Immagini raster sono fatte da una griglia (bitmap o pixmap) composta di colonne e di righe, dunque di
elementi semplici di formato rettangolarepixel scacchiera e ogni cella è un pixel (unità minima)
Pixel può rappresentare un unico colore informazione dentro un pixel è omogenea e relativa al colore.
Caratteristiche principali delle immagini raster: la risoluzione, la profondità colore e il modello colore.
La risoluzione può essere espressa in vari modi: in generale conta definitiva dei pixel di un’immagine es
46px di larghezza e 40 px di altezza (questo non dà la qualità in assolutonon qualità dell’immagine).
Risoluzione può essere espressa anche con un’altra unità una specie di campionamento che definisce uno
spazio fisico (1 cm x 1 cm)conteggio in una unità fisica es: in 1 cm2 quanti pixel ci sono? --> densità dei
pixel, non conteggio totale L’unità solitamente usata per questo sistema è il PPI o DPI (pixel in un pollice
quadrato)Più è risoluta un’immagine, più è definita e più è pesante.
Vari standard per la risoluzione; sul web uno dei più diffusi è quello dei 72 PPI per la risoluzione delle
immagini che vengono salvate rapporto minimo
Per la stampain base alle stampanti o gli strumenti tipografici per l’output su carta: nel mondo dell’editoria
richiesta una risoluzione minima di 300 PPI per le immagini da stampare.
Profondità del coloreil numero di bit impiegati per codificare il colore associato a ciascun pixel più bit
ho più l’immagine è completa  es. Con 8bit ho 256 tonalità di grigio.
Avendo come base di codifica i bit, usa il sistema ASCIItesti e immagini da questo punto di vista sono
uguali sistema più o meno espressivostandard che utilizziamo oggi per gran parte delle immagini8bit.
modelli di coloristudiati dall’otticamodo univoco per definire delle tonalità noi percepiamo il colore
tutti in maniera diversa ma c’è bisogno di uno standard, preso dalle leggi dell’ottica che scompongono i
colori in unità base.
modelli di colore più diffusi sono RGB e CMYKdue grandi categorie: modelli additivi e sottrattivi.
modello sottrattivo parte dalla presenza di tutti i colori, ovvero dal bianco (compresenza di tutte le onde
che danno i colori), e crea tonalità sottraendo dal bianco
modello additivo è l’esatto contrarioparte dal nero (l’assenza di colore) e aggiunge colori fino ad arrivare
al bianco che li comprende tutti.
Il sistema CMYK (modello sottrattivo)generalmente utilizzato per prodotti grafici che vanno stampati (es
ambito editoriale) perché la carta, lo sfondo con cui lavora è bianco.
L’altro sistema, RGB (modello additivo), usato più nel digitale, poiché normalmente i monitor, i desktop
eccetera sono scuri.

Sistema di codifica delle immagini RGBogni pixel delle immagini digitali prevede una tripletta di valori
(bande espresse tutte in 8bit) una banda per il canale di rosso,
un’altra banda il canale verde e un’altra quello blu ogni banda
256 possibili stati essendo a base 8bit 0= il colore non è
espresso; 255=espresso al massimo.
RGB è il modello più diffusoavendo solo tre bande è
relativamente semplice.

Vari modi di esprimere queste annotazioni-> es da 0 a 255; da 0 a 100%;


Molto diffusa è la rappresentazione esadecimalealfabeto fatto di 16 simboli composto di numeri e lettere
dell’alfabeto (0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F)
Nell’annotazione esadecimalecodice di 6 blocchi alfanumerici: i primi 2 codificano il rosso, quelli in
mezzo il verde e gli ultimi due il blu (es: il rosso corrisponde a #ff0000) per rappresentare una grande
quantità di tonalità diverse(HEX)
Altro standard HSBmodello che prevede uno spazio cilindrico della rappresentazione dei colori dove c’è
un dato polare, una gradazione, e due dati percentuali (es il rosso corrisponde a 0%, 100%, 100%)
In questo sistema abbiamo un cerchio all’interno del quale ci orientiamo con un dato polare che va da 0 a
360° + tre dimensioni date dalla tinta, dalla saturazione e dalla luminosità.
Ci sono moltissimi altri modelli di colori nella graficadipendono da cosa si vuole fare con i colori e le
immagini.

Esistono immagini raster ‘speciali’ es rappresentazione di un territorio attraverso un valore dato dal
caloreimmagine fatta con una termocamera (dispositivo che registra non l’onda del visibile, ossia i colori
che percepiamo, ma altre frequenze dell’onda, come l’infrarosso o l’ultravioletto)raster può codificare non
solo immagini del visibile, ma qualsiasi tipo di dato; es rappresentazione della temperatura visualmente sullo
schermo con falsi colori (convenzione per quanto riguarda il calore codifico con il blu la temperatura
fredda e con il rosso quella calda.
Altra codifica possibilemappa di altitudini, dove si vede la differenza di quota o altitudine di un territorio.
Raster= modello che posso usare per codificare tanti tipi di informazioni diverse.
I formati raster sono molti: JPG PNG, TIF, BMP, GIF, PSD, HDR.
Alcuni formati che non salvano tutte le informazioni, come JPG (compressione lossy) e altri che invece le
salvano tutte, come PNG (compressione lossless)
I software che utilizzano le immagini raster sono Paint, Anteprima, Photoshop, GIMP, ecc.

Le immagini vettoriali invece di usare i pixel usano le primitive geometriche (punto, linea e poligono) per
rappresentare un’immagine.
Corso di disegno si impara a semplificare in primitive semplici una figura umana che poi giustapponiamo
e ricalchiamo unendole in modo da avere una figura interanostro modo di concepire una figura è
scomporla in unità più piccole.
La grafica vettoriale usa degli elementi semplici per rappresentare qualsiasi tipo di informazione.
Ognuno di questi elementi è descrivibile da coordinate sugli assi x;y del sistema cartesiano possibilità di
rappresentare anche immagini piuttosto complesse.
primitive geometriche hanno una posizione all’interno dello spazio cartesiano specifico e hanno attributi
specifici (es. riempimento, lo spessore del tratto, la forma, la curvatura, ecc).
Le immagini vettoriali non hanno risoluzione, possono essere zoommate all’infinito senza sgranarsi.
Tutti i font sono elementi di grafica vettoriale.
Anche in questo caso i formati sono moltissimi a seconda di quello che facciamo: SVG, DXF, CGM, AI,
SHP, WMF, ecc.
Un formato particolarmente interessante è l’SVG (Scalable Vector Graphics) usa l’XML per rappresentare
la grafica. Quindi l’XML va bene per marcare i testi, ma anche per codificare le rappresentazioni grafiche. È
supportato da tutti i browser in circolazione ormai modello nato per il web ma che ha molte applicazioni.
Non è uno standardc’è stata tantissima discussione sullo standardizzare questo sistema.
SVG formato generico che permette di incrementare la grafica vettoriale partendo da un testo molto
semplice; usa l’XML come metalinguaggio all’interno del quale definisce un proprio vocabolario.
Tutto ciò che abbiamo visto per quanto riguarda la grafica può essere espresso in SVG.
Con l’SVG si può estendere l’HTML in modo da poter rappresentare qualsiasi disegno o immagine grafica.
Tramite SVG possiamo cambiare un singolo attributo di una determinata immagine (es. il colore)con
la grafica raster devo selezionare tutti i pixel e cambiare colore a ciascuno di essi, dunqueun’operazione
più complicata.
SVG non essendo uno standard, è suscettibile a cambiamento.

LEZ 6- RETI E INTERNET, WEB 1; 1.5


Internet e World Wide Web non sono esattamente la stessa cosa
Internet è qualcosa di più grande e contiene il WWW
Web è un servizio su Internet; Internet è un’infrastruttura tecnologica sulla quale si appoggia il Web (Web
nasce due decenni dopo Internet).

Internet è una rete (net in inglese = rete) rete di calcolatori: insieme di 2 o più calcolatori e dispositivi,
connessi tra loro allo scopo di comunicare e condividere dati e risorse singoli elementi connessi=nodi
A seconda della scala delle reti, potremmo avere:
 Rete personale PAN (Personal Area Network) interconnette un personal computer con
dispositivi periferici in un raggio d’azione di qualche metro, talora con il puro obiettivo di realizzare
una connessione a una rete di più alto livello, tipicamente Internet.
 Rete locale LAN (Local Area Network) interconnette calcolatori di un edificio o di un edificio
adiacente.
 Rete metropolitana MAN (Metropolitan Area Network)  limitata alla scala urbana
 Rete geografica WAN (Wide Area Network) ampia area geografica, interi continenti.
 Rete globale GAN (Global Area Network) si estende a livello globale.
Più la rete è grande, più è difficile da mantenere, più è lontana dagli utenti.
Le reti vengono costruite fisicamente, ci sono dei cavi (la tecnologia più usata è la fibra ottica)vari tipi di
accessi.
Possono essere più o meno pubbliche, completamente aperte; quelle locali spesso sono completamente aperte
(senza password).
Altra classificazione possibile reti pubbliche e reti private. Ormai, anche per motivi di sicurezza più che
tecnologici, tutte le reti sono private, per motivi anche di tracciamento per comportamenti legali o meno.
Gli utenti devono autenticarsi.
Tuttavia si possono usare delle reti di tipo pubblico, implementate da soggetti terzi, per scopi privatiVPN
(Virtual Private Network) implementazione di una rete privata virtualeSuccede in continuazione che si
creano reti private che usano un’infrastruttura di rete pubblicareti che prevedono la crittografia ma che non
è fondamentale.
“Esplose” durante il covid perché permettono di creare degli uffici virtuali
Per motivi di sicurezza delle istituzioni, es. Sapienza si creano delle reti private che offrono dei servizi: es.
accediamo ad un database online dove possiamo scaricare risorse, libri, riviste ecc. Sapienza ha degli
abbonamenti per accedere a questo database necessario usare VPN Sapienza
VPN funziona per creare una rete privata usando l’infrastruttura pubblica rete privata che permette di
condividere delle risorse aziendali all’interno di una rete pubblica.
VPN viene utilizzato molto per la protezione dei dati personali su internet es. Mozilla VPN offre sicurezza,
affidabilità e velocità in ogni dispositivo; hanno creato delle reti di computer sparse per il mondo nelle quali
accediamo attraverso un VPN che ci garantisce la sicurezza servizi che inseriscono dei filtri che difendono
i nostri dati personali.
Connessioni tra i vari nodi di una rete sono sempre fisiche: ogni tipo di informazione passa attraverso un
supporto fisico quando usiamo servizi senza fili anche in quel caso abbiamo una trasmissione fisica dei
dati
Mezzi guidati (connessione cablata)segnale viaggia lungo linee fisiche (cavi)
 UTP ( Unshielded Twisted Pair) doppino telefonico 8 fili di rame ciascuno ricoperto da guaina
isolante, suddivisi in 4 coppie di fili intrecciati ambito del LAN. Presenta alle sue estremità un
connettore RJ45
 Cavo coassialetrasmissione di segnali luminosi corpo centrale di rame ricoperto da uno strato
isolante, avvolto a sua volta da una maglia di fili di rame che lo scherma rispetto alle interferenze
elettromagnetiche esterne e quindi racchiuso in una guaina isolante esterna. Due versioni: thin e
thick
 Fibra otticatrasmissione di segnali luminosi conduttore centrale (core) avvolto da un
rivestimento (cladding) presenta un indice di rifrazione minore rispetto a quello del core che
determina fenomeno della riflessione totale interna. Cladding avvolto da uno o due strati di materiale
plastico trasmissione anche su lunghe distanze ed elevata velocità.
Mezzi non guidati (connessione senza fili) segnale viene irradiato nello spazio (trasmissione via etere)
che utilizzano varie lunghezze dell’onda elettromagnetica, spesso frequenze delle onde radio o gli infrarossi.
 IrDA (Infrared Data Association) onde elettromagnetiche infrarosse
 Bluetooth risale agli anni ’90, tecnologia sviluppata dai gestori della telefonia mobile: serviva
protocollo condiviso per trasmettere dati di piccola quantitàsi sono messi insieme i produttori più
importanti al momento (Intel, Ericsoon e Nokia) e hanno definito questo standard. Nome ispirato a
re Harald “Bluetooth” Gormsson (che unì Danimarca e Norvegia nel 958 e il suo dente dopo la
morte assunse una sfumatura bluastra che gli valse il soprannome)
 Wi-Fi (Wireless Fidelity)tecnologia basata sulle onde radio.
5Gin fase di implementazione quinta generazione per le reti della telefonia e i dati velocità di
trasmissione delle informazioni spazia da 50Megabit a 1 Gigabit.
5G stessa velocità della fibra ottica
le reti delle telefonie hanno delle celle, dei dispositivi fisicici colleghiamo alla cella più vicinaciò
permette il tracciamento fisico dei dispositivi.
tecnologie satellitari es. cellulari satellitari che non hanno bisogno di antenne a terra per funzionare, e la
stessa cosa si può fare per internet, es. Starlink. Permette di connettere luoghi impervi

Internet rete di varie reti implementata da vari soggetti, commerciali e non struttura ad albero composta
di tante reti Internet è un serie di cavi di varie dimensioni che entrano in connessione tra loro e connettono
vari tipi di dispositivi.
Host o nodo (poiché si tratta di un nodo della rete, dispositivo connetto alla rete) host può essere server o
client, dunque una macchina che riceve informazioni (client) o una che fornisce una determinata risorsa o
informazione (server).
I protocolligli standard che permettono alle varie architetture di parlarsi tra loro perché implementano lo
stesso tipo di protocollo, delle interfacce di scambio dei dati Il protocollo è come un linguaggio comune.
Le informazioni viaggiano nella rete divisi in pacchetticoncetto di panchetto è fondamentale perché
un’informazione viene spacchettata in pezzi più piccoli ciascuno dei quali contiene una mappa e ogni
pacchetto che viaggia nella rete ha una mappa per ricomporlo e così si trasmettono le informazioni che
vengono ricomposte al loro arrivo.
divisione in pacchettiimportante per mettere in piedi le retiintrodotto nel 1961 dal MIT
La concezione stessa del packet switching si deve a Leonard Kleinrock fondamentale contributo sono
stati gli studi di Joseph Licklider per la Galactic Network.
La rete internet che usiamo concepita negli anni ’60 Lickdier assunto alla Defense per gli studi di
interazione tra computer e macchine, progetti che hanno uno scopo militareimplementazione nella ricerca.
Prima comunicazione tra due computer è avvenuta nel 1965.
Dal 1974 ad oggi i protocolli fondamentali sono il TCP/IP
Alla fine degli anni ’60 viene scambiata la prima email con un protocollo suo proprio, inventato da Raymond
Ray Tomlinson.
Internet degli albori nel 1974 estremamente semplice e metteva insieme i principali centri di ricerca degli
Stati Uniti d’America si allarga abbastanza velocemente al resto del mondo, in primis all’Europa.

Web 1, 1.5, 2, 3
Web ha una parabola di implementazione molto veloce.
WWWinvenzione di Tim Berners-Lee, ricercatore britannico che lavora al Cern di Ginevra
1989 scrive un breve report (a Information Management proposal) destinato a uso interno per ottimizzare
la trasmissione delle informazioni all’interno delle reti di scienziati che collaborano su progetti comuni.
All’inizio non molto entusiasmo.
Tim Berners-Lee basa il web su tre standard principali.
 HTMLPrima di tutto, per definire il testo bisogna definire un linguaggio di marcatura uno
semplice che possa essere imparato in poco tempo, e così nasce l’HTML (Hypertext Markup
Language) = un linguaggio di markup che si focalizza su una tipologia in particolare di testo, ovvero
l’ipertesto, che prevede al suo interno dei nodi sensibili (collegamenti). L’ipertesto è un modo
dinamico di fruire determinate cose tramite i testi (es. indiceimplementazione dell’ipertesto;
dunque l’ipertesto non è nato con internet ma esisteva già da tempo).
 URL Poi serve un dispositivo per localizzare facilmente i documenti all’interno di librerie molto
grandi. Berners-Lee inventa un protocollo chiamato URI (Uniform Resource Identifier)protocollo
uniforme e standard per identificare le risorse all’interno di una rete anche molto articolata, una
specie di indirizzo che ogni risorsa ha e con la quale viene identificata e localizzata. URL (Uniform
Resource Locator) non solo identifica la risorsa, ma dice anche dove trovarla (es. il codice fiscale
italiano è un URI, il nostro indirizzo di casa è un URL)
 HTTP Hypertext Transfer Protocol Tutte le volte che usiamo un indirizzo su internet scriviamo
http protocollo per il trasferimento degli ipertesti.
ERGO! Tim Berners-Lee ha inventato un linguaggio con cui scrivo le risorse (HTML), i documenti; un
sistema per cui gli do una casa (URI/URL) e tramite cui le raggiungo; e un protocollo che qualsiasi tipo di
dispositivo può implementare per far viaggiare questi documenti sulla rete.
Web è questo sostanzialmente nel 1989 e non è cambiato oggi.
Berners-Lee ha creato anche il primo browser per lo scambio di informazioni e testi fra i ricercatori e inventa
anche il primo web serverAnche oggi il web server più diffuso che potenzia gran parte del web si chiama
HTTPD.
Attraverso questi due strumenti primo browser/editor (WorldWideWeb.app) che permette di scrivere,
salvare e visualizzare una risorsa remota, e un server (httpd) cioè un programma che a ogni richiesta fornisce
un determinato documento nasce il primo sito internet.
1991 Tim Berners-Lee invitò altre persone a collaborare a questo tipo di progetto, non appartenenti al
CERN così quasi da subito nel 1993 tutto il codice sia per lo sviluppo dell’httpd che del browser viene
rilasciato senza restrizioni, libero per sempre sotto licenza di pubblico dominio.
1994 Tim Berners-Lee lascia il CERN, si trasferite all’MIT fondato grande ente che gestisce creazione
del WWW World Wide Web Consortium (W3C)organizzazione multipartecipata finalizzata allo
sviluppo di standard web aperti e condivisi.
W3C raggruppa enti governativi, grandi attori dell’industria, grandi produttori, grandi attori commerciali,
ecc da sempre in conflitto per dividersi una fetta di mercatoWeb= settore con interessi commerciali.
La W3C ha inizialmente fondato la sua azione su alcuni pilastri su cui si regge sua filosofia:
 Decentralizzazione web è concepito in maniera distribuita, non ha un unico centro che può
decidere cosa viene pubblicato e cosa no. No autorità centrale per postare o pubblicare qualsiasi
cosa, non c’è un unico nodo di controllo. Esistono però tante regie periferiche web è un mondo
dove le leggi dei molti paesi hanno valore e quindi certi comportamenti che sono illegali fuori dal
web lo sono anche dentrocensura dal punto di vista mondiale e a volte anche locale, che in parte
necessarie e dall’altra, tuttavia, limiti importanti di espressione. Tuttavia non essendoci nodo di
controllo centralelibertà dalla censura e dalla sorveglianza indiscriminate.
 Non discriminazione (Net Neutrality)Quando due nodi si parlano e si ha una disparità di qualità
di servizio la comunicazione automaticamente degrada alla qualità più bassa comunicazione
paritaria
 (bottom-up design) progettazione dal basso chiunque ha un’idea geniale ed è capace di
implementarla e documentarla e di condividerla, la può proporre per farla diventare uno standard.
Quindi il codice a tutti i livelli può essere scritto da chiunque. No gruppo di esperti, codice
sviluppato sotto gli occhi di tuttimassima partecipazione e sperimentazione.
 universalità dei protocolli comuniAffinché tutti i computer e i dispositivi si parlino tra loro in
una determinata rete, devono avere sostanzialmente implementati dei minimi protocolli comuni.
Importante per abbattere possibili compartimenti stagni affinché rete continui a rimanere
universale indipendentemente da differenze culturali, politiche, geografiche.
 consenso, un elemento dunque di democrazia Nessun tipo di tecnologia che ha il certificato della
W3C viene imposto standard passano diversi step di valutazione, e quando interessanti per tutti
allora diventano una raccomandazione.

LEZ 7- IL WEB
A 30 anni dalla creazione del Web, Tim Berners-Lee tira le fila su come si è sviluppato il webriflessione
sulle criticità di questa tecnologiauso che se ne fa
I tre punti affrontati sono i seguenti:
 Egli parla del contenuto deliberatamente malevole (es. discorsi basati sull’odio; comportamenti
criminali online)  comportamento scorretto sia di persone che di istituzioni, Web= strumento di
per sé che si presta a tutti gli usi, benevoli che malevoli.
 Altri problemi dinamiche commerciali che si vengono a creare quando l’utente diventa
consumatore. Alcuni attori commerciali hanno creato delle catene di produzione e di sfruttamento
economico che basano parte della loro funzione anche sulla disinformazione, clickbait ecc utenti
trattati come consumatori e non destinatari di una certa informazione. Clickbait si basa su feedback
remunerativi in base ai clickdiffusione virale di disinformazione
 danni non voluti (conseguenze negative di atteggiamenti non intenzionali) utenti trascinati in certe
dinamiche che vanno a produrre sostanzialmente un output non di qualità. Es tono indignato e
polarizzato e la qualità del discorso online.
Questi sono i tre principali problemi: il primo problema non si può sradicare in maniera definitiva
comportamento criminale fa parte dell’uomo; necessario estendere i corpora legislativi e dare importanza a
quello che succede online anche dal punto di vista legislativo.
Anche lo stato italiano ha preso provvedimenti in proposito e cerca di controllare la vita all’interno dei social
network che sono le piattaforme che vengono prese più di mira (pubblicazione più immediata di altri siti).
La legislazione nazionale comincia ad essere applicatamagistratura o polizia può chiedere di togliere
determinati contenuti magari illegali o malevoli.
Bisogna sorvegliare i contenuti pubblicati dagli utenti Facebook è stato multato più volte ed egli stesso ha
cercato di mettere in moto dei sistemi di sorveglianza dei contenuti legati ai contenuti illegali o basati
sull’odiosi sta investendo nella creazione di sistemi automatici di controllo dei contenuti basati su parole
chiave ad es. post bloccati ancora prima di essere pubblicati da determinati algoritmi.

seconda categoria di problemi sull’utilizzo commercialevisione dell’utente come cliente da spremere


possibile soluzione= riprogettare i sistemi che abbiamo in modo che cambino gli incentivi che vengono
forniti. Discorso difficile perché le grandi piattaforme sono in mano a pochi attori che non hanno nessuna
intenzione di fare grandi cambiamenti perché hanno fatto investimenti importanti.
Tuttavia, ci sono tentativi legislativi importanti  es.Google in America dove si sta cercando di dividere il
comparto pubblicità e quello di ricerca perché questo connubio ha creato dei modelli pericolosi per quanto
riguarda gli utenti oggi sensibilità maggiore in questo senso e si alzano sempre più barriere sia nei
monopoli dei trattamenti dei dati personali sia della pubblicità

Terza categoria dei problemi spinge sull’esigenza di lavorare sui sistemi esistenti che devono educare, sia
sulle persone stesse che provvedano ad un’educazione maggiore di questi strumenti onlineimportanza
dell’educazione digitale (come si fa educazione civica) focus torna alla comunità, quindi soluzione è
cercare cambio di prospettivamaggiore consapevolezza.

Ergo! Prima categoriaimpossibile da eliminare completamente, ma leggi possono ridurre questo


comportamento. Seconda categoriariprogettare i sistemi in modo da modificare gli incentivi. Terza
categoria richiede ricerche per comprendere i sistemi esistenti e modellarne di possibili nuovi o modificare
quelli che già abbiamo.
proposta di Lee contratto per il web: si rifà a degli esempi importanti come dei trattati o norme condivise
da tutte le civiltà e nazioni, un po’ come la carta dei diritti degli uomini. Necessario trovare un consenso
generalizzato in questo sensonasce questa iniziativa rivolta a creare una comunità e ad educarla.
Ricerca che continua ancora oggiWeb Foundation sta lavorando con governi, aziende e cittadini per
costruire un nuovo Contratto per il Web.
Il contratto per il web di Lee ha definito tre capitoli:
 1 si riferisce ai governinecessario garantire per esempio il diritto di accesso alla retenon è
scontato ancora oggi perché per molti paesi l’accesso a internet è problematico. Il secondo punto
fondamentale che egli evidenza è quello di garantire la rete sempre accesa, di fare tutto quello che si può
per mantenere il pezzo di infrastruttura che li compete, fare tutti gli investimenti necessari per tenere i
cavi in funzione.Internet deve sempre essere disponibile. Infine, secondo Lee i governi devono cercare di
fare il massimo anche dal punto di vista legislativo per proteggere e rispettare quelli che sono i diritti dei
cittadini online e dei loro dati personali. In Europa esiste il GDPR (regolamento generale per la
protezione dei dati)
 2Da parte delle compagnie, delle aziende che agiscono e implementano il webviene richiesto
sostanzialmente di rendere internet alla portata di tutti, accessibile. Poi le aziende devono rispettare e
proteggere la privacy e i dati personali in maniera da costruire una fiducia dei cittadini nei confronti delle
aziende stesse. Grandi sono i problemi in Europa con le grandi aziende americane es. FacebookEuropa
non permette che i dati privati dei loro cittadini possano essere venduti a dei mercati non europei senza il
consenso degli stessi detentori dei dati e Facebook, che poggia gran parte del suo business sulla vendita
dei dati, ha avuto problemiha minacciato di spegnere Facebook per i cittadini europei.
 3Anche ai cittadini viene chiesto di prendere coscienza del loro ruolo e prima di tutto di continuare a
essere creativi, cioè a proporre i loro contenuti e usare piattaforme. La seconda cosa importante che
devono fare i cittadini è creare comunità forti che proteggano i diritti civili e l’umana dignità. Bisogna
combattere per il web perché è un luogo di libertà.

URL
URI (Uniform Resource Identifier)----URL (Uniform Resource Locator)
Risorsa=informazione/dato/file/immagine/unione di tutti questi che sono tutte risorse nel web.
URL divisibile in pezzi, di alcuni frammenti anche se alcuni di essi sono opzionali
Schema (protocollo) che io uso per accedere ad una risorsa (che può essere protetta dunque c’è un username
e una password da inserire)tipicamente http, ftp oppure https (http secureper le transazioni sicure
nell’ambito del commercio elettronico)
Hostname cioè il nodo della rete dove la risorsa si trova, secondo quanto previsto dal protocollo TCP/IP e
dalle regole di naming del DNS.
Porta indicatore numerico che permette di distinguere fra più porte di comunicazione, strumenti impiegati
per realizzare la cosiddetta multiplazione delle connessioni di un calcolatore in rete, per tenere aperte più
connessioni di rete in contemporanea con altri calcolatori ogni porta costituisce un canale di
comunicazione per i pacchetti destinati a un certo processo.
Pathname definisce un percorso all’interno del fyle sistem del server, che identifica in modo univoco nel
file server un certo file
Queryseparata dal resto dell’URL dal carattere “?”, permette di trasmettere ai programmi per la
generazione di pagine dinamiche informazioni parametriche espresse sotto forma di coppie del tipo
nome=valore separate dal carattere “&”.
Frammento stringa (identificatore) che specifica un preciso punto all’interno della pagina: browser lo
interpreta mostrando la pagina a web a partire dal punto identificato nella stringa.
Principale strumento per l’identificazione univoca dei nodi di reteindirizzo protocolli di rete stabiliscono
che ogni nodo ( o host) sulla Rete abbia un proprio indirizzoattualmente indirizzi IP (Internet
Protocol) codice fatto di 4 blocchi da 1 a 3 numeri ossia versione Ipv4costituisce un identificativo a
32bit che prevede un grande numero di nodi possibile (4.294.967.296)Numero molto grande ma che si è
esaurito molto velocemente poiché sempre più il numero di dispositivi allacciati alla rete.
La nuova versione IPv6 non sono più 4 blocchi da 3 numeri, ma 8 blocchi da 4 cifre esadecimali
codifica a 128bit versione continuamente implementata oggi; attualmente sia IPv4 sia IPv6 sono
disponibili ma quest’ultima è la più utilizzata.
DNS (Domain Name System) questo sistema associa un nome, un dominio a un numero IP.
DNS livello intermedio che ci rende possibile usare il web in maniera più facilitatasupporta solo l’ASCII
di base, quindi c’è una spinta di allargare anche in questo campo e ad utilizzare Unicode (siti possono essere
scritti in ASCII ma non in russo per es) stringe si dividono in parti l’estensione finale si chiama
dominio di primo livello; uniroma1 è di secondo livello, e poi può esserci il terzo livello (www è solo una
convenzione ma non è l’unico) lettura dei domini da destra a sinistra
Domini di primo livello possono essere nazionali o sovranazionali
Il DNS è solitamente a pagamento solitamente si affitta a base annuale per garantire la proprietà di un
certo dominio.
Internet=rete delle reti, non tutti i computer si affacciano sul livello superiore direttamentelivelli intermedi,
rami che si uniscono in rami a loro volta e si affacciano al primo livello di internet es a casa accediamo
attraverso una risorsa online passando almeno attraverso due reti ma anche molte di più; il nostro router di
casa di allaccia alla rete e ha un indiritto IP che gli viene attribuito ogni volta che costruiamo una rete Wi-
fi accendendo il router stiamo creando una piccola rete domestica, privataQuando il router di casa è
collegato con il mondo esterno tutti i dispositivi vi hanno accesso. Quando noi vediamo questo IP è quello
del router non quello dei singoli dispositivi, che sfruttano la connessione del router, per questo ogni
dispositivo a casa ha lo stesso IP. Internet non sa nulla dei miei dispositivi collegati perché conosce
solo il router, il rappresentante di tutti gli altri dispositivi. Questo permetteva di collegare tanti
dispositivi a internet.

HTTP (hypertext transfer protocol) basato su un testo, non c’è nulla di binario ma è puro testo, quindi, è
molto semplice anche per gli umani da intenderedinamica già vista (tra client e server)client richiede la
risorsa e il server la fornisce (ma i ruoli si possono invertire anche o essere client e server allo stesso tempo).
Il client fa una richiesta specifica per una determinata risorsa e lo fa usando un URL, che lancia un indirizzo
che localizza la risorsa server prende questo URL, cerca la risorsa e dà una risposta (404 errore oppure
risponde in HTML fornendo una pagina, un documento o qualsiasi altra risorsa).
Quando arrivano informazioni dal server, il client inizia interpretazione del file e la sua restituzione
nell’interfaccia dell’utentefasi dell’interpretazione e visualizzazione: formattazione,
ipertestualizzazione, restituzione multimediale.
I protocolli internet utilizzati all’interno della rete internet sono molti: BGP, DHCP, DNS, FTP, HTTP,
IMAP, LDAP, POP, SMTP, SSH, TelnetTLS/SSL, ecc.
i linguaggi che vengono usati nel web sono normalmente HTML
e CSS (formattazione grafica) ed eventualmente Javascript
File fisico viene salvato su un computer remoto (un server) lo
si carica usando FTP o altri per trasferire informazioni.
Allora il client, attraverso il suo browser fa una richiesta HTTP
sul server, e se esso trova la risorsa, dopo averla rintracciata,
risponde. Questo web viene chiamato
anche web statico perché le risorse non cambiano, il file salvato
diventa una sorta di biblioteca che non cambia, una volta che c’è un file il contenuto di esso non cambia.
Un autore/editore definisce la struttura delle cartelle, organizza le informazioni e mette i file all’interno di
queste divisioni come biblioteca.

Web staticolimitazione e problemi, perché puoi servire delle risorse solo preconfezionate variazioni non
sono possibili, cambiamenti nel layout delle pagine molto onerosi.
Inoltre non puoi offrire ai client consultazione personalizzata es no pubblicità di Google personalizzata.
Non possono esserci contenuti personalizzati in base alle nostre ricerche limiti del web statico
problematici per le industrie.
In un vecchio web con biblioteche sparse in giro per il mondo, serve un servizio centralizzato che fa da
indice (ISBN ad esempio per le biblioteche) motori di ricerca fanno questo: visitano in maniera
indiscriminata tutto il web visibile e lo indicizzano.
Principali motori di ricerca: Google, Yahoo!, Bing, DuckDuckGo, ecc.
Prima dei motori di ricerca negli anni ’90 directories, indici fatti da umani (es Yahoo!) che indicizzavano
tutti i siti. Google fa questo tramite robot e un algoritmo che categorizza i siti web.
Le ricerche sono rese possibili dallo sfondamento del web statico e dalla nascita del web dinamico
sempre HTTP e HTML l’unica differenza sostanziale è chi compone le pagine web che noi leggiamo
Web staticopersona che scrive materialmente tutti i contenuti e li salvaweb dinamicocontenuti
vengono composti al volo ogni volta che c’è una richiesta (software che in base a dei dati salvati su un
database li compone al volo in delle pagine di senso compiuto) pagina non esiste salvata da qualche parte
ma viene composta al momento della mia richiesta giornalisticamente indicato con l’etichetta web ‘1.5’.
Web 1 ci permette di visualizzare sul browser un file salvato nel server  Web 1.5 confezionamento.
più professionalità tanti professionisti che intervengono ciascuno per la propria competenza sui contenuti
elevata qualità sia grafica che contenutistica software utilizzati per creare componenti sono di alto
livello PHP, ma anche Python, Ruby, Perl, Java, C++, NodeJs, ASP, ecc Questi software= CMS
(Content Management Systems) software veri e propri anche molto complessi installati su un server
remoto da cui accediamo con un browser e sono programmati per generare in maniera dinamica HTML.
Questi strumenti permettono gestione di siti anche molto grandi anche da parte di persone che non
conoscono l’HTML o linguaggi di programmazione di solito CMS gestisce i contenuti, sotto forma di
articoli (titolo, corpo di testo, immagine/i di riferimento, una tassonomia, metadati, versione in altre lingue
ecc.); inoltre gestisce i menu, la navigazione, il sistema di template, gli stili, la logica, ecc.
CMS più diffusi:WordPress, Joomla!, Drupal, MediaWiki, Magento, Blogger, Shopify, Squarespace
permettono a chiunque di pubblicare contenuti senza conoscere le codifiche; tuttavia problemi di
manutenzione (vanno costantemente aggiornati) inoltre grossi problemi di sicurezza.

LEZ 8- WEB E CMS


Esistono CMS specializzati un po’ per qualsiasi finalità es. OKP/OJS (gestione dei contenuti digitali per
l’editoria)
schema che sta dietro un CMS: noi abbiamo i contenuti (testi,
immagini, ma anche video ecc), che vediamo online, che vengono
gestiti in maniera centralizzata attraverso un database cuore
pulsante del CMS è una banca dati, dove vengono salvati tutti i
contenuti software prevede una logica di organizzazione delle
informazioni prefissata che spiega come verranno anche
presentati questi contenuti poi tema grafico (template). Tutto ciò conforme all’HTML
Insieme complesso di azioni che succedono ogni volta che apriamo una pagina web Il front-end: ciò che
appare agli utenti, dunque risorsa e suo layout grafico; il back-end: parte amministrativa che vede chi
gestisce la piattaforma (non gli utenti).
Siti cominciano ad essere organismi complessinecessitano di mestieri più o meno nuovi: es. mestieri legati
al web che lavorano nell’editoria: Webmaster, Web designer, Web developer, SEO specialist, Content
manager, Web marketer, Web Architect, Grafico, Mobile developer, Copywriter, Community e reputation
manager, Web security expert e Database administrator.

Tra siti statici e dinamici si stanno diffondendo degli strumenti misti, ovvero i cosiddetti Static Site
Generators (SSG).
Dal punto di vista tecnico, il sito statico è la cosa più sicura e veloce del mondofile arriva subito non deve
essere convenzionato e non può essere modificato di conseguenza non possono essere rubati i dati.
Tuttavia, esperienza dell’utente risulta limitata rispetto a un sito dinamico nasce questa via di mezzo dei
software che sanno gestire dei contenuti quasi come un sito dinamico, ma che creano al volo ad ogni nostra
modifica una copia statica.
siti statici tutte le pagine di un sito vengono create a monte e salvate come file HTML statico; anni ‘90
perché solo file statici, ma c’è grande velocità e la possibilità dei file di essere bucati è pari a zero.
SSG permettono di prendere il meglio dei siti dinamici gestire i contenuti in maniera facilitata: non devo
scrivere tutto in HTML, ho a che fare con un database, posso cambiare in ogni momento gli elementi, ecc.
Ergo! strumento che quando faccio qualcosa salva e mi va a produrre in automatico tutte le possibili pagine
HTML del mio sito e le salva.
vantaggi degli SSG performance, garantiscono meno problemi di sicurezza, permettono l’aggiornamento
delle risorse. Gli svantaggiparte grafica relativa ai template è spesso poco articolata.
Molto spesso le grandi aziende per pubblicare loro risorse scrivono un CMS proprio. Es. Jekyll.

Web 2.0non si riferisce all’introduzione di qualche tecnologia particolare, no evoluzione vera e propria,
ma si riferisce al nostro utilizzo dello strumento Web che permette a qualsiasi utente una facilitata
possibilità di creare contenuti.
L’elemento più importate del Web 2.0 forte interazione nella creazione dei contenuti da parte degli utenti.
Es. social network, non ci vuole preparazione per pubblicare un contenuto-->Il Web 2.0 nasce sotto forma
dei commenti non più blog post
I social network sono commenti che ricevono a loro volta degli altri commenti, non c’è più il pezzo
monolitico di contenuto curato da un’idea editoriale che viene curata in maniera centralizzata.
Social network in senso lato CMS, delle piattaforme che ci permettono di creare e condividere in maniera
istantanea questo tipo di contenuti.
modo in cui noi fruiamo del web cambia radicalmente poiché cambia l’idea che abbiamo del contenuto.

Web 3.0 sviluppo del Web 2.0.


Nel 2006 Tim Berners-Lee individua in alcuni elementi quelli che potrebbero essere gli sviluppi futuri
più importanti del Web 3.0.
 Prima di tutto rivoluzione della grafica, basata sull’adozione in massa di sistemi vettoriali come
SVG perché più duttili rispetto alla grafica raster. Dal punto di vista grafico il Web continua ad
essere una piattaforma piatta, perciò si potrà investire potenzialmente sull’utilizzo del 3d. Il design
tridimensionale viene ampiamente utilizzato nei siti Web e nei servizi nel Web 3.0: es. guide dei
musei, giochi per computer, e-commerce, contesti geospaziali.
 Lee prevede lo sviluppo di quello che viene chiamato Semantic Web, progetto vecchio come data
ma che non è mai andato in portoWeb che raggiunge il significato. Il web semantico migliora le
tecnologie web per generare, condividere e collegare contenuti attraverso ricerche e analisi basate
sulla capacità di comprendere il significato delle parole, piuttosto che su parole chiave o numeri.
 Di grande importanza è l’arrivo dell’intelligenza artificiale sul Web. Combinando questa capacità
con l'elaborazione del linguaggio naturaleWeb 3.0 computer possono comprendere le informazioni
come gli esseri umani per risultati più rapidi e pertinenti.
 di estrema importanza la connettività delle informazioniIl Web nasce sul concetto dell’ipertesto,
cioè del testo connesso, (blocco che contiene all’interno dei nodi) connettività è però potenziabile
e su questo ci si sta lavorandoattualmente i collegamenti tra le pagine sono abbastanza piatti.
Possibilità di avere un’interconnessione. Con il Web 3.0 l'informazione è più connessa grazie ai
metadati semanticiconnettività che sfrutta tutte le informazioni disponibili.
 Infine l’ultimo concetto ubiquità. Il web dovrà svilupparsi per adeguarsi ad altri dispositivi, più o
meno intelligenti, non solo computer, ma anche ad altri strumenti; il web dovrà svilupparsi per
racchiudere e comprendere risorse anche molto diverse tra loro I contenuti sono accessibili da più
applicazioni, ogni dispositivo è connesso al web, i servizi possono essere utilizzati ovunque.
L’idea del Web 3.0 è ancora molto vaga ma secondo Lee dovrebbe contenere questi elementi.

Google è uno dei più grandi attori del trattamento dei dati  raccolgono dati e vendono pubblicità, è il loro
business principaledatabase search, che va a cercare informazioni non più in documenti che parlano di un
determinato argomento, ma in banche date che contengono informazioni strutturate su quel tipo di fenomeno.
Google datasetmotore di ricerca specializzato sulla ricerca su dati strutturati su qualsiasi argomento, di
fonti pubbliche che contengono dati aperti.
business sui dati oggi è un argomento molto importantesempre più rilevante l’esigenza di distribuire in
maniera aperta dati pubblici perché sono informazioni che ci appartengono e utili a molti livelli.
Idea di usare dati grezzi in formati leggibili da tuttiargomento sensibile anche da punto di vista legislativo.
Es. Data.gov, iniziativa promossa da Barack Obama: portale di dati per gli Stati Uniti dove sono pubblicati in
tempo reale le informazioni che il governo degli Stati Uniti contiene sull’America, su sè stesso dunque.
L’Italia ha anche un portale dove pubblica i dati relativi all’amministrazione pubblica; prima dati riservati,
ora tutti liberi per default.
cambio importante di paradigma: la disponibilità di dati grezzi ci dà una libertà in più per fare vari tipi di
ricerchepunto rivoluzionario: cambiare la prospettiva, di non pensare più al web come una piattaforma di
comunicazione e di collegamento di informazione come prima ma in maniera più intelligente e profonda,
andare oltre a quello che è il web piatto con documenti formattati importante che possono essere
pubblicati non solo documenti finiti ma anche dati grezzi.
LEZ 9- WEB SEMANTICO & LINKED OPEN DATA

Il Web semantico è detto anche Web dei dati; si tratta di un’ipotesi avanzata da Berners-Lee si possono
fruire non solo documenti impaginati finiti, ma anche dati grezzi. Web semantico riguarda il significato.
Nella descrizione generica sul sito di W3C, troviamo Web semantico fornisce una struttura comune che
consente la condivisione e il riutilizzo dei dati oltre i confini di applicazioni, aziende e comunità sforzo
collaborativo guidato dal W3C con la partecipazione di un gran numero di ricercatori e partner industriali.
Si basa sul Resource Description Framework (RDF).
Il web semantico fornisce una cornice, una struttura che permette ai dati di essere condivisi e diffusi
attraverso la rete e vari tipi di applicazione.
Quando si parla di raggiungere il significato delle cosecome farlo attraverso le macchinebisogna avere
a disposizione dei computer che si affacciano alla rete, che abbiano la possibilità di capire di cosa si tratta,
cosa c’è scritto nel significato creare documenti affinché una macchina, un computer o un algoritmo,
accedano al significato della risorsa
Ergo! Significato realizzato dal punto di vista della macchina, non dell’umano.
Per Berners-Lee, Web semantico si basa sull’ipertesto possibilità di saltare da un documento all’altro
utilizzando dei nodi (link), ma dal punto di vista di un computer questo tipo di paradigma è piatto no
significato.
Sempre Berners-Lee questo è un peccato perché i documenti che pubblichiamo sul web descrivono oggetti
reali, rappresentazione di fatti o oggetti del mondo reale che noi sappiamo bene sono interconnessi.
Ultimamente abbiamo assistito a cambio di paradigma sul dato e sull’informazione che non sta più
nell’oggetto in sé ma nelle relazioni che crea con gli altri questo non succedeva e l’oggetto doveva
spiegarsi da solo.
Proposta: guadagnare dimensione: sostanzialmente Lee riprende l’idea dei link, i collegamenti fra due
oggetti ma lo cambiapossibilità di dare significato alle connessioni=rivoluzionario.
Quindi sostanzialmente web tridimensionale dovrebbe poter permettere alle macchine di intendere di più i
documenti e le risorse che contiene riesca a stabilire in maniera automatizzata collegamenti con altri
documenti/risorse esterne, come succede nel mondo reale (difficile trovare oggetto avulso dalle connessioni
esterne)Semantic Web si occupa esattamente di questo.
Una volta che si ha un contesto allora dice Lee, il Web può fare cose reali.
Nell’idea del Web semantico intelligenza artificiale non c’entra si tratta di algoritmo, di programma che ha
accesso a una quantità di dati strutturati in maniera molto più intelligente cambia solo la fonte dei dati che
ho a disposizione necessarie delle strutture (dati devono essere disponibili sotto formati processabili che
una macchina possa capire).
Principio del Web semantico permette di arrivare in un contesto molto più utile con quello che possiamo fare
con le macchine ma tramite la via tradizionale (programmazione standard) solo cambiano i dati alla base
di tutto.
Oggi Web semantico solo piccoli casi, limitati non stessa esplosione del Web mondiale perché richiede
competenze in più.
comparazione tra Web dei documenti e Web semantico non è solo necessario che i documenti siano
online per trovarli, i dati devono essere sì raggiungibili ma soprattutto interconnessi tra di loro, inoltre,
significato di questi dati deve essere chiaro e facilmente ricercabile ergo! non solo il contenuto di un
determinato testo ma anche il significato di questo documento.
Dal punto di vista dell’infrastruttura l’idea dell’implementazione del Web semantico non è diversa
dall’idea del WebWeb semantico usa stesso tipo di tecnologie tecnologie importanti come HTML ecc.
ci sono nel Web semantico mood diverso di approcciare il nostro lavoro.
Ergo! L'aggiunta di semantica al Web implica due cose: 1. consentire ai documenti che contengono
informazioni in forme leggibili dalla macchina e consentire creazione di collegamenti con valori di relazione.
Possibilità di sfruttare le informazioni in misura maggiore rispetto alla nostra stessa lettura le macchine,
oltre a operare sulle informazioni web, possono fare cose reali es. programma potrebbe cercare una casa e
negoziare il trasferimento della proprietà della casa a un nuovo proprietario.
Quando noi parliamo di significato dei documenti che sia facilmente comprensibile e intellegibile da
macchine e software in maniera automatica, cosa intendiamo? Quando uso una parola essa significa quello
che io voglio farle significare ma alle parole si possono dare tanti significati diversi decide significato
chi parla significato non è sempre uguale
il cambiamento: non si può riformare il modo in cui gli umani usano il linguaggio; se vogliamo avere delle
macchine che capiscono il nostro linguaggio e i documenti non possiamo chiedere agli umani di pensare
come le macchine Web semantico dice che documenti non devono cambiare, gli umani devono continuare
a mettere sul Web ciò che vogliono e come vogliono, con significati ambigui e vari livelli di informazione,
con formati che preferiamo e con i linguaggi che ci sono più comodi.
Se vogliamo che computer capisca il significato del documento bisogna lavorare con i metadati
(descrizioni di questi dati) es libro, metadati dono informazioni che lo descrivono (autore, titolo, info
editoriali, ISBN ecc…) altri metadati potrebbero essere la collocazione del libro in una biblioteca o parole
chiave caratteristica comune dei metadati è quella di fornire delle descrizioni, ergo anche concetto molto
generico che fornisce descrizione, da quella fisica a quelle più contenutistiche.
Nel Web semantico il metadato è fondamentale strumento che utilizziamo per dire qualcosa alla macchina
sul significato della risorsaper l’interconnessione i metadati devono essere strutturati utilizzando formati
standard quindi devono essere scritti con un linguaggio che la macchina può intendere.
Ergo! massima libertà sull’implementazione delle risorse, ma massima rigidità sull’implementazione dei
Metadati criteri di catalogazione rigida delle risorse.
I metadati all’interno del web possono essere di vario tipo un metadato che semplicemente ci dice che tipo
di risorsa è, che serve al browser per visualizzarla, poi descrizioni generiche sottoforma di testo in qualsiasi
lingua, dunque parole chiave, informazioni su un linguaggio o su che dispositivo sto usando, come adeguare
il contenuto nello schermo (il cellulare usa certi sistemi di output, il computer altri)metadati hanno una
molteplicità di funzioni: i più specifici sono per altri tipi di sistemi es. Wordpress ha metadati che vengono
utilizzati per le risorse editoriali (set di metadati che prevede delle parole chiave per catalogare prodotti
editoriali, dunque articoli, libri, fotografie ecc.) sistema prevede un vocabolario.
Anche Facebook ha un suo standard per metadatare le risorse, anche se molto più semplice  più ad alto
livello di astrazione sistema di Facebook di catalogare si chiama OpenGraft (OG)
vari pezzi dell’industria sviluppano sistemi propri per la descrizione di questi metadatidifficile avere un
sistema unitario anche se esistono dei tentativi.
Uno di questi è il DCvari esponenti a livello internazionale per trovare un sistema unitario per descrivere
tutti i tipi di risorse DC tuttora esiste, che ha definito dei vocabolari che vari produttori di risorse,
soprattutto editoriali, possono utilizzare per descrivere metadati sulle risorse che loro mantengono e
pubblicano.
Questa iniziativa nasce prima di Internet, prima c’era la necessità di avere sistemi unitari dei metadati, e poi
nel mondo del digitale medatati esistevano prima di Internet e sono utilissimi anche per usi diversi;
individuati come strumento principale per implementare Web semantico.
Web semantico ha bisogno di uno schema più rigido gli strumenti per realizzare lo strumentario del Web
semantico quali sono?
1. URI, l’identificatore univoco di risorse che poi diventa URL. Per avere delle banche dati distribuiti che
contano il significato degli oggetti devo dare loro prima di tutto un nome con URI. Necessità di dare un
nome a ciascuna cosa e solo se riesco a identificarla posso trovarla.
2. RDF modello di dati condiviso.
3. SPARQL linguaggio formale di interrogazione delle banche dati che permette l’accesso uniforme ai
dati. Oltre ad essere un linguaggio di interrogazione è anche un protocollo per accedere a dataset RDF
4. Ontologielinguaggi di descrizione unitari, uniformi; pensiamo alle ontologie in maniera semplificata
come un vocabolario: esse forniscono una specie di vocabolario chiuso per descrivere un certo tipo di
risorsa. Possono avere anche regole logiche di inferenza, es se A=B; B=CA=C. Ergo! ontologie come
vocabolari di metadati per descrivere le nostre risorse.

RDF (Resource Description Framework) modello basato su asserzioni (statements) semplici sulle risorse
(web) aventi la forma di soggetto-predicato-oggetto. Il soggetto denota la risorsa, il predicato denota
caratteristiche o aspetti della stessa e stabilisce una relazione tra soggetto e oggetto asserzioni sono dette
triple RDF.
RDFmodello di descrivere la conoscenza attraverso delle asserzioni semplicissime e tripartitele frasi nel
Web semantico sono semplici e rispettano sempre questa struttura.
Un’informazione minima può essere espressa anche sotto forma di grafo si può separare la frase nelle tre
parti (autore dunque soggetto, predicato cioè che dice cosa fa il soggetto, e l’oggetto) ciascun elemento
può essere identifica con un URI e nell’accezione RDF, un URI può identificare risorse tangibili o intangibili
(persone, cose, concetti)
Grafoimprestato dalla teoria matematica: rappresentazione attraverso degli elementi grafici fatti di nodi,
dove ci sono delle relazioni definiti archi, orientati con una direzione ben precisa, o non orientati cioè la
relazione può andare in una parte o dall’altra in maniera indifferente.
Quest’informazione la posso descrivere nel mondo dell’RDF teoria dei grafirappresentazione per
oggetti grafici (cerchi e rettangoli; cerchio= soggetto e i rettangoli=predicati)
Altri codici possono avere dei nodi in comune, ad esempio la stessa opera ma di un’edizione diversa.
Grafo della conoscenza esprime attraverso un grafico un determinato ambito della conoscenza ergo! non
solo per cose concrete, ma anche per le ideeWeb semantico utilizza questo modello di dati per raccontare
cose su oggetti della vitasemplificazione che ha il favore di essere facilmente intellegibile dai computer.
L’RDF può essere esplicitato utilizzando varie sintassi, es. l’XML.

Ontologie altro strumento per l’organizzazione della conoscenza; versione più semplice come definizione
di un vocabolario, un modo formale di organizzare una determinata conoscenza in maniera più ampia.
Definizione: rappresentazione formale ed esplicita dio una concettualizzazione condivisa di un dominio di
interesse rappresentazione è formale, utilizza perciò un linguaggio logico processabile da elaboratori; è
esplicita cioè non ambigua e tale da chiarire ogni assunzione fatta; è una concettualizzazione cioè una vista
astratta e semplificata del dominio di interesse; è condivisa cioè determinata dal consenso di una pluralità.
Vari tipi di ontologie diverse e tanti tipi di livelli
1. SKOS graph (‘Simple knowledge Organitation Sistem’)grafo che racconta di un concetto
generico, es. gattoquesto concetto può avere un’etichetta che può essere descritta come
un’etichetta testuale ‘cat’ (etichetta che vale all’interno del dominio dell’inglese) /‘domestic cat’,
sinonimi in inglese vengono legati attraverso un concetto di appoggio; partecipa al concetto più
generico di animale (etichetta ‘animals’) sto descrivendo il concetto generico del gatto. Relazione
che posso esprimere nella stessa maniera in tutte le lingue.
Da questo tipo di grafico, dunque, capiamo:1. posso crearmi delle entità astratte che non implemento per
forza; 2. all’interno di un grafo della conoscenza io posso mischiare tante ontologie diverse.
2. DCMES (Dublin core metadata initiative) e 3. FOAF (Friend of a Friend).
Ontologie servono per esplicitare rapporti interpersonali, o tra persone, enti, organizzazioni ecc e dunque
tutte le relazioni che possono intraprendere tra loroontologia= minimo vocabolario per descrivere tutte le
relazioni che possono esserci tra persone e aziende, agent e persontramite etichette come ‘image’,
‘description’, ecc.
ambiti in cui possono essere usate le ontologie: per rendere le tue cose disponibili sul Web (qualunque
formato) con una licenza aperta; per renderle disponibili come dati strutturati (ad es. Excel invece della
scansione dell'immagine di una tabella); per renderle disponibili in un formato aperto non proprietario (ad es.
CSV invece di Excel); inoltre si possono usare gli URI per denotare le cose, in modo che le persone possano
indicare le tue cose; infine con le ontologie si possono collegare i tuoi dati ad altri dati per fornire contesto.
Ontologie possono essere di alto livello con descrizioni molto generiche, ma anche molto dettagliate.
Inferenza delle informazioni: da una base della conoscenza, e date delle regole che io do per valide, io posso
desumere nuove conoscenze.
ontologie vengono implementate con specifici software persone che hanno una buona conoscenza
informatica limite che ha impedito la diffusione e implementazione del Web semantico certo dominio di
conoscenza, ma soprattutto degli strumenti informaticiDunque, nonostante questo strumento ha una
potenzialità davvero grande difficile usarlo e implementarlo, ha delle applicazioni di settore molto
interessanti ma è difficile che abbia lo stesso sviluppo del Web.
LEZ 10- WEB SEMANTICO-ESEMPI
Particolarmente rilevante progetto intitolato ‘5-star open data’ sistema escogitato per categorizzare i
dati aperti e collegati tra loro (linked data) fino a 5 stelle per certificare di che tipo di apertura e di
collegamento stiamo parlando.
1  data a qualsiasi tipo di dataset di informazioni che si trova sul Web accessibile e pubblicata con una
licenza aperta, formato non particolarmente importante licenza aperta è un contratto di uso dei dati che
permette a terzi di prendere informazione, usarla e riusarlavari gradi della possibilità di riutilizzo, certa
risorsa può essere semplicemente ripubblicata o per lucrarci su.
prima stella semplice da ottenere e possibilità di dare una licenza aperta toglie la rogna di ogni volta
chiarire cosa si può fare e cosa no con certi dati in maniera legale o meno.
In generale non basta mettere un dato su internet perché sia dato per apertofondamentale specificare sotto
quali termini i terzi possono interagire con questa risorsa.
vantaggi per colui che pubblica questi dati: molto semplice pubblicare.
2  si dati che noi pubblichiamo sono offerti come dati strutturati es. Excel invece è un dato
strutturato (dati tabellari) dato strutturato meglio di un dato che non lo è più facile l’accesso, la modifica
e la condivisione.
Quando acquisizioni raster, il testo contenuto in elenchi e tabelle non è riconosciuto dalla macchina come
testo e quindi, non ricercabile punto di vista del consumatore: Excel meglio per l’utente che non deve
ricopiare magari la stessa tabella da una foto inoltre dati possono essere esportati in qualsiasi altro formato
Punto di vista dell’editore: seconda stella è un sistema semplice
3  più complicato bisogna utilizzare nella pubblicazione dei dati formati aperti rispetto ai formati
proprietari (es. CSV al posto di Excel)aspetto importante per la vita del dato digitale
Quando trattiamo dei dati digitali abbiamo bisogno di un software in mezzo per visualizzarlo
Se archivio vecchio di tot anni possiamo avere difficoltà ad accedere ai dati Serve, dunque, una
consapevolezza in più sui formati con cui archiviare o pubblicare dati.
Excel è un formato proprietario sviluppato dalla Microsoft; fino a poco tempo fa era esclusivo; quindi, chi
usava Excel doveva pagare dei diritti d’autore alla Microsoft per poter pubblicare con quel programma e
quel formatoformati proprietari ad un certo punto richiedono una forma di denaro o simili in sottoforma di
royalties ad un’aziendaimportante se si pensa a file che si vuole utilizzare a lungo termine alcuni
formati non potremo poi accedervi fra tot anni.
Fino alla terza stella buone pratiche per garantire l’accessibilità ai dati anche a lungo termine
fondamentale per chi pubblica dati online.
4  per dare la possibilità di creare collegamenti allora bisogna che implementiamo i nostri dataset con
degli URI (identificatori univoci) che permettano di avere degli indirizzi possibilità di citare determinati
oggetti/informazioni, e quando si è definito l’identificatore per ogni elemento del dataset possiamo collegarli
tra loro, e utilizzare i dati in maniera parziale estraendoli e tenendoli da parte. URI alle tue risorsecitabilità
da fuori da parte delle persone. Utilizzo dello standard RDF per rappresentare conoscenza su un dominio
ottimizzazione dell’accesso.
Vantaggi per il consumatore puoi collegarti a questi dati da qualsiasi posto, puoi riutilizzare parti dei dati e
segnarli come segnalibri, e infine puoi collegare i dati ad altri in maniera sicura.
5  dati collegati a qualcosa che sta fuori il tuo dataset i nostri URI non solo descrivono i dati ma
danno anche delle corrispondenze. La quinta stella è quando i nostri daticollegamenti che vanno verso
fuori, verso altri database che contribuiscono in maniera attiva a creare un grafo condiviso.
Vantaggio del consumatore poter scoprire altri dati mentre se ne consultano
Come editorecon questo sistema rendi i tuoi dati rilevabili e incrementi il loro valore; tuttavia necessario
investire in risorse per collegare i tuoi dati ad altri dati sul Web e potresti dover riparare collegamenti
interrotti o errori.
Pretendere che le persone normali pubblichino linked data a 5 stelle utopiagrande investimento sia di
competenze che nell’organizzazione dello sforzo dei datidifficile che il web semantico in questa funzione
si diffonda come è successo per il Web.
Uno dei prodotti che utilizziamo giornalmente che fa utilizzo massiccio di tecnologie semantiche
Knowledge Graph di Google.
knowledge graphmodo di rappresentare la conoscenza attraverso la teoria dei grafi, nodi e archi orientati
che sono etichettati con un significato.
Grafo di Google utilizzato per fornire risultati di ricerca una ricerca e vari risultati pertinenti e sono tutti
concetti diversi tra lorolegittimo che Google ci dia tutte queste informazioni. MA! Problema:la gente cerca
cose precise, dunque è fondamentale che esca dalla ricerca il concetto preciso e non la stringa di possibili
significati knowledge graph= tentativo di organizzare la conoscenza non con database testualiGoogle
vuole andare oltre le stringhe catalogare non attraverso le stringhe ma attraverso le cose, i concetti, le
persone o i luoghi, le cose concrete di cui Google ha delle informazioni.
Knowledge Graph ti consente di cercare cose, persone o luoghi che Google conosce e ottenere
immediatamente informazioni rilevanti per la tua domanda.
primo passo fondamentale per costruzione della prossima generazione di ricerca attinge all'intelligenza
collettiva del web e comprende il mondo un po' più come fanno le persone.
Knowledge Graph attualmente contiene più di 500 milioni di oggetti, oltre a oltre 3,5 miliardi di fatti e
relazioni tra questi diversi oggetti ottimizzato in base a ciò che le persone cercano e a ciò che scopriamo
sul Web sorgente di dati che ha attinto all’inizio almeno da alcune iniziative comunitarie come Wikipedia.
Cambio di paradigma: utilizzare da parte di Google non più un database che cerchi il testo ma uno che cerchi
le cose (organizzare le banche dati non in base ai siti contenenti un determinato testo ma risorse collegate a
determinati concetti) Una delle prime materializzazioni di questo tipo di approccio è la barra sulla destra
delle informazioni che Google, che propone una scheda riassuntiva organizzata in maniera coerente che dà in
poche parole e immagini una panoramica del concetto che abbiamo cercatoinformazioni strutturate molto
pertinenti riquadro delle ricerca di Google è un’analisi non puramente di dati ma un’analisi sui concetti.
Prima di Google Freebasebanca di dati strutturati su tecnologie semantiche creata in maniera
collaborativauna specie di Wikipedia per dati strutturati.
2010 Freebase acquistata da Google;
2014 il sito viene spento poiché non serviva piùmolte protesteGoogle ha finanziato un processo per
prendere tutti i dati di questo sito e utilizzarli per altro progetto molto più grande Wikidata.
Wikidata database secondario gratuito, collaborativo, multilingue dati strutturati di supporto a
Wikipedia, Wikimedia Commons, gli altri wiki del movimento WikimediaEs. Quasi tutte le immagini che
usiamo su Wikipedia linkate anche all’interno di Wikidata database secondario che dà anche le fonti
delle informazioni.
Wikipedia giustifica tutto quello che dice perché riporta le sorgenti delle informazioni; Wikidata fa lo stesso.
Dal punto di vista dell’interfaccia si assomiglianousano lo stesso CMS per pubblicare i dati.
La filosofia di base servizio deve essere libero, aperto e gratuito: tutte le informazioni contenute in
Wikidata devono essere rilasciate sotto Creative Commons Public Domain Dedication 1.0 (licenza che
permette il riutilizzo dei dati in qualsiasi modo).
Caratteristiche di Wikidata:
 Gratuito è possibile il riutilizzo dei dati in molti scenari diversi. Puoi copiare, modificare,
distribuire ed eseguire i dati, anche per fini commerciali, senza chiedere il permesso.
 Collaborativo dati inseriti e gestiti dagli editori di Wikidata, che decidono le regole di creazione e
gestione dei contenuti. Anche i bot automatizzati inseriscono dati in Wikidata.
 Multilingue
 database secondario Wikidata registra non solo le dichiarazioni, ma anche loro fonti e le
connessioni ad altri database.
 raccolta di dati strutturati.
 supporto per i wiki di WikimediaWikidata assiste Wikipedia con caselle informative e
collegamenti ad altre lingue più facilmente gestibili.
 Chiunque può utilizzare Wikidata
La norma editoriale di Wikipedia è quella di avere degli oggetti (item) che sono definiti da un Q, un numero
progressivo Wikidata intende con questo simbolo un concetto. Poi ci sono delle proprietà (i verbi) che
possono essere utilizzati all’interno di questa ontologia prefisso P.
Esiste quindi un vocabolario delle varie proprietà che noi possiamo usare e infine c’è il valore, che può
essere un'altra Q, un altro item o una stringa.
Il repository Wikidata costituito principalmente da elementi, ognuno con un'etichetta, una descrizione e un
numero qualsiasi di alias. Gli articoli sono identificati in modo univoco da una Q seguita da un numero es.
Douglas Adams (Q42) dichiarazioni descrivono le caratteristiche dettagliate di un articolo e sono costituite
da una proprietà e da un valore. Le proprietà in Wikidata hanno una P seguita da un numero, come con
educated at (P69) nel linguaggio di Wikipedia quest’informazione viene codificata con dei numeri e delle
lettere e cliccando su di essi posso accedere a tutte le risorse collegate a questi concettiWikidata utilizza
come linguaggio strutturato SPARQL.
Molti sono i progetti basati su Wikidata da parte di terziapplicazioni che utilizzano il database semantico
di Wikidata es progetto che può essere usato per studiare storiaHistropedia, che ci permette di creare linee
del tempo per esplorare dei fenomeni storici particolari
Openart browser possibilità di esplorare l’arte che è contenuta in Wikidata in connessione con le
immagini contenute su WikiCommons secondo vari elementi di ricerca, come ad esempio gli artisti, ma
anche correnti, tipologie monumentali, musei, materiali, ecc.
Reasontatorpermette la composizione automatica e in tempo reale di una pagina Wikipedia scrive le
pagine attraverso un software in base ad una ricerca che noi facciamo va a pescare su Wikidata delle
informazioni e le impagina come fa Wikipedia.
A livello europeoprogetto Europeanautilizza tecnologie semantiche e promuove la digitalizzazione dei
beni culturali in senso lato e l’accessibilità deve essere garantita a tutti i cittadini europeimettere in
evidenza il patrimonio culturale e scientifico, per ispirare la creazione di nuovi contenuti e incoraggiare
l'emergere di nuovi servizi online democratizzare l'accesso e sviluppare la società dell'informazione e
l'economia basata sulla conoscenza
4 concetti fondamentali di Europeana:
 Aggregazione non database centralizzato ma un’iniziativa aggregataraccoglie dei dati che
ciascuno degli stati membri possiede e mantiene per conto suo fornisce motore di ricerca unificato
pescando in tutte le banche dati dei vari stati.
 Facilitaresostenere il settore del patrimonio culturale e scientifico
 Distribuire rendere il patrimonio disponibile agli utenti ovunque si trovino.
 Coinvolgimento utenti possono partecipare al loro patrimonio culturale e scientifico.
In realtà ci sono tantissimi altri database semantici es. Nomisma.org per le risorse numismatiche.
Kerameikos.orgdatabase relativo alla ceramica dipinta antica, soprattutto attica ma non solo che raccoglie
informazioni su temi religiosi, iconografici, sulle forme vascolari ecc. ricercatori che pescano i dati dai
grandi musei internazionali che mettono a disposizione pubblicando le proprie informazioni sotto forma di
linked data. Linked datausati moltissimo per implementare e creare questo tipo di progetti collaborativi.
Pleaidesdatabase dei luoghi antichi del Mediterraneo che mette dunque al centro la toponomastica. Nato
per il Mediterraneo, esso si sta allargando al centro Asia.
Problema di database centralizzati (come Pelagios) che affligge un po’ la ricerca scientifica fatta con
strumenti online: finché agisce un’industria con un interesse economico, le risorse sono disponibili, ma
quando intervengono anche in progetti ben strutturati ma con un’area ristrettagrossi rischi di perdere le
risorse. Pensare alla conservazione a lungo termine delle risorse è un punto molto importante e problematico.

LEZ 11- BANCHE DATI E SQL


DatabaseNell’accezione generica una banca dati o database= insieme di dati, solitamente strutturati,
gestito attraverso sistemi di software di norma struttura precisa e gestiti attraverso un software.
Insieme di dati solitamente in formato digitale con una determinata struttura altro termine sovrapposto a
quello di database è DBMS (Date Base Managing System)software che l’utente usa per la gestione del
DatabaseMolto spesso i due termini vengono sovrapposti; inoltre, database oggi per estensione può
indicare sia i dati, che i software che le applicazioni relative.
I dati normalmente organizzati secondo un modello: al di là della struttura, noi pensiamo e gestiamo i dati,
scelta del software più adatto per loro gestione anche in base al modello logico che i nostri dati hanno, e a
seconda di quello che andiamo a fare sceglieremo un modello di banca dati e un software diverso.
Modelli principali di implementazione della strutturazione dei dati; in base al modello sceltostruttura
logica della banca dati e quindi i dati contenuti:
 Modello gerarchico
 Modello a rete / Network
 Modello relazionale
 Modello documented-oriented
 Modello triplestore
Modello gerarchico strutturazione gerarchica degli oggetti che noi andiamo a catalogare o a descrivere,
per cui sono possibili relazioni che partono da un nodo o radice e da cui ne discendono altremodello ad
albero (da ogni ramo partono altri rami ecc) relazioni permesse sono tra genitore e figlio/figli. Impossibile
che elemento abbia due genitori gerarchia molto netta. Tutti i linguaggi di markup implementano il
modello gerarchico le regole del sistema gerarchico si trasformano in regole sintattiche per codificare un
testo in XML ad es. Se lavoriamo con il testo ad oggi il modello gerarchico è uno dei più utilizzati perché è il
più indicato.
Modello a reteDerivato da gerarchico ma con struttura molto più liquida, con molti meno limiti. No
limitazione sulle possibili connessioni tra nodi, no strutturazione o gerarchia fisica, prestabilita e ordinata,
può essere caotico. Tutti i nodi allo stesso livello. Modello a rete è quello che sta dietro a Internet es.,
organizzazione dei dati del Web sistema dell’ipertesto obbedisce a un modello a rete.
Modello document-oriented è un database all’interno del quale un documento è l’unità di misura e i
documenti possono avere delle strutture diverse tra di loro. Esempio semplice: tre documenti che hanno
alcune parti in comune e altre no, ma implementano ciascuno una struttura indipendente. Nel modello
document-oriented risorse possono essere singolarmente descritte in maniera assolutamente diversa tra di
loromodello estremamente libero per descrivere una risorsa, no struttura rigida che comanda tutto il
database dato semistrutturato: ciascun elemento obbedisce a una struttura che però non è condivisa.
Nei documenti presi come esempio c’è una parte uguale, l’identificativo, e poi una serie di chiavi/valori
modello ha il vantaggio di avere massima espressività non ho dei limiti rigidi nella descrizione delle
risorse e nella struttura. Ma! svantaggio: non posso fare ricerche incrociate, modelli non sono interrogabili.
Questo tipo di struttura negli anni recenti rapida diffusione.
Modello triplestore si basa su banche dati semplici che prevedono solo tre colonne, ovvero soggetto
predicato e oggetto. Per raccogliere dati di questo tipo (possono essere molto eterogenei) struttura molto
semplice. Oggi sviluppo importante.
Tuttavia storicamente il modello più importante e diffuso modello relazionale teorizzato nel 1970
presso l’IBM da Edgar F. Coddmodello più diffuso in assoluto dati organizzati in quelli che vengono
definiti record o ennuple (n-tuples, sequenza finita di elementi), che a loro volta vengono raccolti in
relazioni o tabellerecord delle varie tabelle possono essere collegati tra loro in vari modi. Costruiamo una
tabella avente delle colonne o dette anche attributi; poi tabella ha un’intestazione, e quello che rimane fuori
è il corpo dove vivono i dati. I record, cioè i singoli elementi che noi schediamo, non sono ordinati (ordine in
cui sono inseriti non ha nessun tipo di significato)
intestazione descrive i campi o gli attributi (o colonne o campi)per descrivere i dati, che possono essere un
numero indefinito, anche centinaia.
Ognuna delle righe definisce un record.
L’intersezione tra riga e colonna è l’elemento atomico del modello relazionale, elemento più piccolo di
questo sistema identificazione/chiave primaria: ogni volta che creo una tabella con il modello relazionale
mi devo occupare io o il software che utilizzo di definire una colonna che conterrà un valore identificativo,
altrimenti impossibilità di riferirmi a un determinato record.
chiave primaria (o PK in inglese, primary key) = attributo molto particolare all’interno di una relazione
che contiene un valore sempre univocoattraverso il modello relazionale posso costruire delle banche dati
che sono molto più strutturate di così.
Un possibile problema all’interno di questa tabella è la ripetizione di dati oppure se voglio aggiungere delle
informazioni in più (si devono aggiungere altre colonne con altre intestazioni)soluzione proposta:
organizzare la mia informazione in tante tabelle diverse ciascuna delle quali si occupa di descrivere un
concetto singolomodello relazionale dice di non mischiare tutto in un’unica unità oggetti della nostra
ricerca, caratteristiche propriedunque descritto in maniera indipendente.
Con poche regoleorganizzazione efficiente per i dati. Graficamente possiamo esprimere questi concetti
con una mappa molto semplice, con tre entità che sono i nostri oggetti di ricerca, collegati tra loro attraverso
archi/frecce i cui termini sono differenti, hanno un significato.

Si tratta di un modo grafico di rappresentare in maniera sintetica e facile un dominio della conoscenza.
Entity relationship model / ER Diagram, è una
rappresentazione grafica in cui in maniera più o meno espressiva io posso raccontare cosa faccio con un
determinato dominio.
Esistono maniere più espressive per rendere questi tipi di diagrammi Crow’s foot notation (zampe di
corvo in inglese perché ricordano i simboli utilizzati)simbologia più espressiva per mappare vari tipi di
relazionistrumento grafico per descrivere in maniera concreta i dati.
L’ER diagram permette poi di mettere in relazione i risultati di più tabelle
singole, creando connessione.
Se stiamo descrivendo due oggetti diversi bisogna dividere in due tabelle
diverse questi dati, ma poi si possono collegare. Tutti gli oggetti e le entità
possono essere allargati nelle colonne e dunque posso aggiungere informazioni
come voglio. I dati possono essere collegati ad es. attraverso la
presenza di un attributo o campo particolare che è in questo caso l’id-autore.
Nella tabella delle opere devo riportare
riferimento esterno a informazioni sull’autore
inserimento id dell’altra tabella degli autori.
L’idprimary key,
l’identificatore ossia id-autore chiave esterna
(foreign key)
Dunque, un modello relazionale di questo tipo
dà gli strumenti in maniera automatizzata per
unire tutti gli elementi tipo di unione
‘join’ una delle funzioni fondamentali del
modello relazionale per le banche dati unione
tra le due tabelle, è questa la connessione modello relazionale mi dà la possibilità di avere anche mappe
molto articolate ma prendendo le info nelle varie entità/oggetti logici in cui sono state mappate in origine.
L’asserzione che esplicitava la connessione delle tabelleesprimibile in linguaggio specifico di
programmazione vari tipi di join (collegamenti)possono essere esplicitati attraverso la teoria degli
insiemi: unire un minimo di due o più entità e dunque di fonti di dati, e con essi possiamo avere vari tipi di
collegamenti; dunque, ci interessa l’intersezione di due tabelleLeft join significa che mi interessano tutti i
dati della prima tabella più i dati della seconda che hanno solo una piena corrispondenza; full jointutti i
dati dell’una e dell’altra e li mette insieme anche se non hanno corrispondenze; right join corrisponde a left
join ma a tabelle invertite; infine inner join inserisce al suo interno solamente i dati di intersezione.
Join=vari modi per unire le informazioni.

SQL
Nel modo di approccio delle banche dati unico linguaggio di programmazione. Se si parla di banche dati
relazionaliSQL (Structured Query Language, ossia linguaggio strutturato di interrogazione) linguaggio
formale che viene utilizzato per la programmazione, la progettazione e la gestione di dati contenuti in banche
dati relazionali oltre che gestione dei dati anche analisi linguaggio che per essere imparato richiede
moltissimo tempo; ma livello base gestito in maniera abbastanza facilitata.
SQL può essere usato per:
 Creare database, tabelle e relazioni tra tabelle CREATE TABLE
 Inserire dati nelle tabelle INSERT INTO
 Aggiornare i dati UPDATE
 Cancellare i data DELETE FROM
 Estrarre (leggere, query) i datiSELECT
SQLlinguaggio unico ma esistono dei dialetti di SQL vari produttori di software implementano dei modi
dialettali per dire le stesse cose hanno introdotto formule specifiche per funzioni che hanno sviluppato loro
e non fanno parte dello standard. Talvolta dialetti introdotti anche per creare mercato, perché se impari solo il
mio dialetto non puoi andare o è più difficile che andrai da un altro produttore.
SQL oggi è uno dei linguaggi che è ritornato di moda per tutto quello che ha a che fare l’analisi dei dati
(Data science).
Esempio di asserzione in linguaggio SQL che permette di creare una relazione e dunque una tabella
‘Create table’ è la sintassi e ‘opere’ è il nome della tabella, e per ogni colonna ho un tipo di dato cioè
contiene un numero, una data, un dato binario ecc In questo caso sto anche definendo il campo ID come
chiave primaria, questo in certi dialetti fa sì che il software capisce e ogni volta che aggiungo un record egli
aggiunge un valore univoco ad esso. Con questo tipo di funzione possiamo creare tabelle, inserirvi dei dati
singoli o multipli, aggiornare i dati, cancellare dati singoli o multipli.
Con SQL possiamo modificare la struttura delle tabelle, cancellare tabelle, cancellare interi database,
duplicare e capire dati e molto di più.
Di solito usiamo strumenti con GUI (Graphical User Interface) per gestire i RDBMS (software che si
specializzano sul modello relazionale e ci forniscono il concime per gestire le nostre interfacce grafiche) e
raramente scriviamo SQL, a meno che non si faccia un uso professionale di tale linguaggio.
Di solito usiamo il SQL in DB e GIS per interrogare i dati strumento GUI difficilmente può offrire la
potenza e la flessibilità di SQL.
SELECT è l’asserzione che si usa per recuperare i dati da un database. Le interrogazioni (query) SELECT
non alterano la struttura e i dati dei database query di sola lettura, e quindi sicuri.
SELECT è un filtro e si usa per limitare la mia visualizzazione soltanto ad alcuni elementi della tabella

I
filtri sono sempre scritti come nome campo – operatore – valore. Un esempio sarebbe: Select * from opere
where autore = Lewis Caroll.
Sulla Operatori con simboli e parole
Possibile concatenare più asserzioni tramite
l’utilizzo di AND o OR o NOT
I software che funzionano con queste
caratteristiche moltissimi: es. MS Access,
FileMaker Pro, LibreOffice Base, OpenOffice
Base, SQLite, ecc. DBMS del Desktop. MS
Access è limitato al mondo Windows mentre la
maggior parte degli altri è utilizzabile su
molteplici piattaforme. Le rubriche dei nostri
telefoni SQLite.
I database sono da sempre qualcosa di collaborativo esiste un settore di mercato quando si parla di
databaseserver (database non è installato sul nostro computer ma su un server remoto a cui accediamo
tramite internet o strumenti Web)
Il programma in questo casoapplicazione che usiamo attraverso browser con cui accediamo ai nostri dati.
Oracle che è uno dei più importanti produttori di database; altri conosciuti sono MySQL/MariaDB, Microsoft
SQL Server, PostgreSQL, IBM DB2, ecc. Circa l’80% dei siti Web che visualizziamo schedano i loro dati. I
server RDBMS sono server utilizzabili per il modello relazionale.

LEZ 12-SISTEMI INFORMATIVI GEOGRAFICI


GIS (Geographical Information System) no tecnologia nuova, almeno 30 anni. Con questa sigla in
generale si intendono i Geographical Information System (sistemi informativi geograficiSIG) chiamati
anche sistemi informativi territoriali (SIT).
Un sistema di informazione geografica struttura per la preparazione, la presentazione e l'interpretazione di
fatti che riguardano la superficie della terra.
Nel linguaggio comune, GIS è una configurazione di hardware e software di computer specificamente
progettata per l'acquisizione, la manutenzione e l'utilizzo di dati cartografici.
Ambito geografico è importantefunge da lingua di comunicazione dei vari dati che entrano dentro questo
tipo di sistemi informativi. Il sistema informativo più complesso di una banca dati, un sistema unitario
unificato di gestione delle informazioni.
Definizione 2 di GIS pone l’accento sul sistema informativo di gestione unificata delle informazioni,
poiché sono GIS progettati per lavorare con dati riferiti dal punto di vista spaziale.
La definizione è la seguente GIS è un sistema informativo progettato per funzionare con dati referenziati
da coordinate spaziali o geografiche. In altre parole, un GIS è sia un sistema di database con capacità
specifiche per dati di riferimento spaziale, sia [come] un insieme di operazioni per lavorare con i datiIn
quest’ottica si può pensare a GIS come una mappa di alto livello.
Ultima definizione possibile di GIS pone l’accento sul fatto che non possiamo utilizzare questi strumenti
senza la tecnologia, un sistema di hardware e software
Tutto ciò è finalizzato a registrare, a salvare, ad aggiornare, a manipolare, ad analizzare informazioni di tipo
diverso che hanno un riferimento geografico sistemi informativi complessi che formalizzano un tipo di
dato specifico parte geografica (scienza che studia lo spazio in senso lato) è un elemento fondamentale; il
linguaggio geografico è linguaggio minimo che queste piattaforme devono condividere.
Diversi sono gli ambiti applicativi Un primo ambito è gestione delle risorse naturalistiche, e dunque:
Habitat naturalistici; Gestione idiografica; Gestione inondazioni; Aree umide; Aree agricole; Foreste;
Dissesto idrogeologico, ecc.
Un altro ambito applicativo è la gestione territoriale, per cui i GIS servono per: Zonizzazione e
pianificazione urbana; Acquisizione dei terreni; Politiche di valutazione ambientale; Versione della qualità
dell’acqua; Gestione del catasto, ecc.
Poi c’è l’ambito della gestione delle infrastrutture: Localizzazione di tubature e cablaggi sotterranei;
Bilanciamento dei carichi nelle reti elettriche; Gestione manutenzione e pianificazione delle infrastrutture;
Tracciamento dell’utilizzo dell’energia, ecc.
Infine, GIS si applicano anche all’ambito umanistico: es. Geografia; Archeologia; Studi storici.
Mondo anglosassone ‘GIS Science’.
Esiste un filone di studi che si occupa in maniera teorica di cercare e di dislocare nello spazio vari fenomeni,
dunque, GIS diventa uno strumento di studio teorico al di là delle sue applicazioni metodologiche.
Storia GIS: sigla appare per la prima volta nel 1968 nello studio di Roger Tomlinson, ovvero ‘A Geographic
Information System for Regional Planning’ egli parlava di come usare questi strumenti anche per creare
dei modelli dello spazio in cui viviamo per fare delle predizionipredizioni su possibili sviluppi.
Sistema GIS usato in due studi intorno alla metà del XIX secolo:1832 in ambito francese, portato avanti da
Charles Picquet e1855 a Londra da parte di John Snowprogetti relativi ad ambiti simili, perché analisi GIS
semplice ma potente che viene chiamata ‘analisi di sovrapposizioni’ progetto di Snow ripreso nel 1958
da E. W. Gilbert che ha mappato il problema dell’epoca: GIS serviva a risolvere il problema della diffusione
del colera in un distretto di Londra (Soho) attraverso mappatura geografica mappa mette in relazione
diversi fenomeni tra loro scopo è visualizzare il rapporto tra morti e diffusione del colera e la presenza di
fonti d’acqua collegamenti rilevanti a proposito.
Possibilità di visualizzare geograficamente dei dati diversi relativi ad un ambito geografico e vederli
sovrapposti nuova informazione.
GIS permettono dunque analisi correlate di dati diversi che singolarmente non danno questa informazione.
GISdatabase geografici particolarmente evoluti e complessi
L’overlayanalisi che prevede sovrapposizione sullo stesso ambito geografico di dati di provenienza
diversi per nuove informazioni.
Un’altra analisi‘buffer’ analisi che prende in considerazione una specie di zona di rispetto intorno a noi
o all’elemento geografico che noi vogliamo analizzare ed esegue proiezione nello spazio di altri elementi
affini che rispettano determinate categorieanalisi buffer disegna materialmente un’area rispetto a un certo
elemento e fa qualcosa, seleziona o entra in relazione con elementi altri che si trovano all’interno di
quest’area (es questo quante abitazioni sono vicine ad un fiume per un pericolo idrogeologico).
Altro tipo analisi di costo data una certa superficie, essi possono darmi il costo che intercorre tra il
punto a e il punto b con costo si intende spesa energetica, difficoltà o vari tipi di rischio Una delle
analisi di costo che facciamo sempre è tramite Google maps (es. percorso più veloce, pedaggi, consumo con
la macchina)
Tramite i GIS anche analisi di superfici (dette surface analysis)capaci di analizzare dati in tre
dimensioni (analisi su dati relativi all’altimetria, alla quota) Analisi molto comuni quelle che ci danno
possibilità di calcolare in maniera automatica le superfici di visibilità (in base a un punto di osservazione)
oppure le analisi sulla volumetria analisi spaziali o le analisi di network (anche non spaziali).
Correlazioni che esistono fra vari tipi di fenomeni (es. relazioni sociali tra varie persone) vengono mappate
in continuazione e possono essere rappresentate con linee dirette che non hanno a che fare con un percorso
ma mappano una relazione non definita nello spazio.
I GIS si sono dotati recentemente di strumenti di visualizzazione di dati sociali funzionalità di analisi
anche con dati non spaziali visualizzazioni (tramite mappe) vengono usate per rappresentare anche altri
fenomeni senza una dimensione spaziale, anche se normalmente vengono aggiunte questo tipo di analisi a
quelle geografico-spaziali.
Es. Great Britain Historical GIS progetto che cerca di creare raccolta unitaria di dati storici relativi alla
Gran Bretagna visualizzabili attraverso questi strumenti.
Un altro progetto di grande respiro storicoCHGIS (China Historical Geographic Information System)
dell’università di Harvardfocus: dimensione storicadatabase condiviso relativo alla Cina dati storici
(qui senza limite storico, il progetto non ha un limite cronologico) valenza GIS più o meno precisa, dai dati
che hanno a che fare con la toponomastica generalmente.
Sistema informativo geografico di Roma del XVIII secolo.
Progetto sempre relativo a Roma è SITAR (Sistema Informativo Territoriale Archeologico di Roma) dati
raccolti a fini amministrativi e di ricerca dei dati ed essi sono rappresentati geograficamentetutti gli scavi
eseguiti a Roma fino a 4 anni fa.
Anche PAThs (an Archeological Atlas of Coptic Literature)progetto interessante che utilizza la geografia
per rappresentare la letteraturaconnubio, poiché rappresenta su mappa GIS dati storici che finora non
avevano a che fare con la geografia mappe fisiche relative al fenomeno letterario dell’Egitto tardo antico,
ad es. in lingua copta.
Questioni di metodo legate a GIS nati nell’ambito delle scienze dure e che vengono usati in maniera molto
diffusa anche in scienze umane in senso lato, dalle scienze sociali, dalla ricerca storica e archeologica e non
soloDue considerazioni da farerapporto tra Humanities e Scienze dure non è mai sempliceQuesti
softwarequantità di algoritmi con cui fare cose strabilianti, però serve forte ancoraggio nella nostra
tradizione degli studi perché lo strumento non fa mai i datiproblema è quello dei dati che non dico come
sono stati fatti, perché non li riporto ad una dimensione storica e dunque non parlo della loro origine. Un
conto sono i dati che raccoglie Google oggi sulla nostra mobilità in tempo reale, un’altra cosa sono i dati che
noi riusciamo a ricavare dalle fonti storiche strumenti GIS trattano questi dati in maniera uguale, ma la
valenza di questi dati è diversa importante chiedersi mentre si usa GIS cosa sono i nostri dati, che valenza
statistica hanno, qual è la loro copertura e il loro reale significato, come possono essere codificati
elettronicamente e dunque come li stiamo producendo, qual è la loro scala di applicazione e la valenza delle
analisi eseguite, ecc.

LEZ 13- INTELLIGENZA ARTIFICIALE


Stephen Hawking, esprimendosi sull’intelligenza artificiale(‘Al will be either the best, or the worst thing,
ever to happen to humanity’) intelligenza artificiale è molto attuale necessario profondo pensiero etico
perché tecnologia dirompente, soprattutto per quanto riguarda l’interazione con l’uomo.
L’intelligenza artificiale non è nata recentemente anni ’50. 1956convengo in cui si cominciò a parlare in
modo attivo di questa tecnologia e si hanno i primi prototipi e approcci integraticomputer che avevano
qualcosa in più rispetto a un mero calcolo meccanico ma che riuscivano a risolvere i problemi tipicamente
legati al mondo umano, e anche il sentimento per es. entrava in questo ambito.
L’intelligenza artificiale picchi di popolarità e momenti in cui i finanziamenti calaronointeresse sia degli
investitori che degli scienziati calòoggi viviamo grande diffusione dell’intelligenza artificialegrandi
investimenti.
La macchina di Turing non è uno strumento di intelligenza artificialemodello teorico e pratico per calcolo
automatico, però Turing c’entra tantissimo con l’intelligenza artificiale, perché lui all’inizio degli anni ‘50
l’interrogativo: può una macchina pensare? Cosa intendiamo con pensare? Turing dice che per lui le
macchine possono pensare.
definire il pensiero è difficile, lasciando stare le macchineCome si definisce un essere pensante? Uno
strumentotest di intelligenza. Questo è un modo che noi tutt’oggi utilizziamo per misurare l’intelligenza.
Macchine database abbastanza ferrantemacchina ha un hardware finito e allora una macchina del genere
avrà dei risultati migliori su qualsiasi tipo di test rispetto agli umani accesso alla conoscenza più rapido.
L’intelligenza umana è qualcosa che non si può chiudere in una scatola Turing dice che la domanda della
misura di una determinata intelligenza come non posso farla ad un umano non posso farla ad una macchina.
La macchina molto brava a rispondere ma applicazione meccanica di domanda-risposta.
unica persona di cui abbiamo sensibilità è noi stessi, ma tutti gli altri facciamo fatica ad identificarli.
Difficoltà alla base: non posso definire l’intelligenzaBisogna cambiare il paradigma, invece di definire
l’intelligenza consideriamo una macchina che può assomigliare e replicare il comportamento dell’uomo.
altro modelloImitation Game di Turing imitazione se macchina riesce intelligente esattamente nel
nostro modo (umano) di esserlo.
Obiezione teologicaragionare ha a che fare con l’anima umana e in quanto tale una macchina non può
averla. Oppure indifferenza poiché pensare a macchine intelligenti è uno scenario pauroso (predominio
dell’uomo sulla terra) allora testa nella sabbia e faccio finta che il problema non esiste.
Il ragionamento di Turing relativo all’intelligenza artificiale può dunque avere varie obiezioni, ma in sintesi
teorizza molte problematiche che noi oggi affrontiamo anche dal punto di vista etico.
Definizione dell’intelligenza artificiale è sfuggenteparadosso: AI Effect, (effetto dell’intelligenza
artificiale)paradosso dice che ogni volta che una macchina (un algoritmo, un software ecc) o uno
strumento tecnologico risolve un problema che prima di comune accordo faceva parte del dominio degli
umani, e quindi si diceva che era impossibile che una macchina svolgesse tale compitoosservatori diranno
che si tratta di un calcolo più potente di prima, non si tratta di ‘pensiero’ o ‘intelligenza’ gradino superato
perde la sua magialimite artificiale dell’intelligenza viene man mano spostato ogni volta che l’umano
perde terreno rispetto alla macchina definizione che talvolta è stata data dell’intelligenza artificiale:
qualsiasi cosa che una macchina ancora non famai arrivabile.
Esempioriconoscimento della scrittura: per lungo tempo decifrare una scrittura era dominio degli umani,
ma anni ’60 strumenti automatici del riconoscimento dei dati e dei testi es. software a cui dai foto del testo
e lui restituisce un testo
Abbiamo dei modelli in grado di capire anche la scrittura manuale(Optical Character Recognition, OCR).
Strategie di machine learningpiù performanti di noi anche dal punto di vista del riconoscimento.
gioco degli scacchi (strategico)buon intuito; per questo l’intelligenza artificiale da sempre si è applicata
agli scacchi. Tra il 1996 e il 1997Blue Deep (IBM), un computer che giocò contro Garry Kasparov,
campione mondiale di scacchi, e vinseBlue Deep primo sistema di calcolo che batte un campione in
torneo. Macchina con un sistema hardware pensato per gli scacchi.
Oggi software capaci di eseguire calcoli altrettanto complessi su hardware standard.
Altro gioco, ovvero GO, un gioco di strategia ma che richiede un intuito e un ragionamento molto più
creativo rispetto agli scacchipiù variabili, molto più difficile da modellizzare.
AlphaGo non usa algoritmi probabilistici implementati manualmente dagli umani, ma reti neurali capaci di
stimare la propria capacità di vincitaGoogle ha creato AlphaGo capace di stimare capacità di vincita.
intelligenza artificiale può essere applicata a molteplici ambiti:
 Ragionamento e soluzione di problemi complessi, attraverso sviluppo di algoritmi che simulano
passo-passo il ragionamento umano.
 Rappresentazione della conoscenza, attraverso costruzione di ontologie in grado di fare deduzioni
sui fatti del mondo reale.
 Apprendimento (ML): algoritmi capaci di migliorare se stessi attraverso l’esperienza.
 Processamento del linguaggio naturale (NLP) capacità da parte di una macchina di intendere il
nostro linguaggio naturale e dunque di processarlo (ad es: Siri, Alexa, ecc.).
 Percezione artificiale, mediante l’uso di sensori (camere, microfoni, segnali wireless, lidar, sonar,
radar, sensori tattili, ecc.) per creare percezione e comprensione ambientale.
 Movimento e manipolazione, soluzioni sul posizionamento e le descrizioni per calcolare percorsi.
 Affetto e socialità, per adattarsi a contesti diversi dove emozioni e sentimenti sono importanti.
Primo caso dividere in problemi più semplici è step più importanterisolvere anche problemi complessi
in modo efficiente.
L’apprendimento‘ambito in cui sono stati spesi più soldi sistemi di machine learning possono essere
supervisionati o meno.
Roboticacapacità di elaborare e integrare tanti input diversi, esattamente come umano.
Oggi intelligenza artificiale si sviluppa anche nell’ambito dell’affetto e della socialitàtipicamente umano,
interpretazione dei sentimenti a partire da un input qualsiasi (testo, suono o qualcosa di grafico, es. video).
Motori di ricerca ormai basano tutta la loro capacità di intendere e lavorare su questo tipo di tecnologie e
molto comune è diventata la sentiment analysis di quello che pubblichiamo per pubblicità specializzata.
Esiste possibilità che macchine di oggi capiscano delle immagini sistemi di riconoscimento delle
immagini Negli ultimi 10 anni l’intelligenza artificiale protagonista dei più importanti sviluppi tecnologici
che hanno raggiunto la grande utenza:
 Motori di ricerca (Google).
 Profilazione pubblicitaria (marketing, AdSense, Facebook).
 Sistemi di suggerimenti di contenuti (Youtube, Netflix, Amazon).
 Assistenti personali (Siri, Alexa, Google).
 Veicoli automatici (macchine a guida autonoma, droni).
 Sistemi di traduzione automatica (DeepL Translator, Google Translator).
 Sistemi di auto-correzione (Grammarly).
 Sistemi di riconoscimento delle immagini (etichettatura, facciali), ecc.
Il grande salto investimento sul Machine Learningprogrammazione tradizionale prevede dei blocchi di
controllo: se si verifica una certa condizione, allora esegui una certa operazione, oppure finché non si
verifica una determinata condizione, continua a (non) fare una certa operazione programmazione
tradizionale= scrivere delle regole e processare dei dati in base a quelle regole, e tutto quello che fuoriusciva
o veniva buttato in un contenitore generico o dava errore.
Come funziona Machine Learning? Noi prendiamo dei dati e cominciamo a fornire degli esempi al
computerMachine Learning prende dei dati di esempi così istruisco la macchina.
A differenza della programmazione tradizionale, Machine Learning si basa sull’istruire una macchina con
degli esempi quantità di dati molto grandi che non conosco e non controllo; attraverso alcuni esempi un
algoritmo è in grado di prendere in considerazione quantità di dati enormi.
Apprendimento automatico prevede data set di allenamento (in gergo training data, cioè dei dati per i quali
noi diciamo la soluzione giusta, per cui diamo il dato e gli diamo un’etichetta su cosa significa per noi).
In pasto ad un algoritmo questi training data, che li elabora e crea un modello, usato per dedurre
informazioni a partire da dati sconosciutialgoritmo si allena e crea un modello che successivamente può
essere usato per dedurre informazioni a partire da dati sconosciuti.
Sotto il Machine Learning due grandi ambiti, ovvero il Supervised Machine Learning e il Unsupervised
Machine Learning.
Supervised Machine Learningsi tratta di un apprendimento supervisionatoi training data sono
etichettati da noi, controllati in precedenza di modo che corrispondano a quello che vogliamo catalogare
apprendimento si dice supervisionato in quanto è l’umano che offre alla macchina esempi dei vari
componenti possibili e che servono alla stessa per ‘imparare’ esempio= Google CAPTCHa, un sistema
che capisce se siamo dei robot o meno sulla base della riproduzione normalmente di un testo o sul
riconoscimento delle immagini Google ci usa per allenare sue macchine e contribuiamo a questo progetto.
Unsupervised Machine Learningmodello non supervisionato: all’algoritmo viene fornita grande quantità
di dati sconosciuti (dataset prima sconosciuto) e la macchina deve analizzare e cercare un senso per questi
dati, deve elaborarli e darci dei risultati cercando di individuare dei motivi/schemi (pattern) regolari.
Quando grande quantità di dati sui cui pochissima conoscenza, spesso usiamo UML per creare delle
categorie possibile grazie al deep learningapprofondimento profondo che è un sottoinsieme della più
generica sfera del ML che basa il proprio allenamento sulle reti neurali artificiali.
Abbiamo portato nel mondo dei computer non solo il nostro modo di apprendimento tramite esempi, ma
anche quello che abbiamo acquisito tramite le neuroscienze, cioè come funziona il nostro cervello.
Input elettronicovalutazione in base a quello che ha imparato nel passato e in base alla valutazione dà o
meno un output rete allenata con l’esperienza sostanzialmente mappiamo input e output.
Dentro questa rete dati che poi vengono mappati.
Da una parte usiamo le neuroscienze per costruire computer; dall’altra parte usiamo ancora dei sistemi
rudimentali (computer) per capire noi stessi.
Questo tipo di sistemi vengono chiamati scatole chiuse o scatole nere perché i ricercatori attualmente non
sanno spiegare perché un algoritmo dà la risposta esatta non riusciamo a tracciare il percorso
Fino a dove vogliamo spingerci in questo campo?
Alcune applicazioni di questo tipo di tecnologie: es. Voicemed creato nel periodo covid, strumento che
attraverso l’analisi vocale ci dà un responso sulla positività o meno dal covid macchina allenata con tante
voci e in base alla sola voce ci dà un responso probabilistico sulla positività o meno alla malattia
applicazione sperimentata anche in Italia sistemi dei Machine Learning arrivano al di là di dove arriviamo
noi, come quantità di dati e come finezza dei dati.
Ambito medicorobotica medica
esperimento importanteGhitub Copilot, grande sito dove c’è una quantità di codici infiniti di proprietà
della Microsoft programma di intelligenza artificiale che aiuta a scrivere codici: analizza il nostro lavoro,
capisce che problema stiamo cercando di risolvere e ci aiuta negli altri esempi visti, abbiamo ancora
compito di scegliere l’input migliore, feedback alla rete neurale, ma in questo caso macchina che sta
scrivendo sé stessa tra qualche anno non ci sarà più bisogno di un umano per fare una macchina
Stiamo già utilizzando sistemi di intelligenza artificiale per scrivere macchine.

LEZ 14- COPYRIGHT COPYLEFT


diritti d’autore e di licenze d’uso mondo dell’editoria e importanti scosse grazie a evoluzione tecnologica.
Quello che noi chiamiamo diritto d’autore e il copyright sono due cose diverse.
Storia1710, in InghilterraStatuto di Annacontratto in cui all’autore vengono riconosciuti diritti sulle
proprie opere, diritti che possono essere ceduti agli editori durata del contratto è di 14 anni legge regola
un dominio che aveva conosciuto con produzione della stampa a caratteri mobili una crescita esponenziale.
inventato uno statuto nuovo, la possibilità di commercializzare o riconoscere dal punto di vista commerciale
il diritto di un autore che ha sulle sue opere e cederlelegittimato il lavoro degli editori.
Prima della stampa a caratteri mobili parlare di copyright non aveva sensonon c’era motivo di
commercializzare questo tipo di diritti.
In Italia distinzione tra i diritti morali e i diritti allo sfruttamento economico (diritto d’autore
comprende queste due famiglie di diritti, due cose scisse con ambiti di applicazione diversi)
Legge italiana protegge il diritto d’autore e riconosce le opere di ingegno di carattere creativo (musica, arte,
teatro, arti figurative, architettura, cinematografia ecc.) qualunque sia il medium usato.
Diritto morale inalienabileno limiti di tempo, al di là dei diritti commercializzabili che possono riguardare
lo scopo editoriale diritto di rivendicare l’opera e di opporsi a qualsiasi modifica o danno che possano
arrecare pregiudizio all’onore e alla reputazione dell’opera.
Diritti patrimonialilimite temporale massimo e possono essere ceduti e regolati da contratti editoriali.
In generale però qualsiasi opera d’ingegno, trascorsi tot anni dalla morte dell’autore, cade nel pubblico
dominio, cioè diventa di tuttichiunque può prendere quell’opera e farci quello che gli pare senza dover
pagare nulla alla famiglia dell’autore.
I diritti morali valgono per sempre; non posso appropriarmi di un’opera altrui
Diritti però si rinnovano ma attenzione anche la traduzione è un’opera di creazione d’ingegno e anche al
traduttore vengono riconosciuti dei diritti.
In Italia sostanzialmente stiamo ancora sul decreto Urbani, che prima della modifica prevedeva
carcerazione per chi scaricava peer-to-peer delle opere anche senza fini di lucro quest’industria è cambiata
con l’avvento di Internet e delle nuove tecnologie, perché quello che facevano gli editori è stato sostituito
dalla rete possibilità di pubblicare un’opera di ingegno e distribuirla a numero infinito di persone è reso
possibile dal fatto di poter pubblicare su un sito web.
Come prima reazione si è cercato di equiparare i contenuti digitali a quelli cartacei e trattare Internet come
fosse l’industria editoriale. Tuttavia, bisogna tenere conto della pirateria (distribuzione che non ricadeva
all’interno delle tradizionali forme editoriali).
Oggi dobbiamo cambiare le cose situazione più vicina a quella che era la fruizione e il consumo dei
contenuti creativi digitali o meno a quello che era il mondo antico, dove ruoli tra autore e consumatore erano
più fluidi, tutta la creazione popolare era per definizione collettiva l’importante era l’opera non l’autore,
ogni arricchimento visto come positivo.
L’uso che facciamo oggi di Internet è molto simile formato digitale è liquido in tutti i sensi, sia positivi
che negatividifficilmente controllabile.
Dopo un’iniziale difesa di paradigmi tradizionali che però erano insostenibiligli editori si sono resi conto
di non poter vietare lo streaming, la rete distribuita, il peer to peer bisogna lucrarci soprabisogna
riadattare a nuove tecnologie.
La figura del prosumer (unione dei termini producer e consumerplatea dei produttori che coincide con
quella dei fruitori) si adegua molto di più a quello che facciamo in rete: chiunque davanti a uno schermo ha
un apporto creativo importante la stessa creazione dei contenuti è molto cambiato perché abbiamo
strumenti diversi e molto più attivi lavoriamo più su una logica di baratto, scambiando delle informazioni
e dei dati e degli oggetti piuttosto che quello della compravenditanecessità di usufruire della rete in modo
più libero.
Fondamentale concetto della creazione libera, della libertà del software concetto che ci appartiene perché
determina lo stesso modo che noi abbiamo di interagire con la tecnologia
Free software.
Quando parliamo di software libero software che rispetta le libertà dell’utente e della comunità che lo
utilizzano, i quali sono liberi di eseguirlo, di distribuirlo, di modificarlo, di studiarlo, di cambiarlo in ogni
suo aspettoquando parliamo di ‘free= non solo gratuito spesso i software lo sono ma non per forza.
Possiamo avere dei software liberi per cui paghiamo dei soldi.
le 4 libertà individuate per definire un software libero:
 Libertà di eseguire il programma come si desidera, per qualsiasi scopo (libertà 0).
 Libertà di studiare come funziona il programma e di modificarlo in modo da adattarlo alle proprie
necessità (libertà 1). L’accesso al codice sorgente prerequisito. Possibilità di studiare come
funziona un determinato programma e dunque anche di imparare da chi l’ha scritto e quindi anche di
modificarlo in modo da adattarlo e adeguarlo a quelle che sono le esigenze e le necessità di utilizzo.
Sorgente aperta non solo il programma ma anche il codice che serve per compilare il programma.
 Libertà di ridistribuire copie in modo da aiutare il prossimo (libertà 2) posso agire anche da
distributore.
 Libertà di migliorare il programma e distribuirne pubblicamente i miglioramenti apportati (o versioni
diverse) (libertà 3)accesso al codice sorgente=prerequisitopossibilità di creare versioni derivate
del programma: aggiungere funzionalità o risolvere problemi che prima aveva il programma
comunità ne tragga beneficio, non solo il programmatore originale. Anche in questo caso il codice
sorgente è disponibile altrimenti non è possibile farlo.
Un programma che ha tutte queste libertà può essere definito un software libero.

Copyleft introdotto all’inizio nel mondo dei software e poi portato nel mondo editoriale in senso lato. Si
basa su gioco di parole sul diritto di copia (right vs left), e si traduce con ‘permesso di autore’.
Copyleft indica il fatto che certi tipi di regole su come distribuire un software libero sono accettabili quando
non entrano in conflitto con le libertà appena viste regola secondo la quale un programma è ridistribuito da
un terzo, non dal soggetto che l’ha creato, attraverso uno strumento legale, per cui non è possibile aggiungere
nuove restrizioni per negare libertà che erano garantite dal programma inizialeCopyleft=dispositivo
legale: chiunque rilasci versioni successivenon può mettere vincoli di licenza che vietano le 4 libertà
quello che nasce libero deve rimanere libero fondamentale perché all’inizio degli anni ’80-’90 con le
guerre di monopolio (es tra Microsoft e mondo del software libero), si prendevano programmi sviluppati
dalle comunità di sviluppatori, mettevi etichetta come Apple e Microsoft e vendevi senza ridistribuire il
codice, li miglioravi senza rimandare indietro le migliorieprogramma negava le 4 libertà
Copyleft da subito sbarcato nel mondo dell’editoria tradizionale.
Linux uno dei grandi ambiti in cui questo movimento ha preso piede, e tra i vari tipi di progettiDebian
Free Software Guidelines (DFSG) ha definito quali sono le libertà principali di filosofia che loro hanno
deciso per distribuire e promuovere lo sviluppo del loro softwareDebian sviluppa software e rilascia
sistemi operativi tutt’oggi una delle case di sviluppo più importanti nel mondo GNU Linuxfilosofia che
prevede diversi punti:
 Libera ridistribuzione: la licenza di un componente Debian non può porre restrizioni a nessuno per
la vendita o la cessione del software come componente di una distribuzione software aggregata di
programmi proveniente da fonti diverse. La licenza non può richiedere royalty o altri pagamenti per
la vendita.
 Codice sorgente: il programma deve includere il codice sorgente e deve permettere la distribuzione
sia come codice sorgente che in forma compilatacodice sorgente deve sempre essere disponibile e
distribuito insieme al programma.
 Lavori derivati: Licenza deve permettere modifiche e lavori derivati e deve permettere la loro
distribuzione con i medesimi termini della licenza del software originale
 Integrità del codice sorgente dell’autore: la licenza può porre restrizioni sulla distribuzione di
codice sorgente modificato solo se permette la distribuzione di ‘file patch’ insieme al codice
sorgente con lo scopo di modificare il programma durante la compilazione. La licenza può richiedere
che i lavori derivati abbiano un nome o numero di versione diversi da quelli del software originali.
Compromesso: gruppo Debian invita tutti gli autori a non impedire che file, sorgenti o binari
possano essere modificati.
 Nessuna discriminazione di persone o gruppi
 Nessuna discriminazione nei campi di impiego: non può porre restrizioni all’uso commerciale o
nella ricerca genetica.
 Distribuzione della licenza: i diritti applicati al programma devono essere applicati a chiunque
riceva il programma senza il bisogno di utilizzare licenze addizionali di terze parti.
 La licenza non può essere specifica per Debian: i diritti applicati al programma non possono
dipendere dal fatto che esso sia parte di un sistema Debian. Se il programma è estratto da Debian e
usato o distribuito senza Debian ma ottemperando ai termini della licenza, tutte le parti alle quali il
programma è ridistribuito dovrebbero avere gli stessi diritti di coloro che lo ricevono con il sistema
Debian.
 La licenza non deve contaminare altro software: la licenza non può porre restrizioni ad altro
software che sia distribuito insieme al software concesso in licenza.
 Esempi di licenza: le licenze ‘GPL’, ‘BSD’, e ‘Artistic’ sono esempi di licenze che consideriamo
‘libere’.

Open Source deriva la sua definizione dalla dichiarazione di Debian. Cosa s’intende con sorgente
aperta? software che è disponibile per tutti ed ha le seguenti caratteristiche:
 Ridistribuzione gratuita.
 Codice sorgente.
 Opere derivate
 Integrità del codice sorgente dell'autore
 Nessuna discriminazione nei confronti di persone o gruppi
 Nessuna discriminazione contro i campi di impegno
 Distribuzione della licenza
 La licenza non deve essere specifica per un prodotto
 La licenza non deve limitare altri software
 La licenza deve essere neutrale dal punto di vista tecnologico
Il penultimo puntopossibilità di utilizzare software Open Source per creare software a sorgente chiusa;
questa è la violazione del cosiddetto copyleft.
Solitamente viene detto che il software Open Source e basta, non libero, non garantisce il copyleft da
software Open Source possono nascere software commerciali perché la licenza non deve restringere, non
deve determinare i prodotti derivati grandi promotori di Open Source oggi sono le vecchie compagnie di
software come Windows, Apple, Google, ecc.
Gran parte dei prodotti Google nascono da progetti Open Source, vengono supportati da tale progetto ma
sono sostanzialmente dei prodotti perfettamente commerciali a sorgente chiusa.
Open Source è diverso software liberi, anche se i due concetti in gran parte si sovrappongonovalori
fondamentalmente diversiL'open source è una metodologia di sviluppo; il software libero è un movimento
sociale, imperativo etico Al contrario la filosofia dell'open source pensa a come “migliorare” il software
soltanto da un punto di vista pratico. Dice che il software non libero è una soluzione non ottimale.
Negli anni ‘90 e 2000 era diverso, Windows ha fatto guerra feroce all’Open Source perché promuoveva
un altro tipo di sviluppo; oggi lo stesso Windows promuove lo sviluppo Open Source perché costa meno e ha
grande qualità di sviluppo.
Il mondo del free software grossomodo oggi si articola intorno a GNU Projecttentativo di riportare la
libertà di sviluppare il progetto UNIX dopo che lo sviluppo collaborativo era stato chiuso per un progetto
commerciale GNU è una serie di pacchetti di software liberi sviluppato da terzi, liberi con copyleft.

Sistema operativo GNU è costituito da pacchetti GNU (programmi rilasciati specificamente dal Progetto
GNU) e da software libero rilasciato da terze parti.
GNU è un sistema operativo simile a Unixraccolta di molti programmi: applicazioni, librerie, strumenti
per sviluppatori e persino giochi.
Sviluppo di GNU, iniziato nel gennaio 1984, è noto come GNU Project. Molti dei programmi in GNU sono
rilasciati sotto gli auspici del Progetto GNUpacchetti GNU.
Nome "GNU" acronimo ricorsivo per "GNU's Not Unix". “GNU” si pronuncia g'noo,
Il programma in un sistema simile a Unix che alloca le risorse della macchina e comunica con l'hardware è
chiamato "kernel"kernel chiamato Linux. Questa combinazione è il sistema operativo GNU/Linux.
GNU/Linux è usato da milioni di persone, anche se molti lo chiamano "Linux" per errore.
Il kernel di GNU, The Hurd, è stato avviato nel 1990 (prima dell'avvio di Linux).

Le licenzecontratti d’uso con i quali chi rilascia un software determina cosa i soggetti terzi possono fare o
meno GNU ha fatto tanto sforzo legale e hanno scritto una licenza comunitaria che si chiama GPL
(General Public Licence) che ha differenti versionilicenza che ha un valore legale e che esplicita in
maniera chiara tutta questa filosofia.
Con GPL si può utilizzare il software per scopi commerciali; modificare il software e creare derivati;
distribuire originali o modificati opere (derivate); c’è la possibilità di applicare una garanzia sul software
concesso in licenza; si possono esercitare le rivendicazioni di brevetto dei contributori al codice.
Cose che non si possono fare con GPL: vieta la sublicenza, ma ogni utente che riceve il software ha
automaticamente il diritto di eseguire, modificare e far debuttare il lavoro. Infine, GPL 1. deve includere le
copie del software originale o le istruzioni per ottenere le copie devono essere distribuite con il software;
2.deve indicare le modifiche significative apportate al software;3. tutto il codice collegato al codice sorgente
deve essere distribuito con una licenza compatibile;4. il testo della licenza deve essere incluso completo nel
software modificato; 4. il copyright originale deve essere mantenuto; 5.se il software fa parte di un
dispositivo consumer, è necessario includere le informazioni di installazione necessarie per modificare e
reinstallare il software.
Altra licenza molto diffusa è MITa differenza di GNU, la puoi sottolicenziareposso prendere un
software MIT e ridistribuirlo con un altro tipo di licenza; è Open Source insomma.
Inoltre, con MIT è possibile 1. utilizzare le opere commercialmente; 2.apportare modifiche al lavoro;
3.distribuire il codice compilato e/o il sorgente; 4. puoi incorporare il lavoro in qualcosa che ha una licenza
più restrittiva; 5. puoi utilizzare l’opera per uso privato.
Inoltre con MIT è necessario includere l’avviso di copyright in tutte le copertine o usi sostanziali dell’opera;
è necessario anche includere l’avviso di causa in tutte le copie o documenti sostanziali dell’opera.

Esistono licenze aperte per i dati con cui posso distribuire un software ma anche dei contenuti (dunque dei
database) possibilità di definire una licenza aperta per i dati esiste grazie a ODC (Open Database
License) che definisce in maniera semplice vari tipi di possibilità su come io posso rilasciare dei dati.
Senza indicazione di licenza c’è violazione di copyright su qualsiasi tipo di contenuto digitale soluzione:
Creative Commons problema: Internet così com’è non funziona, io devo poter pubblicare i contenuti e
tutelare sempre la mia creazione, ma la vecchia legge non me lo permette necessità di uno strumento per
prendere coscienza sul mondo dei diritti di copyright e della licenza nel mondo digitale, strumento che dia
possibilità di lavorare nel mondo dell’Open Access (nell’editoria è l’accesso aperto ai contenuti)
Creative Commonsportale, fondazione che ha cercato di creare degli strumenti semplici per gente comune
per dare la possibilità di provvedere delle licenze d’uso facili da usare e capire per le proprie creazioni
strumentario estremamente semplice, che parte da una licenza più aperta che corrisponde a CC 0 (nessun
diritto) e arriva fino alla licenza di minima apertura (combina alcune caratteristiche che Creative
Commons esplicita attraverso delle sigle)
Creative Commons definisce 4 strumenti, ovvero BY (Attribution, dunque Attribuzione), SA (ShareAlike,
dunque condividi allo stesso modo), ND (NoDerivs, dunque non opere derivate), NC (NonCommercial,
dunque non sfruttamento commerciale)opzioni che puoi legare in vario modo.

FREE CULTURAL WORK


Libertà di utilizzare l’opera stessa quando ottieni una copia di un'opera con una di queste licenze, puoi
usarla come preferiscisenza restrizioni in base al tipo di utilizzo: puoi utilizzarlo per scopi commerciali,
politici o religiosi, ad es, o fare copie illimitate in diversi formati da utilizzare su dispositivi diversi.
(Questo è il motivo per cui le licenze NC non sono considerate licenze per opere culturali libere.)
Libertà di utilizzare le informazioni nel lavoro per qualsiasi scopodovresti anche essere in grado di
utilizzare le informazioni in essa contenute.
Libertà di condividere copie dell'opera per qualsiasi scopo Quando ricevi una copia di un'opera
culturale gratuita, puoi creare e condividere tutte le copie che vuoi, dove vuoi.
Libertà di creare e condividere remix e altri derivati per qualsiasi scopo possibilità di modificare
(Questo è il motivo per cui il lavoro con licenza ND non è considerato un'opera culturale gratuita.)
LEZ 15- CLOUD COMPUTING
Cloud Computing (nuvola informatica)servizi, di archiviazione o di elaborazione dati, che l’utente
adopera in remoto Cloud computing può essere definito come «l’archiviazione, l’elaborazione e l’uso di
dati su computer remoti e il relativo accesso via Internet».
Oggi quarta rivoluzione industriale (quella tecnologica) industria 4.0: mondo della robotica,
dell’intelligenza artificiale e del cloud computingultimi 15 anni si sono sviluppate aziende che si
preoccupano di fornire ad altre aziende servizi di cloud computing: es. Safe Force.
Non sempre il cloud considerato qualcosa di positivo evoluzione che ricopre circa un cinquantennio
cloud passa dall’essere un semplice servizio a modello da seguire per accedere alle nostre informazioni e
conservarle.
Una delle peculiarità del cloud: si fonda su una tecnologia basata sul Web e così permette all’utente di
accedere rapidamente alle informazioni, perché sfrutta il Web browser cioè il motore di ricerca accesso
facilitato.
Tecnologia sviluppata negli USA in Italia solamente negli ultimi 15-20 anniforte aumento dell’uso di
Cloud dal 2008 in poi grazie alla presenza dei dispositivi portatili.
In realtà non rappresenta una assoluta novità nel settore e potrebbe essere considerato come l’evoluzione del
cosiddetto distributed computing di cui fa parte, a sua volta, il grid computing, pertantoCloud
computing come l’evoluzione del grid computing.
distributed computinginfrastruttura digitale in cui un cluster risolve dei compiti di calcolo. Nonostante la
distanza fisica, i computer lavorano autonomamente e in modo strettamente interconnesso in un processo di
suddivisione dei compitisecondario il tipo di server utilizzato, oltre a computer particolarmente
performanti e postazioni di lavoro di tipo professionale, si possono collegare anche minicomputer e computer
desktop di utenti privati.
L’architettura di grid computing assembla, anche in cloud, diverse unità geograficamente distanti per
intervalli di tempo e scopi specificicomputer comunicano e agiscono come una singola identità di calcolo.
I nodi sono indipendenti: ciascun server o computer condivide solo in parte le proprie risorse specifiche
rete del grid computing è decentralizzata.
Il termine cloud ha avuto origine nel mondo delle telecomunicazioni quando i provider iniziarono ad
utilizzare servizi basati su reti virtuali private (VPN), che permettevano protocolli di condivisione pubblici
tra utenti che appartenevano a una stessa reteidea di una “rete intergalattica di computer” fu introdotta da
Joseph Licklider, responsabile nel 1969 dello sviluppo di ARPANET, l’Advanced Research Projects
Agency Network (Rete dell’Agenzia per i progetti di ricerca avanzati)Licklider fondamentalmente gettò le
basi per il grid computing.

Esistono 4 tipi di Cloud, ma noi ne tratteremo solamente 3:


- IAAS: infrastructure as a service (hardware in remoto);
- PAAS: platsform as a service (piattaforme software);
- SAAS: software as a service (software in remoto).
As a serviceservizio di cloud computing gestito da un provider esterno per conto dell'utentepossibilità̀
di dedicarsi alle attività̀ strategiche, come scrittura di codice e relazioni con i clienti. Ogni tipo di cloud
computing offre possibilità di delegare la gestione di un numero sempre maggiore di componenti
dell'infrastruttura.
IAAS tipo di cloud computing in cui le organizzazioni possono accedere a risorse di calcolo, di rete e di
archiviazione essenziali senza dovere acquistare, installare o mantenere tali risorse in locola maggior parte
delle parti fornitrici di IAAS offre modelli pay-as-you-go=aziende "affittano" le risorse informatiche
risorse accessibili tramite qualsiasi connessione Internet sicura.
PAASaumenta significativamente il numero di risorse IT che è possibile affidare in outsourcingutile
nella semplificazione delle risorse necessarie per codificare, sviluppare e gestire applicazioni personalizzate.
I team di sviluppo e programmazione spesso si affidano alle soluzioni PaaS per fornire un ambiente pronto
per lo sviluppo di app.
modello di cloud computing più completo, SAASgestisce ogni aspetto dell'infrastruttura IT offre
un'intera applicazione completa al client cloud. Ciò include l'assunzione della piena responsabilità per dati,
runtime, sistemi operativi, middleware, virtualizzazione, archiviazione, server e reti Il provider gestisce
inoltre gli aggiornamenti e la manutenzione generale; l'utente deve unicamente connettersi all'applicazione
tramite un browser Web, una dashboard o un’API (application program interface).

Dal punto di vista della fornitura del servizio è possibile distinguere 4 modelli di distribuzione
- Public Cloud;
- Community Cloud;
- Private Cloud;
- Hybrid Cloud.
Public Cloudusiamo giornalmente, es. Google Drivegarantisce una maggiore agilità operativa e una
“scalabilità” illimitata, perché sfrutta le funzionalità e le risorse di calcolo e storage specifiche di grandi
fornitori come Google, Microsoft e Amazon Tuttavia problemi di tutela del dato personalecloud non è
regolamentato.
L’infrastruttura del community cloud specifica comunità di utenti o di organizzazioni che hanno interessi
condivisi. Può essere di proprietà, gestita e resa operativa dall’organizzazione di terzi es. Account
Sapienza da cui accedere ai corsi di Classroomchi non ha mail istituzionale non può accedervi.
Private cloud offre a un'azienda un maggiore controllo e una maggiore sicurezza rispetto a un public
cloud private cloud presenta un’infrastruttura predisposta per l’uso esclusivo da parte di un’unica
organizzazione (con più utenti)usato dalle aziende per garantire una tutela dei dati.
Hybrid cloud due o più strutture cloud distinte, privata pubblica o comunitariaapproccio ibrido
consente alle applicazioni e ai componenti di interagire oltre i confini, tra istanze cloud e persino tra
architetture. Anche per i dati è necessario lo stesso livello di flessibilità di distribuzione e accesso. Es.servizi
di posta elettronica quali Gmail e Microsoft.
La tecnologia cloud offre eccellenti prospettive anche per le applicazioni GIS Tuttavia GIS aveva un
problema, ovvero l’immagazzinamento dei dati che sono molto pesantiaccordo tra Cloud e GIS che ha
fatto nascere GIS CLOUD per gestire, elaborare dati raster e vector ecc. e soprattutto in questo modo si è
arrivata alla creazione di strumenti come con Google MapsGIS cloud è un sistema di tipo SaaSambiente
virtuale e condiviso in cui alcuni utenti, preventivamente autorizzati e con diversi livelli di accesso, possono
interagire da postazioni remote dislocate anche in posti fisicamente molto lontani tra loro, scambiandosi dati
e informazioni, spesso di natura eterogenea, relativi alla creazione e allo sviluppo di cartografie tematiche.
GIS cloudstrumento versatile anche per far emergere i contesti di studio e la loro storia per finalità
divulgative e turistiche. Con suo passaggio al web e al Cloud computing e l'integrazione con le informazioni
in tempo reale tramite l'Internet of Things, il GIS è diventato una piattaforma rilevante per quasi tutte le
attività umane.

Rischi nel Cloud Computing: servizio conveniente, ma rischioso per la conservazione dei datidanno
enorme. I vantaggi sono la scalabilità, la flessibilità e l’ubiquità: grazie a Cloud non bisogna sostenere e
mantenere l’hardware, si paga ciò che si consuma ma! svantaggi: privacy, perché il provider del servizio
Cloud può avere accesso ai dati dell’utente; può esserci migrazione dei dati stessi perché non abbiamo
accesso all’algoritmo che manipola i dati; la sindrome del dé-jà vu, ovvero il progresso tecnologico viene
visto come la soluzione di problematiche amministrative e operative inerenti ai sistemi informatici e
informativi.
I servizi di conservazione utilizzano un software specific, contestualizzabile nel principio del cloud deve
essere di tipo SaaS software utilizzato per la conservazione deve essere basato su applicazioni “multi-
tenant” (noleggiabili da più utenti contemporaneamente con codice non dedicato al cliente, ma uguale per
tutti). I servizi di conservazione sono:
- Submission, detto anche invio, ingerisce i dati in un ambiente di conservazione.
- Characterization detto anche caratterizzazione, identifica le proprietà tecniche, archivistiche e di
rappresentazione dei dati.
- Authenticity detto anche autenticità, cattura e riporta informazioni riguardanti l’identità e l’integrità dei
dati, e l’applicazione dei metodi di autenticazione.
- Preservation Storage, detto anche immagazzinamento, controlla l’archivio dei dati per mantenerne
l’identità, prevenirne la corruzione, e soddisfare gli altri requisiti di conservazione.
- Preservation Change, detto anche cambio di conservazione, governa i cambiamenti tecnologici, come la
migrazione di formato o la sostituzione di software.
- Access, detto anche accesso, fornisce la capacità di consegnare copie di dati.

L'avvento del Cloud computing, secondo Stallmanriproporre l'antica questione del Software free
contrapposto a quello non libero, il rischio è che se all'inizio questi servizi possono apparire più economici (o
addirittura gratuiti) rispetto agli standard attuali, nel lungo periodo possono, invece, rivelarsi costosi.
Questione deve essere affrontata con particolare attenzione nel caso in cui i dati affidati alla gestione del
fornitore dell’infrastruttura da parte dell’utente, titolare del trattamento, riguardino terzi interessati: caso
della pubblica amministrazione.
La ricostruzione del magmatico quadro giuridico in materia di Cloud computing ha evidenziato come
nuova tecnologia sollevi questioni di grande attualitàspunti offerti dal Cloud per una nuova riflessione sui
paradigmi dell’appropriazione: in crisi le teorie da sempre adoperate per sostenere la riducibilità degli
Intellectual Property Rights (l’etichetta dietro la quale confluiscono i detentori di interessi sulle opere
prodotte)diritto alla protezione dei dati personali è un diritto fondamentale della persona, appare nella
Carta dei Diritti Fondamentali dell’Unione Europea (CEDU) che all’art. 8 (ogni individuo ha diritto alla
protezione dei dati che lo riguardano) Tale diritto lo si ritrova anche nel D.Lgs 196/2003 noto anche come
Codice Privacy, all’art.132 fa riferimento ai dati inerenti al traffico telematico, i quali possono essere
conservati dal fornitore del servizio solo per dodici mesi.
unica eccezione per i fornitori di servizi Cloud hanno bisogno di monitorare l’uso per scopi di controllo
della qualità.
A livello mondiale, il mercato del Cloud è aumentato del 4,07% e ulteriore espansione del mercato. La
speranza è che i leader mondiale delle infrastrutture Cloud non influiscano negativamente lo sviluppo per
interessi economici, ma collaborino tra loro per rendere questa tecnologia fruibile a tutti.
Marc Benioff, CEO di Saleforcepotenza del Cloud computing è la democratizzazione della tecnologia.

LEZ 16-STRUMENTI PER L’EDITORIA DIGITALE


Editoriaindustria che si occupa della pubblicazione e distribuzione di libri e opere a stampa (es. giornali e
periodici).
L’editoria elettronicainsieme delle attività editoriali realizzate mediante l’uso di elaboratori elettronici e
volte alla produzione e alla diffusione di testi, documenti, immagini, anche su supporti non cartacei (dischi e
nastri magnetici, CD-ROM, dischi ottici, dispositivi telematici, ecc);
editoria (elettronica) da tavoloproduzione editoriale realizzata, a basso costo, con attrezzatura molto
limitata (ingl. desktop publishing).
Editoria tradizionaleindustria che fa della pubblicazione dei contenuti il suo principale business ruolo
di mediazione tra chi scrive e chi legge che nasce quando viene inventata la stampa a caratteri mobili e si
comincia a stampare in serie.
L’editoria elettronicaevoluzione importantenuova tecnologia ha creato un nuovo modo di concepire la
cultura scrittaesplode mercatoPrima per stampare e distribuire un libro servivano degli intermediari
specializzati, c’era bisogno di tante figure diverse, e per distribuirlo non puoi farlo da privato ma hai bisogno
di contatti e reti Con l’editoria digitale tutto questo è scomparsoprodotti curati dal punto di vista grafico
e contenutistico e distribuirli su una rete virtualmente globale in tempo 0.
Formati diversi in output perché non producono più un libro ma altri tipi di oggetti: i formati di fruizione
finale possono sono completamente diversi. Pdfformato familiare e diffuso, ma esistono anche ePUB o
Mobi creati per determinati dispositivi di lettura, come tablet, telefoni ecc.
Pdfriproduce una forma anastatica di un prodotto analogico, perché pdf ha un layout fisso e riproduce in
maniera grafica la versione che può essere stampata scomodo per altre operazioni.
L’editoria digitale è anche quella degli ebook che sfruttano il mondo digitale appieno, perché non
semplicemente riproducono in maniera digitale i contenuti, ma fa anche pieno uso di multimedia, cioè di
video, di audio, di modelli 3D ecc. che possono essere integrati all’interno di un testo o ipertesto.
La possibilità di condivisione in tempo reale e con costi nulli o limitati almeno in apparenza ha cambiato le
carte in regola di questa industria grandi luoghi online, depositiRepositories. Es Archive.orgsi
propone come l’archivio o la biblioteca di internet, dove possiamo trovare tutto quello che non è coperto da
diritti d’autore. Esso prevede anche la Wayback Machine che crea anche delle istantanee dello stesso web,
dunque in maniera automatica si va a scansire il web e a farsene una copia locale e lo fa ad intervalli più o
meno regolari. Archive.org non mantiene solo i file digitali ma anche gli snapshot di siti e di risorse web
nel tempo.
Repositories di tipo specialisticomondo antico=Perseus digital library.
Jstor.orgRepositories privata che contiene materiale di editoria scientifica di tutti gli ambitirisorsa a
pagamento; Sapienza convenzionata.
Academia.educorporate privata che dà la possibilità di mettere sul proprio sito creazioni originali e
condividerle con una rete che monetizza questo servizio di disponibilità di contenuti.
Slideshare.net si occupa di condivisione di slide, ma anche su piattaforme generali come Facebook e
Linkedin si trovano prodotti editoriali di questo tipo.
Digital Library e altri.

Questioni legate all’editoria digitaledurevolezza, l’accesso, il diritto d’autore/licenze d’uso/Open Access, e


i costi.
La durevolezza=capacità di durare nel tempo funzione del libro o dei contenuti da sempre ha questo
problema della durevolezza; le biblioteche scompaiono, bruciano eccnecessità di trasmettere i contenuti e
la cultura di generazione in generazione. La durevolezza del libro tradizionale molto buona anche migliaia
di anni. Nel mondo digitale il problema principalenon durevoli, ma costa poco possono esserci problemi
tecnici importante avere sottomano un DRP (piano di recupero da un eventuale disastro)Esistono dei
sistemi e delle normative per venire incontro a questa esigenza. In Italia es. per quanto riguarda gli archivi
pubblici digitali esiste una norma che prevede una distanza chilometrica minima di due copie di backup,
perché disastri non arrivino a determinare la scomparsa di tutte le copie.
Importante! LOKSS (Lots of Copies Keep Staff Safe): un sacco di copie tengono al sicuro i nostri prodotti.
La moltiplicazione dei contenuti in generale in copie diverse, formati diversi e custoditi in luoghi diversi
permette di impedire che un singolo evento distrugga tuttodislocazione importante.
Thomas Jefferson ‘salviamo ciò che rimane non con cripte e serrature che le recintano alla vista del
pubblico e lo usino per consegnarlo alla perdita di tempo, ma con una tale moltiplicazione di copie, da
metterle al di fuori della portata del caso.’ importante pubblicare tante copie perché memoria collettiva è
molto più potente di quella del singolo.
Un’iniziativa importante della Standford University software LOCKSS, pensando specificamente per
l’editoria digitale con sede presso le biblioteche di Stanford, fornisce servizi e tecnologie open source per
una conservazione digitale sicura, resiliente e ad alta affidabilità replica i contenuti, li mantiene dentro ma
in momenti prefissati ne fa determinate copie perché anche i dati digitali si corrompono.
Da LOCKSS nasce CLOCKSSiniziativa controllata sugli oggetti digitali, questa volta internazionale, che
usa LOCKSS come sistema ma congregazione di enti librari ecc che fornisce un sistema a livello globale
rivolto a distributori di contenuti, editori ma anche singoli che vogliono conservare a lungo termine un
determinato contenutoinfrastruttura distribuita12 siti attualmente geopoliticamente distribuiti che la
mantengono, istituzioni accademiche importanti che garantiscono la conservazione e l’accesso sul lungo
termine risolvere problemi tecnici, ambientali, economici, e politici; usano tecnologie innovative es.
strumenti interni automatici per riparare file danneggiati ecc.; la parte tecnica è risolta in maniera automatica.
Le peculiarità di CLOCKSS sono:
- INFRASTRUTTURE DISTRIBUITE SICURE: I siti di repository mirror di 12 importanti istituzioni
accademiche in tutto il mondo garantiscono la conservazione e l'accesso a lungo termineresiliente alle
minacce derivanti da potenziali fallimenti tecnologici, economici, ambientali e politici.
- TECNOLOGIA INNOVATIVA: Costruito con la collaudata tecnologia open source LOCKSS,
CLOCKSS conserva le pubblicazioni accademiche nei formati originali. Il meccanismo di polling e
riparazione garantisce la validità a lungo termine dei dati.
- ACCESSO APERTO PERMANENTE: CLOCKSS è l'unico archivio oscuro che assegna licenze
Creative Commons Open Access a tutte le pubblicazioni attivate per garantire che rimangano sempre
disponibili e apertamente accessibili a tutti.
- ORGANIZZAZIONE SOSTENIBILE: collaborazione tra le principali biblioteche di ricerca del mondo
ed editori accademici, CLOCKSS è un'organizzazione indipendente e finanziariamente sicura, governata dal
suo Consiglio di biblioteche ed editori.
CLOCKSS funziona su due livelliCLOCKSS è un archivio oscuro, perché quasi tutti i prodotti editoriali
sono soggetti a copyright; dunque archivio non accessibile, ma se succede un evento scatenatore (trigger
event) che fa sì che l’editore iniziale non fornisca più il servizio di accesso a una determinata risorsa, allora
in quel momento CLOCKSS apre queste risorse e le porta alla visibilità generale come risorsa Open Access.
Tutti gli editori hanno un abbonamento presso questo tipo di servizio. Il sistema raccoglie in automatico o
accetta depositi manuali spontanei da parte di editori sia di metadati che di contenuti archivio
geograficamente e geopoliticamente distribuitoserver non tutti in America, ma vengono coinvolte molte
nazioni diverse ed è tenuto aggiornato in modo automatico.
Tutti i supporti vengono rinnovati hardisk vengono cambiati in modo periodico
Esiste anche PORTICOvelocità della pubblicazione dei contenuti corrisponde anche alla sua volatilità; se
io tolgo un articolo da un determinato sito viene tolto in tempo 0 da tutto il mondo.
L’accesso è un altro fatto importante in questo settoreimportante che gli oggetti digitali siano identificati,
abbiamo un identificatore. URL è il sistema che ci permette anche di localizzate le risorse, oltre il titolo.
In generale esiste anche il concetto di URN, Uniform Resource Name, che non è qualcosa di specifico al
web ma anche es codice fiscale nostro, l’ISBN (International Standard Book Number) Per riviste e
periodici c’è l’ISSN (International Standard Serial Number) URN, sistemi per dare dei nomi a determinate
risorse. Nel mondo digitale il corrispettivo è il DOI (Digital Object Identifier)codice con un URI, un
identificatore alfanumerico stabile, cioè fisso che non cambia per ogni oggetto digitale.
A ogni URI, a ogni identificatore corrisponde un URL. Esiste una banca dati centralizzata dove a ogni codice
corrisponde un indirizzo di destinazione (URL). Attraverso questo tipo di sistema ottengo che posso spostare
le mie risorse nella rete pur mantenendo un sistema di citazione unico. L’indirizzo può cambiare ma il
codice di riferimento deve rimanere lo stesso.

Repositories di metadati es. Europeana Collections per raccogliere informazioni e oggetti digitali sulla
cultura europea. I Repositories online sia di metadati sia di oggetti sono molti: Crossref, Web of Science,
Google Scholar, PubMed, Zotero, Mendeley, ecc
Un altro argomento importanteOpen Access (strumento che dà una garanzia per il futuro) Non significa
solo non pagare per un contenuto, ma è una strategia per proteggere un certo contenutopossibilità per gli
utenti di accedere liberamente e senza costi aggiuntivi ad una pubblicazione online 2 tipologie di Open
Access: il GRATIS OAagli utenti è garantito l’accesso senza costi ai contenuti; o il LIBRE OAoltre
all’accesso senza costi (GRATIS OA) sono garantiti agli utenti anche altri diritti di sfruttamento.
Europa e in Italia quasi tutti i progetti di finanziamento della ricerca obbligano alla pubblicazione in Open
AccessEsistono poi diversi metodi di Open Access:
- Green road: contributi auto-archiviati (pratica del self-archiving) da parte degli autori istituzionali e/o
personali (ad esempio academia.edu)prevede un embargo, ovvero un periodo di tempo trascorso il quale è
possibile per l’autore di auto-archiviare i testi editi in altre sedi; e l’archiviazione del pre-print, ovvero del
contributo prima che venga sottoposto alla redazione editoriale. La green road può essere realizzata in varie
modalità, o tramite embargo o archiviazione pre-print.
- Gold road: contributi pubblicati in riviste che sono direttamente ad accesso libero. Ad esempio la stessa
casa editrice mantiene online un repositories con pdf o HTML di tutti gli articoli di una determinata rivista.
- Diamon Open Access: nessun costo né per gli autori né per i lettori.
Esistono dei depositi ed enti certificatori dell’Open Access, ad esempio DOAJ o DOAB.
si dice che il digitale non costa nulla rispetto ad altre pubblicazioni, come libri cartaceigrafici
semplificatorilibro cartaceo ha dei costi iniziali molto grandi: per la produzione e il magazzino ma dopo
sono costi che ammortizzi vendendo i libri e guadagnando inoltre gli altri costi calano con il tempo.
Nell’editoria digitale questi costi iniziali non ci sono, almeno non completamente perché non c’è la stampa, i
costi di distribuzione, di trasporti ecc. Ma i costi del digitale nel tempo tendono ad aumentare, ad
essere costantemente in salita, perché manutenzione dei Repositories, l’aggiornamento dei metadati e il
rinnovo dei supporti hanno dei costi sempre più crescenti. La gestione dei contenuti digitali e le garanzie di
accesso e accessibilità vanno oltre la prospettiva di vita nostra e tutto questo ha un costo.
Zenodo è una piattaforma creata dal Cern di Ginevra, una piattaforma aperta dove chiunque si può iscrivere
e creare un account e depositare i nostri oggetti digitali gratuitamente, senza limiti di spazio e di tempo. Per
ogni oggetto esso ci dà anche un DOI, così abbiamo la possibilità di citarlo.

Potrebbero piacerti anche