Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INFORMATICA-> coniato anni ’60-> Philippe Dreyfus, dal fr. Informatique (contraz. Information
e automatique) disciplina che si occupa della progettazione e della costruz di macchina in grado
di trattare o elaborare in modo automatico l’informazione.
Engcomputer science e information technology (IT)
Telecomunicazioni si occupano della trasmissione dell’informazione a distanza con lo scopo di
comunicare INFORMATION & COMUNICATION TECHNOLOGY (ICT) non solo tecnica ma
anche alla comunicazione, ovvero alla trasmissione e al trattamento a distanza dell’informazione.
Informatica compito di codificare un problema e cercare di risolverlo in maniera autonoma con poco
coinvolgimento umano. Questa scienza è basata generalmente su tre concetti: quello di dato, quello di
informazione e quello di conoscenza.
Datoqualcosa di molto concreto che viene espresso con i simboli: non per forza porta informazioni ma è
qualcosa che esiste, materiale ed esplicito es. ideogrammi e gatto bianco.
Informazione la porta il dato. Gatto bianco ed ideogrammi= certo tipo di informazione codificato sotto
forma di dato ma sono simboli/segni equivalenti che pescano da un determinato set (un alfabeto finito) e che
trasmettono una determinata informazione.
Diversi livelli di informazione quella di primo livello e la conoscenza sempre relativa a un certo
dominio ed è un’informazione molto più approfondita e interconnessa.
codifica del mondo naturale in simboli e la loro manipolazione in maniera automatica è uno dei compiti
principali dell’informatica
uomo ha sempre cercato di costruire strumenti che lo aiutassero nel suo lavoro
abaco Cina, 2000 a.C. poi diffuso tra greci e romani sistema di calcolo manuale basato su una
rappresentazione numerica posizionale (stessa cifra assume pesi diversi a seconda della posizione)
avviene dunque la codifica
Macchina di Anticitera nome dal luogo di rinvenimento della macchina, contenuta in un relitto
fatta di ruote dentate e ingranaggi una specie di calendario che codifica il moto delle stelle e degli astri
attraverso ruote dentate, per tenere traccia del tempo e per prevedere eventi astronomici ricorrenti (equinozi,
mesi, giorni, eclissi ecc) strumento assolutamente meccanico che risolve il problema di calcolare il tempo
ed eventualmente prevedere alcuni fenomeni astrali.
Pascalina Blaise Pascal, 1642 esegue addizioni e sottrazioni di numeri composti da un massimo di
dodici cifre, operando automaticamente i riporti.
Macchine finora avevano obiettivo mirato e ben specifico. Tuttavia, al di là di risolvere un problema
puntuale, l’uomo cerca da sempre di fornire la risposta universale a tutto. (special/single purpose<->
general purpose)
Charles Babbage il primo a introdurre il concetto di calcolatore programmabile progettò analytical
engine (macchina in grado di operare in input ed output su schede perforate, dotata di memoria che poteva
contenere 1000 numeri di 50 cifre decimali ciascuno), ma che non realizzò per mancanza di fondi-> unità
aritmetica indipendente in grado di eseguire 4 operazioni aritmetiche, confronti e radici quadrate macchina
programmabile ed elementi che potremmo definire parte di una memoria espandibile, poiché la memoria su
cui lavora può essere allargata.
Prima programmatriceAda Lovelace Charles Babbage a Torino tiene una lezione sulla sua macchina,
invitato da Luigi Menabrea che trascrive la sua lezione in francese-> note di questa lezione vengono
condivise con Ada affinché venissero tradotte anche in inglese non solo traduzione studia la macchina+
corrispondenza con Babbage stessoscrive articolo scientifico e oltre alle informazioni di Babbage inserisce
nota G (tentativo di dire come usare la macchina, ad esempio per calcolare una sequenza numerica famosa
con applicazioni pratiche, come i numeri di Bernoulli primo software)
Ada dice che la macchina analitica può agire anche su altre cose, risolvere altri problemi attraverso codifica
formale.
Per informatica bisogna utilizzare la logica booleana cerca di risolvere qualsiasi tipo di asserzione in due
risultati possibili, vero e falso.
Ci hanno lavorato Gottfried Wilhelm (von) Leibniz , George Boole (per primo ha formalizzato questo tipo
di logica), e Akira Nakajima.
Boole per esprimere le asserzioni vero e falso in simboli matematici sceglie 0 e 1 0 (falso) o 1 (vero).
Operazioni fondamentali somma logica (data da AND oppure ^), il prodotto logico (dato da OR
oppure v) e infine la negazione (data da NOT oppure ¬).
La logica booleanaalla base dei linguaggi per l’informatica.
Calcolo automatico ha portato a molte riflessioni teoriche es. a cavallo tra filosofia e matematica (e
dunque logica) è quella di Kurt Friedrich Gödel, matematico che definisce i due teoremi
dell’incompletezza.
Il secondo Qualsiasi sistema informatico, qualsiasi logica sono incompleti, non possono contenere tutto
poiché in ultima istanza manca la spiegazione di sé stessi un qualsiasi sistema formale non può essere
usato per spiegare sé stesso
Konrad Zuse Z3 primo elaboratore di tipo digitale elettromeccanico e alimentato ad energia elettrica
/programmabile/ basato su relè elettromagnetici.
Thomas Harold Flowers Inghilterra Colossus primo calcolatore completamente elettronico, basato
su valvole termoioniche (o tubi a vuoto) dispositivo di memoria= nastro perforato attraverso i cui buchi
si registrano l’automazione binaria semplice.
USA John Mauchly e John Presper ENIAC (primo calcolatore elettronico universale (general
purpose)) Electronic Numerical Integrator and Computer pesanti limiti della tecnica di
progrmammazione EDVAC (Electronic Discrete Variable Automatic Computer) impiego di
un’aritmetica non più decimale ma binaria+ unico dispositivo di memoria per istruzioni e dati.
Anni ’50 transistor dispositivi formati da semiconduttori che sostituirono valvole termoioniche molto
meno costosi, più veloci e compatti
Anni ’60 circuiti integrati (microchip) circuiti elettronici miniaturizzati introduzione del
microprocessore
Legge di Mooreil numero di transistor che possono essere integrati in un unico circuito raddoppia
approssimativamente ogni 2 anni con la stessa velocità si evolvono caratteristiche dei dispositivi quali la
velocità di elaborazione e la capacità di memorizzazione.
DISCHI OTTICIletti tramite un apposito drive (lettore) con l’ausilio di una luce laser
Disco ottico costruito a strati: disco di materiale plastico (substrato), strato riflettente, strato di vernice
protettiva, etichetta
Su substrato lunghissima traccia a spirale Pit (fosse per codificare i dati) e land (superficie piana tra i
pit)
ROM sola lettura; WORM write once read many supporti scrivibili; re-recordable, RW, Read
Write supporti riscrivibili
CDpiù vecchio, lunghezza d’onda molto ampia (vicino all’infrarosso) CD ROM, CD-R, CD-RW
DVD materiale audiovisivo, laser di colore rosso con lunghezza onda inferiore a CD
BD (blu ray disk)laser di colore blu-violetto, materiale audiovisivo ad alta risoluzione
MEMORIE FLASH EEPROM supporto il cui contenuto informativo può essere scritto o cancellato e
riprogrammato mediante processi elettrici capacità intermedia tra RAM e disco rigido
Tipologie: memory card, drive USB, drive a stato solido
Morse sistema economicolettere usate più frequentemente = lunghezza corta; lettere meno
usuali più lunghe sistema non perfettamente binario (silenzio breve che distingue le lettere e il silenzio
lungo che distingue le parole) tecnicamente sistema a base 4.
Character encoding ASCII (American Standard Code for Information Interchange) standard creato
dall’ANSI (American National Standard Institute) per la codifica delle informazioni testuali
Prima ogni computer proprio sistema operativo e proprio sistema di codifica delle informazioni ciò che
scrivevo in un computer in un altro non riuscivo a leggerlo sistemi diversi
Necessaria base comune, a livello prima americano, poi internazionaleASCII =tabella di concordanza tra
un codice binario, le lettere dell’alfabeto e la punteggiaturabase dell’editoria dei testi elettronici
ASCII base di 8bit, quindi ogni pezzo di informazione è lungo 8 caselle, però per la codifica solo 7,
mentre ultimo bit solo di controllo (primi 7 per definire l’info e l’8 è un controllo statistico)base reale è
7bit, che produce 128 elementi128 grafemi (alfabeto, segni di interpunzione, segni matematici come
parentesi, + o -, poi ci sono controlli vari come spazio, stampa ecc) tuttavia limiti sistema adatto solo
all’inglese, non includendo caratteri speciali delle altre lingue.
ASCIIbase a 8bit vera 256 grafemi possibili possibile implementare simboli come le vocali accentate
Ma non ancora sufficienteUNICODE progetto internazionale supportato da vari enti governativi e
non standard continuamente aggiornato range di quasi 140 sistemi di scrittura, sia in uso che morti,
storici es greco antico, copto.
Unicode affronta anche problema della letteratura pregressa tante caselle possibili e ogni casella ha un
grafema particolare.
Nel mondo umanistico già prima dell’arrivo dello Unicode necessità della codifica di testi in scritte non
latine Betacode (Fondazione Packard, diretta da David W. Packard, filologo classico)necessità di
codificare in formato elettronico la letteratura greca, quella latina ecc e in ASCII non era possibile.
Betacode utilizza l’ASCII come formato, inserisce all’interno del computer caratteri in ASCII e poi usa un
layer, uno strato informativo in mezzo per tradurre queste informazioni es. se scrivo A intendo alfa, se scrivo
B intendo beta.
ergo Betacode è un modo di rappresentare il greco e altre lingue utilizzando come codifica l’ASCII
rappresentare in maniera fedele i testi
es. sulla tastiera scrivo g, sullo schermo vedo gamma, ma nel computer viene salvato g
Unicodesistema espandibile perché ogni casellario è espandibile. Unicode estende ASCII, ma non lo
sostituisce tabelle possiedono anche delle caselle vuote, che servono per eventuali nuovi caratteri che
vengono
scoperti in documenti antichi.
Fontrappresentazione grafica che varia a seconda dei sistemi di codifica prefissati, delle informazioni
vettore che sullo schermo rappresenta una codifica che può essere sia ASCII sia Unicode (informazione di
codifica è il corpo, il font è un vestitolo stesso corpo può indossare vari vestiti)
Font specializzati in una determinata grafia, infatti non esistono font universali; il Times New Roman ad
esempio, uno dei Font più conosciuti, copre tante grafie ma non copre tutto il casellario Unicode.
Font specifici: es se scrivo in russo verosimilmente ho un font specifico che mi copre l’alfabeto cirillico;
tanti Font specialistici implementano in forma privata le caselle dello Unicodeattribuiscono un grafema
anche a quella casella
Alcuni Font iper-specializzati in un determinato settore per guadagnare espressività implementano dunque
anche caselle private rischio: non può essere letto in maniera universale poiché solo io che ho scritto quel
Font posso interpretarlo si rischiano conflitti in caso quest’ultimo voglia riempire proprio quella casella.
font non ha solo un lato estetico ma anche uno funzionale.
Fonteredità che ci arriva dalla vecchia editoria: quasi tutti quelli che usiamo = creazioni dal ‘600 in poi di
case tipografiche specializzate es. Helvetica di Gary Hustwit è uno dei più conosciuti.
Perseus project partito dagli autori greci e latini e attualmente sta inglobando testi letterari di vari tipi di
culture, anche contemporanee mantengono codifiche diverse per non legarsi ad un sistema specifico,
sorta di biblioteca che deve conservare e pubblicare testi e mantenere tutte le codifiche possibili per avere
sempre strumenti di trasformazione possibilità di avere diverse rese grafiche dello stesso testo pescando da
codifiche diverse, sia legate a specifici Font o layout di tastiera, a traslitterazioni, al Betacode o vari tipi di
Unicodeformati più nuovi non sostituiscono quelli vecchi ma si fanno trasformazioni controllate.
ASCII, Unicode e Betacode non allo stesso livello
Le punte della montagna sono l’ASCII e lo Unicode, ma sotto di loro ci sono milioni di esperimenti fatti in
diversi settori es. Betacode.
Unicode= standard internazionale, il Betacode è un esperimento di professionisti del settore fatto per cercare
di risolvere un problema specifico (standard vs. esperimenti scientifici specifici).
Marcatura descrittiva si divide il testo in unità logiche, e dunque la uso per dire qualcosa sui contenuti
del testo o sulla struttura, non sulla resa grafica es indicando il titolo dell’articolo e il primo paragrafo
Livello di astrazione superiore descriz del testo dal punto di vista del contenuto
Word permette di fare sia marcatura procedurale che descrittiva, dipende da che operazione facciamo
La marcatura descrittiva ha diversi vantaggi:
composizione del testo semplificata;
più attenzione alla struttura del testo;
Ci possono essere rese grafiche alternative del documento fogli stile;
formattazione può essere gestita in maniera centralizzata;
La creazione dell’apparato testuale può essere automatizzata. Se usiamo intestazioni su Word
possiamo ad es creare un indice in maniera automatizzata (come per la tesi di laurea);
portabilità e interoperabilità, di modo che se cambiamo programma non cambia il testo;
fornisce un supporto per il recupero automatico dell’informazione, poiché il documento viene
trattato come un database;
Infine dà la possibilità di eseguire procedure analitiche, stilometrice, ecc.
Quindi anche quando dobbiamo dare output grafico, la marcatura descrittiva è dunque lo strumento vincente.
Un testo organizza contenuto in diversi livelli modello gerarchico struttura OHCO (Ordered Hierarchy
of Content Objects) per descrivere qualsiasi testo dal punto di vista strutturalepensiamo al testo come
struttura concettuale
content objects possono anche essere chiamati “elementi”.
SGML Standard General Markup Language (linguaggio di marcatura standard generalizzato). Da quando
usiamo le macchine da scrivere elettroniche abbiamo dei caratteri speciali che codificano il testo elettronico,
che danno informazioni sulla formattazione. L’ASCII stesso ha delle caselle specifiche che danno istruzioni
alla macchina ma non di contenuto.
Dal 1960 circa si comincia a utilizzare dei marcatori, tag descrittivi fine degli anni ’60 si è proposto uno
standard Gencode(R) fino ad arrivare a un comitato che standardizza e formalizza prima il GML e poi lo
standard.
Breve storia dell’SGML. Storicamente i manoscritti elettronici contenevano codici di controllo o macro che
causavano la formattazione del documento in un modo particolare ("codifica specifica").
Al contrario, la codifica generica, alla fine degli anni '60, utilizza tag descrittivi
inizio del movimento di codifica generico presentazione fatta da William Tunnicliffe, presidente del
Comitato di composizione della Graphic Communications Association (GCA), durante una riunione al
Canadian Government Printing Office nel settembre 1967 argomento: separazione delle informazioni,
contenuto dei documenti dal loro formato.
Fine degli anni '60, un designer di libri di New York, Stanley Rice, propose l'idea di un catalogo universale
di tag "struttura editoriale" parametrizzati.
Norman Scharpf, direttore del GCA ha stabilito un progetto di codifica generico nel Comitato di
composizione il "concetto GenCode(R)", riconoscendo che erano necessari codici generici diversi per
diversi tipi di documenti e che i documenti più piccoli potevano essere incorporati come elementi di quelli
più grandiprogetto si è evoluto nel Comitato GenCode
Nel 1969, Charles Goldfarb stava conducendo un progetto di ricerca IBM sui sistemi informativi integrati
degli uffici legali. Poi con Edward Mosher e Raymond Lorie Generalized Markup Language (GML)
GML (iniziali dei suoi tre inventori)basato sulle idee di codifica generiche di Rice e Tunnicliffe. Invece di
un semplice schema di tagging, GML ha introdotto il concetto di un tipo di documento definito formalmente
con una struttura a elementi annidati esplicita sostanziale accettazione da parte del settore.
La stessa IBM, secondo editore più grande del mondo, ha adottato GML e ora produce oltre il 90% dei suoi
documenti con esso Dopo il completamento di GML, Goldfarb ha continuato ricerca sulle strutture dei
documenti, creando concetti aggiuntivi, come brevi riferimenti, processi di collegamento e tipi di documenti
simultanei successivamente sviluppati come parte di SGML.
Nel 1978, American National Standards Institute (ANSI) ha istituito il comitato dei linguaggi informatici per
l'elaborazione del testo, presieduto da Charles Card, allora di Univac, con Norman Scharpf come membro.
A Goldfarb fu chiesto di unirsi e, infine, di guidare un progetto per uno standard di linguaggio di descrizione
del testo basato su GML. Comitato GCA GenCode fornì un nucleo di persone dedicate al compito di
sviluppare il design del linguaggio di base di Goldfarb per SGML in uno standard.
La prima bozza di lavoro dello standard SGML pubblicata nel 1980.
Nel 1985 pubblicata una bozza di proposta per uno standard internazionale e l'International SGML Users'
Group è stato fondato nel Regno Unito da Joan Smith (primo presidente) ruolo: educare il pubblico
all'SGML poi dopo altro anno di revisione e commento testo finale!
GMLnon definisce un vocabolario unico per tutti, non inventano un linguaggio di marcatura ma
definiscono un metalinguaggio (insegnano come scrivere un linguaggio per formattare un testo) per
evidenziare una certa parola deve essere circondata da determinati caratteri.
Ergo! Metalinguaggio = linguaggio che ci permette di scrivere altri tipi di linguaggi.
Quando è stato definito lo standard negli anni ’70 sguardo verso il futuro, perché un’applicazione che
aderisce allo standard SGML lo è tale anche nel futuro standard anche per successive applicazioni.
strumento fondamentale che da una parte dà strumenti a chi usa i testi per crearsi i propri strumenti, dall’altra
ha permesso di mantenere centralizzata la gestione di questi tipi di strumenti per permettere interoperabilità.
Tuttavia l’SGML ha dei limiti:
struttura pesante;
troppo poco formalizzato per essere gestito dagli elaboratori, dunque anche il software difficile da
sviluppare perché le variabili sono tante;
troppe funzioni sono opzionali;
standard è troppo di alto livello, le regole sono troppo astratte per essere elaborate all’interno di un
elaboratore. strutture troppo pesanti e non abbastanza robuste per l’editoria digitale, cioè per il web
Inoltre sono obbligatori DTD (una descrizione formale della grammatica di un linguaggio markup;
Document Type Definition) e uno StyleSheet, e anche una validazione del documento.
Implementazione dell’SGML HTML, il linguaggio con il quale è scritto il web (Hyper Text Markup
Language). Non esiste un documento che noi guardiamo sul web che non è stato scritto in HTML.
Ideato nel 1990 (da Tim Benners Lee con lo scopo di sviluppare sistema di pubblicazione per tenere in
contatto comunità internazionale dei fisici) , ma fino a pochi anni fa l’HTML =uno dei tanti linguaggi che
sono stati fatti a partire dalle regole dell’SGML
Esiste una versione più recenteHTML5
L’HTML è uno strumento ibrido perché prevede marcatori sia di tipo descrittivo che procedurale.
Il web non è una piattaforma implementata da professionisti ma da gente comunepieno di documenti
invalidi (sintassi con errori)
Il Markdown è un altro linguaggio di marcatura molto semplice Whatsapp usa un linguaggio di marcatura
derivato proprio da quest’ultimo. Si tratta dunque di un linguaggio di marcatura leggero finalizzato a scrivere
un testo strutturato in maniera semplice che possa poi essere convertito in (X)HTML valido.
XML
Creato nel 1996 dal World Wide Web Consortium (partecipato sia da enti governativi che da industrie es
Apple e Amazon che si occupa di definire delle buone norme per il web, ma che non rilascia standard,
ovvero delle specifiche stringenti, ma rilascia delle raccomandazioni), un consorzio che definisce le buone
norme da usare sul web. Nel 1996 definita la prima bozza, nel 1997 viene rilasciata una proposed
recommendation e nel 1998 una recommendation (raccomandazione=di fatto è uno standard, è una norma
approvata dai massimi esperti di questo settore)
XML nasce con questa prima esigenza di definire un metalinguaggio che fosse più rigido rispetto all’HTML.
L’XMLversione semplificata dell’SGML, che non implica DTD e che deve essere ben formattato,
extendibile perché dà la possibilità di creare tag personalizzati.
Caratteristiche:
linguaggio a marcatori, tag che descrivono la struttura e la forma di un determinato documento;
Ogni marcatore identifica un elemento o un componente del documento;
I marcatori vengono inseriti all’interno del documento;
Sia il testo, sia i marcatori sono memorizzati in formato ASCII.
XML usa la codifica dei caratteri UNICODE
documento XML è leggibile anche da utente umano senza la mediazione di un software specifico.
Linguaggio facilmente leggibile sia da un umano che da una macchina e anche per questo sistema è valida
struttura ad albero elemento (documento) che fa da radice (root), all’interno del quale vengono nidificati
gli altri elementipossono trovarsi al di fuori solo i commenti (sezioni di testo ignorate dal programma,utili
a inserire osservazioni e annotazioni) e le direttive di elaborazione (es. dichiarazione della versione di XML
utilizzata).
Diff con HTML se facciamo errore di sintassi salta tutto nell’XML; metalinguaggio pensato per definire
una struttura molto rigida. Es errore di sintassi: mancanza dei marcatori di inizio o di fine del paragrafo (<)
oppure tag sovrappostila regola della gerarchia ordinata non dev’essere violata.
Attributi (informazioni aggiuntive) devono essere racchiusi da virgolette alte
XML è case sensitive maiuscole e minuscole che non vanno confuse codici binari diversi (questo già
all’interno dell’ASCII).
XML usato per tutto, dal scrivere pagine web, al produrre documenti da pubblicare online, ma soprattutto per
strutturare dati.
Inoltre l’XML veniva usato anche per la trasmissione di dati da un computer all’altro.
L’XMLformato ridondante, pesante da usare per tanti dati.
Metalinguaggio no vocabolario o elenco di tag da imparare a memoria ci si può inventare propri tag
oppure linguaggio figlio che si basa sull’XML
XML è tutt’ora lo standard per strutturare tutta una serie di documenti. Nell’HTML invece non posso
definirmi i tag.
questo standard basa il proprio lavoro sull’XML in generale file TEI non è altro che un documento XML
che presenta una struttura ben definita.
TEIvocabolario molto grande di tag che si possono usare per definire vari tipi di testi Tutti i file TEI si
strutturano grosso modo così: in primo luogo c’è l’intestazione, dove ci sono dei metadati (che si riferiscono
a cosa dice il testo, chi ha pubblicato testo, ecc ovvero sono informazioni sul testo/opera); poi c’è la parte del
body (corpo dove si trova il testo marcato, con tutti gli strati informativi che aggiungo man mano).
L’intestazione fondamentale perché un documento senza metadati risulta monco.
La vera differenza tag, perché sono diversi a seconda di che cosa sto marcando (es. variano in base al
dominio, es. teatro o storia antica uso tag diversi).
TEI= linguaggio perché definisce un vocabolarioPer definire un vocabolario che comprenda tutta la
specificità delle scienze umane, questo vocabolario ha una grande espressività e risulta enorme di
conseguenza è difficilmente usabile Molto spesso viene detto che TEI è un accordo su come esprimere il
disaccordo tanti studiosi diversi guardano lo stesso oggetto, un pezzo di testo sotto punti di vista diversi e
hanno necessità di marcarlo, di commentarlo ecc secondo esigenze diverse.
Che cosa codifica il TEI, e in che ambiti viene utilizzato?
L'infrastruttura TEI
L'intestazione TEI
Elementi disponibili in tutti i documenti TEI
Struttura del testo predefinita
Caratteri, glifi e modalità di scrittura
Verso
Testi di performance
Trascrizioni di discorsi
Dizionari
Descrizione del manoscritto
Rappresentazione delle Fonti Primarie
Apparecchio critico
Nomi, date, persone e luoghi
Tabelle, formule, grafica e musica notata
Corporazioni linguistiche
Collegamento, segmentazione e allineamento
Meccanismi analitici semplici
Strutture delle caratteristiche
Grafici, reti e alberi
Strutture non gerarchiche
Certezza, precisione e responsabilità
Problema del TEI davanti ad una parola abbiamo a disposizione un numero elevato di possibili tag che
possiamo usare, e molto spesso non si sa quali usare moltissime opzioni tutte validesfumature diverse di
significato.
Anche all’interno del TEI sottogruppi di lavoro che sostengono che avendo un vocabolario molto grande
bisogna fare un vocabolario specifico per ogni settore selezionare i tag che funzionano nel loro ambito e
creare un sotto-standard es Per l’epigrafia, vocabolario si chiama EPIDOC, utile per le integrazioni che
molto spesso fa un epigrafista su un testo antico; ma anche dei marcatori specifici per indicare i numerali
Linguaggio di programmazione linguaggio formale (non ambiguo a diff del linguaggio naturale) usato
per scrivere algoritmi.
Linguaggio scritto, comprensibile agli uomini ma che è facilmente intellegibile anche da una macchina.
programma software, algoritmo espresso in un dato linguaggio di programmazione.
Compilatore riceve in input intero programma in linguaggio di alto livello (programma sorgente) e
produce in output la sua tradizione in linguaggio macchina (programma oggetto).
Interprete riceve in input programma sorgente e ne traduce le singole istruzioni facendole eseguire
direttamente.
es traduzione traduzione simultanea in una conferenza linguaggio interpretato
Traduttore che traduce e poi pubblica linguaggio compilato.
linguaggio compilato prevede la compilazione meno immediato, più difficile e meno veloce dei linguaggi
interpretati, però più accurato.
Java Scriptlinguaggio che permette di programmare, ma a sua volta
linguaggio interpretato interprete è Chrome, un browser. Chrome è
scritto attraverso C++, un linguaggio di programmazione, a sua volta
compilato in uno intermedio, Assembly (un altro linguaggio di
programmazione), a sua volta riscritto in codice binario in quelli che
vengono chiamati Relocatable Object Code.
Ogni operazione es fare click o spostare il mouse intervengono tutti questi vari livelli: il nostro input
scende a catena fra vari linguaggi software fino ad arrivare al microprocessore e poi ritorna al mittente per
trasmettere il risultato.
Software
Azienda commissiona a una software house in genere committente acquista dal produttore anche versione
sorgente e titolarità del diritto d’autore.
Altri casi produttore immette prodotto sul mercato, mantenendo titolarità diritto d’autore e concedendone
la licenza d’uso che consente l’utilizzo del prodotto su un numero limitato di calcolatori.
Alcuni prodotti vengono distribuiti via internet con licenza shareware (prodotto può essere liberamente
ridistribuito, può essere utilizzato per un periodo di prova che di solito dura un mese).
Licenza freeware prodotto distribuito gratuitamente dal titolare del diritto d’autore che può decidere se
fornire anche la versione sorgente—copiato e distribuito liberamente.
Software libero e software open source entrambi distribuiti con versione sorgente dal titolare del diritto
d’autore che ne incoraggia l’uso, lo studio, modifiche e redistribuzione a titolo gratuito ma nel rispetto di
alcune regole:
Versioni modificate devono sempre menzionare autori delle versioni precedenti;
Non si può distribuire software originario o modificato con licenze incompatibili con quella
originaria;
Software originario o modificato deve sempre essere distribuito anche in formato sorgente
si possono distinguere tra software applicativi o software di base.
software applicativi usati in ambiti ben precisi es. video-scrittura, fogli di calcolo, presentazioni, gestione
di banche dati, grafica, organizer (agende, rubriche), multimedia, posta, navigazione, ecc.-->dominio ben
preciso.
Software di base (sistemi operativi)differenza con software applicativi a volte è labile.
Componenti del sistema operativo:
Nucleo (kernel= gheriglio, nocciolo) gestisce la CPU e il suo impiego da parte dei programmi.
gestore della memoria gestisce allocazione della RAM ai programmi in esecuzione.
Gestore dei dispositivi di I/Ogestisce le periferiche e le relative operazioni di input/output.
File system gestisce l’archiviazione e il reperimento dei dati sulle memorie di massa
Gestore della rete gestisce comunicazione con altri calcolatori connessi in rete, condivisione
delle risorse locali e utilizzo delle risorse lontane.
Interprete dei comandi gestisce interazione con l’utente
Sistema operativo gestisce anche il supporto per la grafica, il desktop ecc i sistemi operativi sono molti:
Windows, MacOs, Linux, FreeBSD, redhat, SunCobalt, Solaris, eccetera.
3 famiglie principali di sistemi operativi: Linux (che comprende Android ad esempio), Unix
& Unix-life (che comprende MacOS ad esempio), e il mondo Windows (GUI basato su finestre).
UNIXprogetto sviluppato da Dennis Ritchie, Ken Thompson, Douglas Mcllroy e Joe Ossanna sigla
(Uniplexed Information and Computing Service). Nasce all’inizio degli anni ‘70 presso i laboratori della
AT&T (grande azienda di telecomunicazioni americana che si occupa anche di ricerca e sviluppo); essa
possedeva dei laboratori Bell dove si facevano vari tipi di sperimentazioni.
1971 questo progetto viene scritto in un linguaggio di medio livello (Assembly)riscritto nel 1972 in C.
UNIX sistema generico che per la prima volta può essere installato su una varietà di hardware diversi.
Prima chi produceva una macchina grossomodo si occupava anche di scrivere il software di base che la
gestiva (hardware e software erano integrati nei primi computer) UNIX scinde le due cose primo
sistema operativo che può essere installato su architetture molto diverse.
UNIX è basato sull’elaborazione del testorapidissima diffusione sia nel mondo dell’industria (perché
ottimizza le macchine di allora rendendole più piccole ed economiche, permettendo loro di svolgere compiti
più onerosi) sia nel mondo universitario e della ricerca in generale.
UNIX prima interfaccia CLI (interfaccia a linee comando), poi GUI.
UNIX= progetto di ricerca continuamente sviluppato in maniera aperta e collaborativa
Per un cavillo legale AT&T non poteva vendere UNIX dunque UNIX veniva distribuito in maniera
gratuita diffusione e uno sviluppo molto importante e veloce.
Sviluppati tra fine anni ’70 e l’inizio degli anni ‘80 anche dei sottosistemi di UNIX BSD o il System V.
Le cose cambiano all’inizio degli anni ’80 UNIX diventa un prodotto commerciale perché cambia lo
statuto giuridico dell’AT&T (nel 1984 si separano dai Bell Labs) e cominciano a vendere questo software
proprio perché diventa un prodotto commerciale, non era più permesso modificare il codice.
Diversi attori principali che hanno visto la crescita di questo software non sono d’accordo con questa politica
commerciale scindono la loro partecipazione a UNIX e creano progetti diversi.
Nel 1983 nasce ad esempio il GNU Project grande progetto che si fa in contrapposizione a UNIX
reputano che progetto di ricerca deve essere disponibile gratuitamente creazione di progetto parallelo
riscrivono UNIX da capo con un altro codice creazione di prodotto con le stesse funzionalità di UNIX, ma
gratuito e libero.
1991 a UNIX viene donato anche un sistema per gestire il Kernel. Anche
Il Kernel di GNU creato grazie a Linus Torvalds, un dottorando da allora viene rilasciato sotto il nome di
Linux. Dunque Linux è solo il Kernel e quando parliamo di Linux, in verità parliamo di GNU Linux,
(matrimonio tra il Kernel Linux e il progetto GNU che offre la parte applicativa)
Al suo interno Linux è un ecosistema gigantescotantissime distribuzioni
Diffusione sistemi operativi nel mondo del desktop/laptop, gran parte degli utenti utilizzano Windows; per
quanto riguarda i server maggior diffusione i sistemi Linux, più sicuri e performanti dei sistemi Windows nel
campo specifico dei server.
Grafica
Prima fondamentale introdurre differenza tra analogico e digitalemodi diversi di rappresentare una
quantità o di rappresentare una variazione di una determinata grandezza, che può riferirsi a un qualsiasi tipo
di informazioneanalogico o anche detto continuo, oppure un modo digitale detto anche discreto.
L’analogico corrisponde ad una grandezza che varia in maniera uniformetra due misurazioni possiamo
farne un’infinità di altre; una variabile analogica può assumere un numero infinito di valori.
Grandezza che varia in maniera discreta, a scatti, a step finiti, numero finito di valoridigitale.
grandezza digitale può assumere un numero finito di valori, di stati intermedi, non infinito.
Tempo lettura che ne diamo sempre digitale, meridiana-> ombra cresce in analogia con il tempo, quindi
strumento analogico, ma lettura del tempo è sempre sottoposta a divisione in numero finito di valori, quindi
digitale.
Ergo un’unità che varia in maniera continua analogica; l’unità di misura che invece varia a stepdigitale.
codifica è binaria, per cui 0 e 1 sono misure discrete, finite.
corrispettivo analogico di un’immagine sul computer vecchie pellicole che si usano in fotografia
La luce naturale reagiva con il materiale fotosensibile e dava un’immagine analogica.
Se immagini digitali vengono ingrandite unità minime, cioè i pixel (contrazione di picture element)
immagini fatte da pixel sono digitali.
Esistono due tipi differenti fondamentali di grafica: la grafica raster e la grafica vettoriale.
Raster (significa ‘trama/reticolo/griglia’), di derivazione latina (da ‘rastrum’ che significa ‘rastrello’).
Immagini raster sono fatte da una griglia (bitmap o pixmap) composta di colonne e di righe, dunque di
elementi semplici di formato rettangolarepixel scacchiera e ogni cella è un pixel (unità minima)
Pixel può rappresentare un unico colore informazione dentro un pixel è omogenea e relativa al colore.
Caratteristiche principali delle immagini raster: la risoluzione, la profondità colore e il modello colore.
La risoluzione può essere espressa in vari modi: in generale conta definitiva dei pixel di un’immagine es
46px di larghezza e 40 px di altezza (questo non dà la qualità in assolutonon qualità dell’immagine).
Risoluzione può essere espressa anche con un’altra unità una specie di campionamento che definisce uno
spazio fisico (1 cm x 1 cm)conteggio in una unità fisica es: in 1 cm2 quanti pixel ci sono? --> densità dei
pixel, non conteggio totale L’unità solitamente usata per questo sistema è il PPI o DPI (pixel in un pollice
quadrato)Più è risoluta un’immagine, più è definita e più è pesante.
Vari standard per la risoluzione; sul web uno dei più diffusi è quello dei 72 PPI per la risoluzione delle
immagini che vengono salvate rapporto minimo
Per la stampain base alle stampanti o gli strumenti tipografici per l’output su carta: nel mondo dell’editoria
richiesta una risoluzione minima di 300 PPI per le immagini da stampare.
Profondità del coloreil numero di bit impiegati per codificare il colore associato a ciascun pixel più bit
ho più l’immagine è completa es. Con 8bit ho 256 tonalità di grigio.
Avendo come base di codifica i bit, usa il sistema ASCIItesti e immagini da questo punto di vista sono
uguali sistema più o meno espressivostandard che utilizziamo oggi per gran parte delle immagini8bit.
modelli di coloristudiati dall’otticamodo univoco per definire delle tonalità noi percepiamo il colore
tutti in maniera diversa ma c’è bisogno di uno standard, preso dalle leggi dell’ottica che scompongono i
colori in unità base.
modelli di colore più diffusi sono RGB e CMYKdue grandi categorie: modelli additivi e sottrattivi.
modello sottrattivo parte dalla presenza di tutti i colori, ovvero dal bianco (compresenza di tutte le onde
che danno i colori), e crea tonalità sottraendo dal bianco
modello additivo è l’esatto contrarioparte dal nero (l’assenza di colore) e aggiunge colori fino ad arrivare
al bianco che li comprende tutti.
Il sistema CMYK (modello sottrattivo)generalmente utilizzato per prodotti grafici che vanno stampati (es
ambito editoriale) perché la carta, lo sfondo con cui lavora è bianco.
L’altro sistema, RGB (modello additivo), usato più nel digitale, poiché normalmente i monitor, i desktop
eccetera sono scuri.
Sistema di codifica delle immagini RGBogni pixel delle immagini digitali prevede una tripletta di valori
(bande espresse tutte in 8bit) una banda per il canale di rosso,
un’altra banda il canale verde e un’altra quello blu ogni banda
256 possibili stati essendo a base 8bit 0= il colore non è
espresso; 255=espresso al massimo.
RGB è il modello più diffusoavendo solo tre bande è
relativamente semplice.
Esistono immagini raster ‘speciali’ es rappresentazione di un territorio attraverso un valore dato dal
caloreimmagine fatta con una termocamera (dispositivo che registra non l’onda del visibile, ossia i colori
che percepiamo, ma altre frequenze dell’onda, come l’infrarosso o l’ultravioletto)raster può codificare non
solo immagini del visibile, ma qualsiasi tipo di dato; es rappresentazione della temperatura visualmente sullo
schermo con falsi colori (convenzione per quanto riguarda il calore codifico con il blu la temperatura
fredda e con il rosso quella calda.
Altra codifica possibilemappa di altitudini, dove si vede la differenza di quota o altitudine di un territorio.
Raster= modello che posso usare per codificare tanti tipi di informazioni diverse.
I formati raster sono molti: JPG PNG, TIF, BMP, GIF, PSD, HDR.
Alcuni formati che non salvano tutte le informazioni, come JPG (compressione lossy) e altri che invece le
salvano tutte, come PNG (compressione lossless)
I software che utilizzano le immagini raster sono Paint, Anteprima, Photoshop, GIMP, ecc.
Le immagini vettoriali invece di usare i pixel usano le primitive geometriche (punto, linea e poligono) per
rappresentare un’immagine.
Corso di disegno si impara a semplificare in primitive semplici una figura umana che poi giustapponiamo
e ricalchiamo unendole in modo da avere una figura interanostro modo di concepire una figura è
scomporla in unità più piccole.
La grafica vettoriale usa degli elementi semplici per rappresentare qualsiasi tipo di informazione.
Ognuno di questi elementi è descrivibile da coordinate sugli assi x;y del sistema cartesiano possibilità di
rappresentare anche immagini piuttosto complesse.
primitive geometriche hanno una posizione all’interno dello spazio cartesiano specifico e hanno attributi
specifici (es. riempimento, lo spessore del tratto, la forma, la curvatura, ecc).
Le immagini vettoriali non hanno risoluzione, possono essere zoommate all’infinito senza sgranarsi.
Tutti i font sono elementi di grafica vettoriale.
Anche in questo caso i formati sono moltissimi a seconda di quello che facciamo: SVG, DXF, CGM, AI,
SHP, WMF, ecc.
Un formato particolarmente interessante è l’SVG (Scalable Vector Graphics) usa l’XML per rappresentare
la grafica. Quindi l’XML va bene per marcare i testi, ma anche per codificare le rappresentazioni grafiche. È
supportato da tutti i browser in circolazione ormai modello nato per il web ma che ha molte applicazioni.
Non è uno standardc’è stata tantissima discussione sullo standardizzare questo sistema.
SVG formato generico che permette di incrementare la grafica vettoriale partendo da un testo molto
semplice; usa l’XML come metalinguaggio all’interno del quale definisce un proprio vocabolario.
Tutto ciò che abbiamo visto per quanto riguarda la grafica può essere espresso in SVG.
Con l’SVG si può estendere l’HTML in modo da poter rappresentare qualsiasi disegno o immagine grafica.
Tramite SVG possiamo cambiare un singolo attributo di una determinata immagine (es. il colore)con
la grafica raster devo selezionare tutti i pixel e cambiare colore a ciascuno di essi, dunqueun’operazione
più complicata.
SVG non essendo uno standard, è suscettibile a cambiamento.
Internet è una rete (net in inglese = rete) rete di calcolatori: insieme di 2 o più calcolatori e dispositivi,
connessi tra loro allo scopo di comunicare e condividere dati e risorse singoli elementi connessi=nodi
A seconda della scala delle reti, potremmo avere:
Rete personale PAN (Personal Area Network) interconnette un personal computer con
dispositivi periferici in un raggio d’azione di qualche metro, talora con il puro obiettivo di realizzare
una connessione a una rete di più alto livello, tipicamente Internet.
Rete locale LAN (Local Area Network) interconnette calcolatori di un edificio o di un edificio
adiacente.
Rete metropolitana MAN (Metropolitan Area Network) limitata alla scala urbana
Rete geografica WAN (Wide Area Network) ampia area geografica, interi continenti.
Rete globale GAN (Global Area Network) si estende a livello globale.
Più la rete è grande, più è difficile da mantenere, più è lontana dagli utenti.
Le reti vengono costruite fisicamente, ci sono dei cavi (la tecnologia più usata è la fibra ottica)vari tipi di
accessi.
Possono essere più o meno pubbliche, completamente aperte; quelle locali spesso sono completamente aperte
(senza password).
Altra classificazione possibile reti pubbliche e reti private. Ormai, anche per motivi di sicurezza più che
tecnologici, tutte le reti sono private, per motivi anche di tracciamento per comportamenti legali o meno.
Gli utenti devono autenticarsi.
Tuttavia si possono usare delle reti di tipo pubblico, implementate da soggetti terzi, per scopi privatiVPN
(Virtual Private Network) implementazione di una rete privata virtualeSuccede in continuazione che si
creano reti private che usano un’infrastruttura di rete pubblicareti che prevedono la crittografia ma che non
è fondamentale.
“Esplose” durante il covid perché permettono di creare degli uffici virtuali
Per motivi di sicurezza delle istituzioni, es. Sapienza si creano delle reti private che offrono dei servizi: es.
accediamo ad un database online dove possiamo scaricare risorse, libri, riviste ecc. Sapienza ha degli
abbonamenti per accedere a questo database necessario usare VPN Sapienza
VPN funziona per creare una rete privata usando l’infrastruttura pubblica rete privata che permette di
condividere delle risorse aziendali all’interno di una rete pubblica.
VPN viene utilizzato molto per la protezione dei dati personali su internet es. Mozilla VPN offre sicurezza,
affidabilità e velocità in ogni dispositivo; hanno creato delle reti di computer sparse per il mondo nelle quali
accediamo attraverso un VPN che ci garantisce la sicurezza servizi che inseriscono dei filtri che difendono
i nostri dati personali.
Connessioni tra i vari nodi di una rete sono sempre fisiche: ogni tipo di informazione passa attraverso un
supporto fisico quando usiamo servizi senza fili anche in quel caso abbiamo una trasmissione fisica dei
dati
Mezzi guidati (connessione cablata)segnale viaggia lungo linee fisiche (cavi)
UTP ( Unshielded Twisted Pair) doppino telefonico 8 fili di rame ciascuno ricoperto da guaina
isolante, suddivisi in 4 coppie di fili intrecciati ambito del LAN. Presenta alle sue estremità un
connettore RJ45
Cavo coassialetrasmissione di segnali luminosi corpo centrale di rame ricoperto da uno strato
isolante, avvolto a sua volta da una maglia di fili di rame che lo scherma rispetto alle interferenze
elettromagnetiche esterne e quindi racchiuso in una guaina isolante esterna. Due versioni: thin e
thick
Fibra otticatrasmissione di segnali luminosi conduttore centrale (core) avvolto da un
rivestimento (cladding) presenta un indice di rifrazione minore rispetto a quello del core che
determina fenomeno della riflessione totale interna. Cladding avvolto da uno o due strati di materiale
plastico trasmissione anche su lunghe distanze ed elevata velocità.
Mezzi non guidati (connessione senza fili) segnale viene irradiato nello spazio (trasmissione via etere)
che utilizzano varie lunghezze dell’onda elettromagnetica, spesso frequenze delle onde radio o gli infrarossi.
IrDA (Infrared Data Association) onde elettromagnetiche infrarosse
Bluetooth risale agli anni ’90, tecnologia sviluppata dai gestori della telefonia mobile: serviva
protocollo condiviso per trasmettere dati di piccola quantitàsi sono messi insieme i produttori più
importanti al momento (Intel, Ericsoon e Nokia) e hanno definito questo standard. Nome ispirato a
re Harald “Bluetooth” Gormsson (che unì Danimarca e Norvegia nel 958 e il suo dente dopo la
morte assunse una sfumatura bluastra che gli valse il soprannome)
Wi-Fi (Wireless Fidelity)tecnologia basata sulle onde radio.
5Gin fase di implementazione quinta generazione per le reti della telefonia e i dati velocità di
trasmissione delle informazioni spazia da 50Megabit a 1 Gigabit.
5G stessa velocità della fibra ottica
le reti delle telefonie hanno delle celle, dei dispositivi fisicici colleghiamo alla cella più vicinaciò
permette il tracciamento fisico dei dispositivi.
tecnologie satellitari es. cellulari satellitari che non hanno bisogno di antenne a terra per funzionare, e la
stessa cosa si può fare per internet, es. Starlink. Permette di connettere luoghi impervi
Internet rete di varie reti implementata da vari soggetti, commerciali e non struttura ad albero composta
di tante reti Internet è un serie di cavi di varie dimensioni che entrano in connessione tra loro e connettono
vari tipi di dispositivi.
Host o nodo (poiché si tratta di un nodo della rete, dispositivo connetto alla rete) host può essere server o
client, dunque una macchina che riceve informazioni (client) o una che fornisce una determinata risorsa o
informazione (server).
I protocolligli standard che permettono alle varie architetture di parlarsi tra loro perché implementano lo
stesso tipo di protocollo, delle interfacce di scambio dei dati Il protocollo è come un linguaggio comune.
Le informazioni viaggiano nella rete divisi in pacchetticoncetto di panchetto è fondamentale perché
un’informazione viene spacchettata in pezzi più piccoli ciascuno dei quali contiene una mappa e ogni
pacchetto che viaggia nella rete ha una mappa per ricomporlo e così si trasmettono le informazioni che
vengono ricomposte al loro arrivo.
divisione in pacchettiimportante per mettere in piedi le retiintrodotto nel 1961 dal MIT
La concezione stessa del packet switching si deve a Leonard Kleinrock fondamentale contributo sono
stati gli studi di Joseph Licklider per la Galactic Network.
La rete internet che usiamo concepita negli anni ’60 Lickdier assunto alla Defense per gli studi di
interazione tra computer e macchine, progetti che hanno uno scopo militareimplementazione nella ricerca.
Prima comunicazione tra due computer è avvenuta nel 1965.
Dal 1974 ad oggi i protocolli fondamentali sono il TCP/IP
Alla fine degli anni ’60 viene scambiata la prima email con un protocollo suo proprio, inventato da Raymond
Ray Tomlinson.
Internet degli albori nel 1974 estremamente semplice e metteva insieme i principali centri di ricerca degli
Stati Uniti d’America si allarga abbastanza velocemente al resto del mondo, in primis all’Europa.
Web 1, 1.5, 2, 3
Web ha una parabola di implementazione molto veloce.
WWWinvenzione di Tim Berners-Lee, ricercatore britannico che lavora al Cern di Ginevra
1989 scrive un breve report (a Information Management proposal) destinato a uso interno per ottimizzare
la trasmissione delle informazioni all’interno delle reti di scienziati che collaborano su progetti comuni.
All’inizio non molto entusiasmo.
Tim Berners-Lee basa il web su tre standard principali.
HTMLPrima di tutto, per definire il testo bisogna definire un linguaggio di marcatura uno
semplice che possa essere imparato in poco tempo, e così nasce l’HTML (Hypertext Markup
Language) = un linguaggio di markup che si focalizza su una tipologia in particolare di testo, ovvero
l’ipertesto, che prevede al suo interno dei nodi sensibili (collegamenti). L’ipertesto è un modo
dinamico di fruire determinate cose tramite i testi (es. indiceimplementazione dell’ipertesto;
dunque l’ipertesto non è nato con internet ma esisteva già da tempo).
URL Poi serve un dispositivo per localizzare facilmente i documenti all’interno di librerie molto
grandi. Berners-Lee inventa un protocollo chiamato URI (Uniform Resource Identifier)protocollo
uniforme e standard per identificare le risorse all’interno di una rete anche molto articolata, una
specie di indirizzo che ogni risorsa ha e con la quale viene identificata e localizzata. URL (Uniform
Resource Locator) non solo identifica la risorsa, ma dice anche dove trovarla (es. il codice fiscale
italiano è un URI, il nostro indirizzo di casa è un URL)
HTTP Hypertext Transfer Protocol Tutte le volte che usiamo un indirizzo su internet scriviamo
http protocollo per il trasferimento degli ipertesti.
ERGO! Tim Berners-Lee ha inventato un linguaggio con cui scrivo le risorse (HTML), i documenti; un
sistema per cui gli do una casa (URI/URL) e tramite cui le raggiungo; e un protocollo che qualsiasi tipo di
dispositivo può implementare per far viaggiare questi documenti sulla rete.
Web è questo sostanzialmente nel 1989 e non è cambiato oggi.
Berners-Lee ha creato anche il primo browser per lo scambio di informazioni e testi fra i ricercatori e inventa
anche il primo web serverAnche oggi il web server più diffuso che potenzia gran parte del web si chiama
HTTPD.
Attraverso questi due strumenti primo browser/editor (WorldWideWeb.app) che permette di scrivere,
salvare e visualizzare una risorsa remota, e un server (httpd) cioè un programma che a ogni richiesta fornisce
un determinato documento nasce il primo sito internet.
1991 Tim Berners-Lee invitò altre persone a collaborare a questo tipo di progetto, non appartenenti al
CERN così quasi da subito nel 1993 tutto il codice sia per lo sviluppo dell’httpd che del browser viene
rilasciato senza restrizioni, libero per sempre sotto licenza di pubblico dominio.
1994 Tim Berners-Lee lascia il CERN, si trasferite all’MIT fondato grande ente che gestisce creazione
del WWW World Wide Web Consortium (W3C)organizzazione multipartecipata finalizzata allo
sviluppo di standard web aperti e condivisi.
W3C raggruppa enti governativi, grandi attori dell’industria, grandi produttori, grandi attori commerciali,
ecc da sempre in conflitto per dividersi una fetta di mercatoWeb= settore con interessi commerciali.
La W3C ha inizialmente fondato la sua azione su alcuni pilastri su cui si regge sua filosofia:
Decentralizzazione web è concepito in maniera distribuita, non ha un unico centro che può
decidere cosa viene pubblicato e cosa no. No autorità centrale per postare o pubblicare qualsiasi
cosa, non c’è un unico nodo di controllo. Esistono però tante regie periferiche web è un mondo
dove le leggi dei molti paesi hanno valore e quindi certi comportamenti che sono illegali fuori dal
web lo sono anche dentrocensura dal punto di vista mondiale e a volte anche locale, che in parte
necessarie e dall’altra, tuttavia, limiti importanti di espressione. Tuttavia non essendoci nodo di
controllo centralelibertà dalla censura e dalla sorveglianza indiscriminate.
Non discriminazione (Net Neutrality)Quando due nodi si parlano e si ha una disparità di qualità
di servizio la comunicazione automaticamente degrada alla qualità più bassa comunicazione
paritaria
(bottom-up design) progettazione dal basso chiunque ha un’idea geniale ed è capace di
implementarla e documentarla e di condividerla, la può proporre per farla diventare uno standard.
Quindi il codice a tutti i livelli può essere scritto da chiunque. No gruppo di esperti, codice
sviluppato sotto gli occhi di tuttimassima partecipazione e sperimentazione.
universalità dei protocolli comuniAffinché tutti i computer e i dispositivi si parlino tra loro in
una determinata rete, devono avere sostanzialmente implementati dei minimi protocolli comuni.
Importante per abbattere possibili compartimenti stagni affinché rete continui a rimanere
universale indipendentemente da differenze culturali, politiche, geografiche.
consenso, un elemento dunque di democrazia Nessun tipo di tecnologia che ha il certificato della
W3C viene imposto standard passano diversi step di valutazione, e quando interessanti per tutti
allora diventano una raccomandazione.
LEZ 7- IL WEB
A 30 anni dalla creazione del Web, Tim Berners-Lee tira le fila su come si è sviluppato il webriflessione
sulle criticità di questa tecnologiauso che se ne fa
I tre punti affrontati sono i seguenti:
Egli parla del contenuto deliberatamente malevole (es. discorsi basati sull’odio; comportamenti
criminali online) comportamento scorretto sia di persone che di istituzioni, Web= strumento di
per sé che si presta a tutti gli usi, benevoli che malevoli.
Altri problemi dinamiche commerciali che si vengono a creare quando l’utente diventa
consumatore. Alcuni attori commerciali hanno creato delle catene di produzione e di sfruttamento
economico che basano parte della loro funzione anche sulla disinformazione, clickbait ecc utenti
trattati come consumatori e non destinatari di una certa informazione. Clickbait si basa su feedback
remunerativi in base ai clickdiffusione virale di disinformazione
danni non voluti (conseguenze negative di atteggiamenti non intenzionali) utenti trascinati in certe
dinamiche che vanno a produrre sostanzialmente un output non di qualità. Es tono indignato e
polarizzato e la qualità del discorso online.
Questi sono i tre principali problemi: il primo problema non si può sradicare in maniera definitiva
comportamento criminale fa parte dell’uomo; necessario estendere i corpora legislativi e dare importanza a
quello che succede online anche dal punto di vista legislativo.
Anche lo stato italiano ha preso provvedimenti in proposito e cerca di controllare la vita all’interno dei social
network che sono le piattaforme che vengono prese più di mira (pubblicazione più immediata di altri siti).
La legislazione nazionale comincia ad essere applicatamagistratura o polizia può chiedere di togliere
determinati contenuti magari illegali o malevoli.
Bisogna sorvegliare i contenuti pubblicati dagli utenti Facebook è stato multato più volte ed egli stesso ha
cercato di mettere in moto dei sistemi di sorveglianza dei contenuti legati ai contenuti illegali o basati
sull’odiosi sta investendo nella creazione di sistemi automatici di controllo dei contenuti basati su parole
chiave ad es. post bloccati ancora prima di essere pubblicati da determinati algoritmi.
Terza categoria dei problemi spinge sull’esigenza di lavorare sui sistemi esistenti che devono educare, sia
sulle persone stesse che provvedano ad un’educazione maggiore di questi strumenti onlineimportanza
dell’educazione digitale (come si fa educazione civica) focus torna alla comunità, quindi soluzione è
cercare cambio di prospettivamaggiore consapevolezza.
URL
URI (Uniform Resource Identifier)----URL (Uniform Resource Locator)
Risorsa=informazione/dato/file/immagine/unione di tutti questi che sono tutte risorse nel web.
URL divisibile in pezzi, di alcuni frammenti anche se alcuni di essi sono opzionali
Schema (protocollo) che io uso per accedere ad una risorsa (che può essere protetta dunque c’è un username
e una password da inserire)tipicamente http, ftp oppure https (http secureper le transazioni sicure
nell’ambito del commercio elettronico)
Hostname cioè il nodo della rete dove la risorsa si trova, secondo quanto previsto dal protocollo TCP/IP e
dalle regole di naming del DNS.
Porta indicatore numerico che permette di distinguere fra più porte di comunicazione, strumenti impiegati
per realizzare la cosiddetta multiplazione delle connessioni di un calcolatore in rete, per tenere aperte più
connessioni di rete in contemporanea con altri calcolatori ogni porta costituisce un canale di
comunicazione per i pacchetti destinati a un certo processo.
Pathname definisce un percorso all’interno del fyle sistem del server, che identifica in modo univoco nel
file server un certo file
Queryseparata dal resto dell’URL dal carattere “?”, permette di trasmettere ai programmi per la
generazione di pagine dinamiche informazioni parametriche espresse sotto forma di coppie del tipo
nome=valore separate dal carattere “&”.
Frammento stringa (identificatore) che specifica un preciso punto all’interno della pagina: browser lo
interpreta mostrando la pagina a web a partire dal punto identificato nella stringa.
Principale strumento per l’identificazione univoca dei nodi di reteindirizzo protocolli di rete stabiliscono
che ogni nodo ( o host) sulla Rete abbia un proprio indirizzoattualmente indirizzi IP (Internet
Protocol) codice fatto di 4 blocchi da 1 a 3 numeri ossia versione Ipv4costituisce un identificativo a
32bit che prevede un grande numero di nodi possibile (4.294.967.296)Numero molto grande ma che si è
esaurito molto velocemente poiché sempre più il numero di dispositivi allacciati alla rete.
La nuova versione IPv6 non sono più 4 blocchi da 3 numeri, ma 8 blocchi da 4 cifre esadecimali
codifica a 128bit versione continuamente implementata oggi; attualmente sia IPv4 sia IPv6 sono
disponibili ma quest’ultima è la più utilizzata.
DNS (Domain Name System) questo sistema associa un nome, un dominio a un numero IP.
DNS livello intermedio che ci rende possibile usare il web in maniera più facilitatasupporta solo l’ASCII
di base, quindi c’è una spinta di allargare anche in questo campo e ad utilizzare Unicode (siti possono essere
scritti in ASCII ma non in russo per es) stringe si dividono in parti l’estensione finale si chiama
dominio di primo livello; uniroma1 è di secondo livello, e poi può esserci il terzo livello (www è solo una
convenzione ma non è l’unico) lettura dei domini da destra a sinistra
Domini di primo livello possono essere nazionali o sovranazionali
Il DNS è solitamente a pagamento solitamente si affitta a base annuale per garantire la proprietà di un
certo dominio.
Internet=rete delle reti, non tutti i computer si affacciano sul livello superiore direttamentelivelli intermedi,
rami che si uniscono in rami a loro volta e si affacciano al primo livello di internet es a casa accediamo
attraverso una risorsa online passando almeno attraverso due reti ma anche molte di più; il nostro router di
casa di allaccia alla rete e ha un indiritto IP che gli viene attribuito ogni volta che costruiamo una rete Wi-
fi accendendo il router stiamo creando una piccola rete domestica, privataQuando il router di casa è
collegato con il mondo esterno tutti i dispositivi vi hanno accesso. Quando noi vediamo questo IP è quello
del router non quello dei singoli dispositivi, che sfruttano la connessione del router, per questo ogni
dispositivo a casa ha lo stesso IP. Internet non sa nulla dei miei dispositivi collegati perché conosce
solo il router, il rappresentante di tutti gli altri dispositivi. Questo permetteva di collegare tanti
dispositivi a internet.
HTTP (hypertext transfer protocol) basato su un testo, non c’è nulla di binario ma è puro testo, quindi, è
molto semplice anche per gli umani da intenderedinamica già vista (tra client e server)client richiede la
risorsa e il server la fornisce (ma i ruoli si possono invertire anche o essere client e server allo stesso tempo).
Il client fa una richiesta specifica per una determinata risorsa e lo fa usando un URL, che lancia un indirizzo
che localizza la risorsa server prende questo URL, cerca la risorsa e dà una risposta (404 errore oppure
risponde in HTML fornendo una pagina, un documento o qualsiasi altra risorsa).
Quando arrivano informazioni dal server, il client inizia interpretazione del file e la sua restituzione
nell’interfaccia dell’utentefasi dell’interpretazione e visualizzazione: formattazione,
ipertestualizzazione, restituzione multimediale.
I protocolli internet utilizzati all’interno della rete internet sono molti: BGP, DHCP, DNS, FTP, HTTP,
IMAP, LDAP, POP, SMTP, SSH, TelnetTLS/SSL, ecc.
i linguaggi che vengono usati nel web sono normalmente HTML
e CSS (formattazione grafica) ed eventualmente Javascript
File fisico viene salvato su un computer remoto (un server) lo
si carica usando FTP o altri per trasferire informazioni.
Allora il client, attraverso il suo browser fa una richiesta HTTP
sul server, e se esso trova la risorsa, dopo averla rintracciata,
risponde. Questo web viene chiamato
anche web statico perché le risorse non cambiano, il file salvato
diventa una sorta di biblioteca che non cambia, una volta che c’è un file il contenuto di esso non cambia.
Un autore/editore definisce la struttura delle cartelle, organizza le informazioni e mette i file all’interno di
queste divisioni come biblioteca.
Web staticolimitazione e problemi, perché puoi servire delle risorse solo preconfezionate variazioni non
sono possibili, cambiamenti nel layout delle pagine molto onerosi.
Inoltre non puoi offrire ai client consultazione personalizzata es no pubblicità di Google personalizzata.
Non possono esserci contenuti personalizzati in base alle nostre ricerche limiti del web statico
problematici per le industrie.
In un vecchio web con biblioteche sparse in giro per il mondo, serve un servizio centralizzato che fa da
indice (ISBN ad esempio per le biblioteche) motori di ricerca fanno questo: visitano in maniera
indiscriminata tutto il web visibile e lo indicizzano.
Principali motori di ricerca: Google, Yahoo!, Bing, DuckDuckGo, ecc.
Prima dei motori di ricerca negli anni ’90 directories, indici fatti da umani (es Yahoo!) che indicizzavano
tutti i siti. Google fa questo tramite robot e un algoritmo che categorizza i siti web.
Le ricerche sono rese possibili dallo sfondamento del web statico e dalla nascita del web dinamico
sempre HTTP e HTML l’unica differenza sostanziale è chi compone le pagine web che noi leggiamo
Web staticopersona che scrive materialmente tutti i contenuti e li salvaweb dinamicocontenuti
vengono composti al volo ogni volta che c’è una richiesta (software che in base a dei dati salvati su un
database li compone al volo in delle pagine di senso compiuto) pagina non esiste salvata da qualche parte
ma viene composta al momento della mia richiesta giornalisticamente indicato con l’etichetta web ‘1.5’.
Web 1 ci permette di visualizzare sul browser un file salvato nel server Web 1.5 confezionamento.
più professionalità tanti professionisti che intervengono ciascuno per la propria competenza sui contenuti
elevata qualità sia grafica che contenutistica software utilizzati per creare componenti sono di alto
livello PHP, ma anche Python, Ruby, Perl, Java, C++, NodeJs, ASP, ecc Questi software= CMS
(Content Management Systems) software veri e propri anche molto complessi installati su un server
remoto da cui accediamo con un browser e sono programmati per generare in maniera dinamica HTML.
Questi strumenti permettono gestione di siti anche molto grandi anche da parte di persone che non
conoscono l’HTML o linguaggi di programmazione di solito CMS gestisce i contenuti, sotto forma di
articoli (titolo, corpo di testo, immagine/i di riferimento, una tassonomia, metadati, versione in altre lingue
ecc.); inoltre gestisce i menu, la navigazione, il sistema di template, gli stili, la logica, ecc.
CMS più diffusi:WordPress, Joomla!, Drupal, MediaWiki, Magento, Blogger, Shopify, Squarespace
permettono a chiunque di pubblicare contenuti senza conoscere le codifiche; tuttavia problemi di
manutenzione (vanno costantemente aggiornati) inoltre grossi problemi di sicurezza.
Tra siti statici e dinamici si stanno diffondendo degli strumenti misti, ovvero i cosiddetti Static Site
Generators (SSG).
Dal punto di vista tecnico, il sito statico è la cosa più sicura e veloce del mondofile arriva subito non deve
essere convenzionato e non può essere modificato di conseguenza non possono essere rubati i dati.
Tuttavia, esperienza dell’utente risulta limitata rispetto a un sito dinamico nasce questa via di mezzo dei
software che sanno gestire dei contenuti quasi come un sito dinamico, ma che creano al volo ad ogni nostra
modifica una copia statica.
siti statici tutte le pagine di un sito vengono create a monte e salvate come file HTML statico; anni ‘90
perché solo file statici, ma c’è grande velocità e la possibilità dei file di essere bucati è pari a zero.
SSG permettono di prendere il meglio dei siti dinamici gestire i contenuti in maniera facilitata: non devo
scrivere tutto in HTML, ho a che fare con un database, posso cambiare in ogni momento gli elementi, ecc.
Ergo! strumento che quando faccio qualcosa salva e mi va a produrre in automatico tutte le possibili pagine
HTML del mio sito e le salva.
vantaggi degli SSG performance, garantiscono meno problemi di sicurezza, permettono l’aggiornamento
delle risorse. Gli svantaggiparte grafica relativa ai template è spesso poco articolata.
Molto spesso le grandi aziende per pubblicare loro risorse scrivono un CMS proprio. Es. Jekyll.
Web 2.0non si riferisce all’introduzione di qualche tecnologia particolare, no evoluzione vera e propria,
ma si riferisce al nostro utilizzo dello strumento Web che permette a qualsiasi utente una facilitata
possibilità di creare contenuti.
L’elemento più importate del Web 2.0 forte interazione nella creazione dei contenuti da parte degli utenti.
Es. social network, non ci vuole preparazione per pubblicare un contenuto-->Il Web 2.0 nasce sotto forma
dei commenti non più blog post
I social network sono commenti che ricevono a loro volta degli altri commenti, non c’è più il pezzo
monolitico di contenuto curato da un’idea editoriale che viene curata in maniera centralizzata.
Social network in senso lato CMS, delle piattaforme che ci permettono di creare e condividere in maniera
istantanea questo tipo di contenuti.
modo in cui noi fruiamo del web cambia radicalmente poiché cambia l’idea che abbiamo del contenuto.
Google è uno dei più grandi attori del trattamento dei dati raccolgono dati e vendono pubblicità, è il loro
business principaledatabase search, che va a cercare informazioni non più in documenti che parlano di un
determinato argomento, ma in banche date che contengono informazioni strutturate su quel tipo di fenomeno.
Google datasetmotore di ricerca specializzato sulla ricerca su dati strutturati su qualsiasi argomento, di
fonti pubbliche che contengono dati aperti.
business sui dati oggi è un argomento molto importantesempre più rilevante l’esigenza di distribuire in
maniera aperta dati pubblici perché sono informazioni che ci appartengono e utili a molti livelli.
Idea di usare dati grezzi in formati leggibili da tuttiargomento sensibile anche da punto di vista legislativo.
Es. Data.gov, iniziativa promossa da Barack Obama: portale di dati per gli Stati Uniti dove sono pubblicati in
tempo reale le informazioni che il governo degli Stati Uniti contiene sull’America, su sè stesso dunque.
L’Italia ha anche un portale dove pubblica i dati relativi all’amministrazione pubblica; prima dati riservati,
ora tutti liberi per default.
cambio importante di paradigma: la disponibilità di dati grezzi ci dà una libertà in più per fare vari tipi di
ricerchepunto rivoluzionario: cambiare la prospettiva, di non pensare più al web come una piattaforma di
comunicazione e di collegamento di informazione come prima ma in maniera più intelligente e profonda,
andare oltre a quello che è il web piatto con documenti formattati importante che possono essere
pubblicati non solo documenti finiti ma anche dati grezzi.
LEZ 9- WEB SEMANTICO & LINKED OPEN DATA
Il Web semantico è detto anche Web dei dati; si tratta di un’ipotesi avanzata da Berners-Lee si possono
fruire non solo documenti impaginati finiti, ma anche dati grezzi. Web semantico riguarda il significato.
Nella descrizione generica sul sito di W3C, troviamo Web semantico fornisce una struttura comune che
consente la condivisione e il riutilizzo dei dati oltre i confini di applicazioni, aziende e comunità sforzo
collaborativo guidato dal W3C con la partecipazione di un gran numero di ricercatori e partner industriali.
Si basa sul Resource Description Framework (RDF).
Il web semantico fornisce una cornice, una struttura che permette ai dati di essere condivisi e diffusi
attraverso la rete e vari tipi di applicazione.
Quando si parla di raggiungere il significato delle cosecome farlo attraverso le macchinebisogna avere
a disposizione dei computer che si affacciano alla rete, che abbiano la possibilità di capire di cosa si tratta,
cosa c’è scritto nel significato creare documenti affinché una macchina, un computer o un algoritmo,
accedano al significato della risorsa
Ergo! Significato realizzato dal punto di vista della macchina, non dell’umano.
Per Berners-Lee, Web semantico si basa sull’ipertesto possibilità di saltare da un documento all’altro
utilizzando dei nodi (link), ma dal punto di vista di un computer questo tipo di paradigma è piatto no
significato.
Sempre Berners-Lee questo è un peccato perché i documenti che pubblichiamo sul web descrivono oggetti
reali, rappresentazione di fatti o oggetti del mondo reale che noi sappiamo bene sono interconnessi.
Ultimamente abbiamo assistito a cambio di paradigma sul dato e sull’informazione che non sta più
nell’oggetto in sé ma nelle relazioni che crea con gli altri questo non succedeva e l’oggetto doveva
spiegarsi da solo.
Proposta: guadagnare dimensione: sostanzialmente Lee riprende l’idea dei link, i collegamenti fra due
oggetti ma lo cambiapossibilità di dare significato alle connessioni=rivoluzionario.
Quindi sostanzialmente web tridimensionale dovrebbe poter permettere alle macchine di intendere di più i
documenti e le risorse che contiene riesca a stabilire in maniera automatizzata collegamenti con altri
documenti/risorse esterne, come succede nel mondo reale (difficile trovare oggetto avulso dalle connessioni
esterne)Semantic Web si occupa esattamente di questo.
Una volta che si ha un contesto allora dice Lee, il Web può fare cose reali.
Nell’idea del Web semantico intelligenza artificiale non c’entra si tratta di algoritmo, di programma che ha
accesso a una quantità di dati strutturati in maniera molto più intelligente cambia solo la fonte dei dati che
ho a disposizione necessarie delle strutture (dati devono essere disponibili sotto formati processabili che
una macchina possa capire).
Principio del Web semantico permette di arrivare in un contesto molto più utile con quello che possiamo fare
con le macchine ma tramite la via tradizionale (programmazione standard) solo cambiano i dati alla base
di tutto.
Oggi Web semantico solo piccoli casi, limitati non stessa esplosione del Web mondiale perché richiede
competenze in più.
comparazione tra Web dei documenti e Web semantico non è solo necessario che i documenti siano
online per trovarli, i dati devono essere sì raggiungibili ma soprattutto interconnessi tra di loro, inoltre,
significato di questi dati deve essere chiaro e facilmente ricercabile ergo! non solo il contenuto di un
determinato testo ma anche il significato di questo documento.
Dal punto di vista dell’infrastruttura l’idea dell’implementazione del Web semantico non è diversa
dall’idea del WebWeb semantico usa stesso tipo di tecnologie tecnologie importanti come HTML ecc.
ci sono nel Web semantico mood diverso di approcciare il nostro lavoro.
Ergo! L'aggiunta di semantica al Web implica due cose: 1. consentire ai documenti che contengono
informazioni in forme leggibili dalla macchina e consentire creazione di collegamenti con valori di relazione.
Possibilità di sfruttare le informazioni in misura maggiore rispetto alla nostra stessa lettura le macchine,
oltre a operare sulle informazioni web, possono fare cose reali es. programma potrebbe cercare una casa e
negoziare il trasferimento della proprietà della casa a un nuovo proprietario.
Quando noi parliamo di significato dei documenti che sia facilmente comprensibile e intellegibile da
macchine e software in maniera automatica, cosa intendiamo? Quando uso una parola essa significa quello
che io voglio farle significare ma alle parole si possono dare tanti significati diversi decide significato
chi parla significato non è sempre uguale
il cambiamento: non si può riformare il modo in cui gli umani usano il linguaggio; se vogliamo avere delle
macchine che capiscono il nostro linguaggio e i documenti non possiamo chiedere agli umani di pensare
come le macchine Web semantico dice che documenti non devono cambiare, gli umani devono continuare
a mettere sul Web ciò che vogliono e come vogliono, con significati ambigui e vari livelli di informazione,
con formati che preferiamo e con i linguaggi che ci sono più comodi.
Se vogliamo che computer capisca il significato del documento bisogna lavorare con i metadati
(descrizioni di questi dati) es libro, metadati dono informazioni che lo descrivono (autore, titolo, info
editoriali, ISBN ecc…) altri metadati potrebbero essere la collocazione del libro in una biblioteca o parole
chiave caratteristica comune dei metadati è quella di fornire delle descrizioni, ergo anche concetto molto
generico che fornisce descrizione, da quella fisica a quelle più contenutistiche.
Nel Web semantico il metadato è fondamentale strumento che utilizziamo per dire qualcosa alla macchina
sul significato della risorsaper l’interconnessione i metadati devono essere strutturati utilizzando formati
standard quindi devono essere scritti con un linguaggio che la macchina può intendere.
Ergo! massima libertà sull’implementazione delle risorse, ma massima rigidità sull’implementazione dei
Metadati criteri di catalogazione rigida delle risorse.
I metadati all’interno del web possono essere di vario tipo un metadato che semplicemente ci dice che tipo
di risorsa è, che serve al browser per visualizzarla, poi descrizioni generiche sottoforma di testo in qualsiasi
lingua, dunque parole chiave, informazioni su un linguaggio o su che dispositivo sto usando, come adeguare
il contenuto nello schermo (il cellulare usa certi sistemi di output, il computer altri)metadati hanno una
molteplicità di funzioni: i più specifici sono per altri tipi di sistemi es. Wordpress ha metadati che vengono
utilizzati per le risorse editoriali (set di metadati che prevede delle parole chiave per catalogare prodotti
editoriali, dunque articoli, libri, fotografie ecc.) sistema prevede un vocabolario.
Anche Facebook ha un suo standard per metadatare le risorse, anche se molto più semplice più ad alto
livello di astrazione sistema di Facebook di catalogare si chiama OpenGraft (OG)
vari pezzi dell’industria sviluppano sistemi propri per la descrizione di questi metadatidifficile avere un
sistema unitario anche se esistono dei tentativi.
Uno di questi è il DCvari esponenti a livello internazionale per trovare un sistema unitario per descrivere
tutti i tipi di risorse DC tuttora esiste, che ha definito dei vocabolari che vari produttori di risorse,
soprattutto editoriali, possono utilizzare per descrivere metadati sulle risorse che loro mantengono e
pubblicano.
Questa iniziativa nasce prima di Internet, prima c’era la necessità di avere sistemi unitari dei metadati, e poi
nel mondo del digitale medatati esistevano prima di Internet e sono utilissimi anche per usi diversi;
individuati come strumento principale per implementare Web semantico.
Web semantico ha bisogno di uno schema più rigido gli strumenti per realizzare lo strumentario del Web
semantico quali sono?
1. URI, l’identificatore univoco di risorse che poi diventa URL. Per avere delle banche dati distribuiti che
contano il significato degli oggetti devo dare loro prima di tutto un nome con URI. Necessità di dare un
nome a ciascuna cosa e solo se riesco a identificarla posso trovarla.
2. RDF modello di dati condiviso.
3. SPARQL linguaggio formale di interrogazione delle banche dati che permette l’accesso uniforme ai
dati. Oltre ad essere un linguaggio di interrogazione è anche un protocollo per accedere a dataset RDF
4. Ontologielinguaggi di descrizione unitari, uniformi; pensiamo alle ontologie in maniera semplificata
come un vocabolario: esse forniscono una specie di vocabolario chiuso per descrivere un certo tipo di
risorsa. Possono avere anche regole logiche di inferenza, es se A=B; B=CA=C. Ergo! ontologie come
vocabolari di metadati per descrivere le nostre risorse.
RDF (Resource Description Framework) modello basato su asserzioni (statements) semplici sulle risorse
(web) aventi la forma di soggetto-predicato-oggetto. Il soggetto denota la risorsa, il predicato denota
caratteristiche o aspetti della stessa e stabilisce una relazione tra soggetto e oggetto asserzioni sono dette
triple RDF.
RDFmodello di descrivere la conoscenza attraverso delle asserzioni semplicissime e tripartitele frasi nel
Web semantico sono semplici e rispettano sempre questa struttura.
Un’informazione minima può essere espressa anche sotto forma di grafo si può separare la frase nelle tre
parti (autore dunque soggetto, predicato cioè che dice cosa fa il soggetto, e l’oggetto) ciascun elemento
può essere identifica con un URI e nell’accezione RDF, un URI può identificare risorse tangibili o intangibili
(persone, cose, concetti)
Grafoimprestato dalla teoria matematica: rappresentazione attraverso degli elementi grafici fatti di nodi,
dove ci sono delle relazioni definiti archi, orientati con una direzione ben precisa, o non orientati cioè la
relazione può andare in una parte o dall’altra in maniera indifferente.
Quest’informazione la posso descrivere nel mondo dell’RDF teoria dei grafirappresentazione per
oggetti grafici (cerchi e rettangoli; cerchio= soggetto e i rettangoli=predicati)
Altri codici possono avere dei nodi in comune, ad esempio la stessa opera ma di un’edizione diversa.
Grafo della conoscenza esprime attraverso un grafico un determinato ambito della conoscenza ergo! non
solo per cose concrete, ma anche per le ideeWeb semantico utilizza questo modello di dati per raccontare
cose su oggetti della vitasemplificazione che ha il favore di essere facilmente intellegibile dai computer.
L’RDF può essere esplicitato utilizzando varie sintassi, es. l’XML.
Ontologie altro strumento per l’organizzazione della conoscenza; versione più semplice come definizione
di un vocabolario, un modo formale di organizzare una determinata conoscenza in maniera più ampia.
Definizione: rappresentazione formale ed esplicita dio una concettualizzazione condivisa di un dominio di
interesse rappresentazione è formale, utilizza perciò un linguaggio logico processabile da elaboratori; è
esplicita cioè non ambigua e tale da chiarire ogni assunzione fatta; è una concettualizzazione cioè una vista
astratta e semplificata del dominio di interesse; è condivisa cioè determinata dal consenso di una pluralità.
Vari tipi di ontologie diverse e tanti tipi di livelli
1. SKOS graph (‘Simple knowledge Organitation Sistem’)grafo che racconta di un concetto
generico, es. gattoquesto concetto può avere un’etichetta che può essere descritta come
un’etichetta testuale ‘cat’ (etichetta che vale all’interno del dominio dell’inglese) /‘domestic cat’,
sinonimi in inglese vengono legati attraverso un concetto di appoggio; partecipa al concetto più
generico di animale (etichetta ‘animals’) sto descrivendo il concetto generico del gatto. Relazione
che posso esprimere nella stessa maniera in tutte le lingue.
Da questo tipo di grafico, dunque, capiamo:1. posso crearmi delle entità astratte che non implemento per
forza; 2. all’interno di un grafo della conoscenza io posso mischiare tante ontologie diverse.
2. DCMES (Dublin core metadata initiative) e 3. FOAF (Friend of a Friend).
Ontologie servono per esplicitare rapporti interpersonali, o tra persone, enti, organizzazioni ecc e dunque
tutte le relazioni che possono intraprendere tra loroontologia= minimo vocabolario per descrivere tutte le
relazioni che possono esserci tra persone e aziende, agent e persontramite etichette come ‘image’,
‘description’, ecc.
ambiti in cui possono essere usate le ontologie: per rendere le tue cose disponibili sul Web (qualunque
formato) con una licenza aperta; per renderle disponibili come dati strutturati (ad es. Excel invece della
scansione dell'immagine di una tabella); per renderle disponibili in un formato aperto non proprietario (ad es.
CSV invece di Excel); inoltre si possono usare gli URI per denotare le cose, in modo che le persone possano
indicare le tue cose; infine con le ontologie si possono collegare i tuoi dati ad altri dati per fornire contesto.
Ontologie possono essere di alto livello con descrizioni molto generiche, ma anche molto dettagliate.
Inferenza delle informazioni: da una base della conoscenza, e date delle regole che io do per valide, io posso
desumere nuove conoscenze.
ontologie vengono implementate con specifici software persone che hanno una buona conoscenza
informatica limite che ha impedito la diffusione e implementazione del Web semantico certo dominio di
conoscenza, ma soprattutto degli strumenti informaticiDunque, nonostante questo strumento ha una
potenzialità davvero grande difficile usarlo e implementarlo, ha delle applicazioni di settore molto
interessanti ma è difficile che abbia lo stesso sviluppo del Web.
LEZ 10- WEB SEMANTICO-ESEMPI
Particolarmente rilevante progetto intitolato ‘5-star open data’ sistema escogitato per categorizzare i
dati aperti e collegati tra loro (linked data) fino a 5 stelle per certificare di che tipo di apertura e di
collegamento stiamo parlando.
1 data a qualsiasi tipo di dataset di informazioni che si trova sul Web accessibile e pubblicata con una
licenza aperta, formato non particolarmente importante licenza aperta è un contratto di uso dei dati che
permette a terzi di prendere informazione, usarla e riusarlavari gradi della possibilità di riutilizzo, certa
risorsa può essere semplicemente ripubblicata o per lucrarci su.
prima stella semplice da ottenere e possibilità di dare una licenza aperta toglie la rogna di ogni volta
chiarire cosa si può fare e cosa no con certi dati in maniera legale o meno.
In generale non basta mettere un dato su internet perché sia dato per apertofondamentale specificare sotto
quali termini i terzi possono interagire con questa risorsa.
vantaggi per colui che pubblica questi dati: molto semplice pubblicare.
2 si dati che noi pubblichiamo sono offerti come dati strutturati es. Excel invece è un dato
strutturato (dati tabellari) dato strutturato meglio di un dato che non lo è più facile l’accesso, la modifica
e la condivisione.
Quando acquisizioni raster, il testo contenuto in elenchi e tabelle non è riconosciuto dalla macchina come
testo e quindi, non ricercabile punto di vista del consumatore: Excel meglio per l’utente che non deve
ricopiare magari la stessa tabella da una foto inoltre dati possono essere esportati in qualsiasi altro formato
Punto di vista dell’editore: seconda stella è un sistema semplice
3 più complicato bisogna utilizzare nella pubblicazione dei dati formati aperti rispetto ai formati
proprietari (es. CSV al posto di Excel)aspetto importante per la vita del dato digitale
Quando trattiamo dei dati digitali abbiamo bisogno di un software in mezzo per visualizzarlo
Se archivio vecchio di tot anni possiamo avere difficoltà ad accedere ai dati Serve, dunque, una
consapevolezza in più sui formati con cui archiviare o pubblicare dati.
Excel è un formato proprietario sviluppato dalla Microsoft; fino a poco tempo fa era esclusivo; quindi, chi
usava Excel doveva pagare dei diritti d’autore alla Microsoft per poter pubblicare con quel programma e
quel formatoformati proprietari ad un certo punto richiedono una forma di denaro o simili in sottoforma di
royalties ad un’aziendaimportante se si pensa a file che si vuole utilizzare a lungo termine alcuni
formati non potremo poi accedervi fra tot anni.
Fino alla terza stella buone pratiche per garantire l’accessibilità ai dati anche a lungo termine
fondamentale per chi pubblica dati online.
4 per dare la possibilità di creare collegamenti allora bisogna che implementiamo i nostri dataset con
degli URI (identificatori univoci) che permettano di avere degli indirizzi possibilità di citare determinati
oggetti/informazioni, e quando si è definito l’identificatore per ogni elemento del dataset possiamo collegarli
tra loro, e utilizzare i dati in maniera parziale estraendoli e tenendoli da parte. URI alle tue risorsecitabilità
da fuori da parte delle persone. Utilizzo dello standard RDF per rappresentare conoscenza su un dominio
ottimizzazione dell’accesso.
Vantaggi per il consumatore puoi collegarti a questi dati da qualsiasi posto, puoi riutilizzare parti dei dati e
segnarli come segnalibri, e infine puoi collegare i dati ad altri in maniera sicura.
5 dati collegati a qualcosa che sta fuori il tuo dataset i nostri URI non solo descrivono i dati ma
danno anche delle corrispondenze. La quinta stella è quando i nostri daticollegamenti che vanno verso
fuori, verso altri database che contribuiscono in maniera attiva a creare un grafo condiviso.
Vantaggio del consumatore poter scoprire altri dati mentre se ne consultano
Come editorecon questo sistema rendi i tuoi dati rilevabili e incrementi il loro valore; tuttavia necessario
investire in risorse per collegare i tuoi dati ad altri dati sul Web e potresti dover riparare collegamenti
interrotti o errori.
Pretendere che le persone normali pubblichino linked data a 5 stelle utopiagrande investimento sia di
competenze che nell’organizzazione dello sforzo dei datidifficile che il web semantico in questa funzione
si diffonda come è successo per il Web.
Uno dei prodotti che utilizziamo giornalmente che fa utilizzo massiccio di tecnologie semantiche
Knowledge Graph di Google.
knowledge graphmodo di rappresentare la conoscenza attraverso la teoria dei grafi, nodi e archi orientati
che sono etichettati con un significato.
Grafo di Google utilizzato per fornire risultati di ricerca una ricerca e vari risultati pertinenti e sono tutti
concetti diversi tra lorolegittimo che Google ci dia tutte queste informazioni. MA! Problema:la gente cerca
cose precise, dunque è fondamentale che esca dalla ricerca il concetto preciso e non la stringa di possibili
significati knowledge graph= tentativo di organizzare la conoscenza non con database testualiGoogle
vuole andare oltre le stringhe catalogare non attraverso le stringhe ma attraverso le cose, i concetti, le
persone o i luoghi, le cose concrete di cui Google ha delle informazioni.
Knowledge Graph ti consente di cercare cose, persone o luoghi che Google conosce e ottenere
immediatamente informazioni rilevanti per la tua domanda.
primo passo fondamentale per costruzione della prossima generazione di ricerca attinge all'intelligenza
collettiva del web e comprende il mondo un po' più come fanno le persone.
Knowledge Graph attualmente contiene più di 500 milioni di oggetti, oltre a oltre 3,5 miliardi di fatti e
relazioni tra questi diversi oggetti ottimizzato in base a ciò che le persone cercano e a ciò che scopriamo
sul Web sorgente di dati che ha attinto all’inizio almeno da alcune iniziative comunitarie come Wikipedia.
Cambio di paradigma: utilizzare da parte di Google non più un database che cerchi il testo ma uno che cerchi
le cose (organizzare le banche dati non in base ai siti contenenti un determinato testo ma risorse collegate a
determinati concetti) Una delle prime materializzazioni di questo tipo di approccio è la barra sulla destra
delle informazioni che Google, che propone una scheda riassuntiva organizzata in maniera coerente che dà in
poche parole e immagini una panoramica del concetto che abbiamo cercatoinformazioni strutturate molto
pertinenti riquadro delle ricerca di Google è un’analisi non puramente di dati ma un’analisi sui concetti.
Prima di Google Freebasebanca di dati strutturati su tecnologie semantiche creata in maniera
collaborativauna specie di Wikipedia per dati strutturati.
2010 Freebase acquistata da Google;
2014 il sito viene spento poiché non serviva piùmolte protesteGoogle ha finanziato un processo per
prendere tutti i dati di questo sito e utilizzarli per altro progetto molto più grande Wikidata.
Wikidata database secondario gratuito, collaborativo, multilingue dati strutturati di supporto a
Wikipedia, Wikimedia Commons, gli altri wiki del movimento WikimediaEs. Quasi tutte le immagini che
usiamo su Wikipedia linkate anche all’interno di Wikidata database secondario che dà anche le fonti
delle informazioni.
Wikipedia giustifica tutto quello che dice perché riporta le sorgenti delle informazioni; Wikidata fa lo stesso.
Dal punto di vista dell’interfaccia si assomiglianousano lo stesso CMS per pubblicare i dati.
La filosofia di base servizio deve essere libero, aperto e gratuito: tutte le informazioni contenute in
Wikidata devono essere rilasciate sotto Creative Commons Public Domain Dedication 1.0 (licenza che
permette il riutilizzo dei dati in qualsiasi modo).
Caratteristiche di Wikidata:
Gratuito è possibile il riutilizzo dei dati in molti scenari diversi. Puoi copiare, modificare,
distribuire ed eseguire i dati, anche per fini commerciali, senza chiedere il permesso.
Collaborativo dati inseriti e gestiti dagli editori di Wikidata, che decidono le regole di creazione e
gestione dei contenuti. Anche i bot automatizzati inseriscono dati in Wikidata.
Multilingue
database secondario Wikidata registra non solo le dichiarazioni, ma anche loro fonti e le
connessioni ad altri database.
raccolta di dati strutturati.
supporto per i wiki di WikimediaWikidata assiste Wikipedia con caselle informative e
collegamenti ad altre lingue più facilmente gestibili.
Chiunque può utilizzare Wikidata
La norma editoriale di Wikipedia è quella di avere degli oggetti (item) che sono definiti da un Q, un numero
progressivo Wikidata intende con questo simbolo un concetto. Poi ci sono delle proprietà (i verbi) che
possono essere utilizzati all’interno di questa ontologia prefisso P.
Esiste quindi un vocabolario delle varie proprietà che noi possiamo usare e infine c’è il valore, che può
essere un'altra Q, un altro item o una stringa.
Il repository Wikidata costituito principalmente da elementi, ognuno con un'etichetta, una descrizione e un
numero qualsiasi di alias. Gli articoli sono identificati in modo univoco da una Q seguita da un numero es.
Douglas Adams (Q42) dichiarazioni descrivono le caratteristiche dettagliate di un articolo e sono costituite
da una proprietà e da un valore. Le proprietà in Wikidata hanno una P seguita da un numero, come con
educated at (P69) nel linguaggio di Wikipedia quest’informazione viene codificata con dei numeri e delle
lettere e cliccando su di essi posso accedere a tutte le risorse collegate a questi concettiWikidata utilizza
come linguaggio strutturato SPARQL.
Molti sono i progetti basati su Wikidata da parte di terziapplicazioni che utilizzano il database semantico
di Wikidata es progetto che può essere usato per studiare storiaHistropedia, che ci permette di creare linee
del tempo per esplorare dei fenomeni storici particolari
Openart browser possibilità di esplorare l’arte che è contenuta in Wikidata in connessione con le
immagini contenute su WikiCommons secondo vari elementi di ricerca, come ad esempio gli artisti, ma
anche correnti, tipologie monumentali, musei, materiali, ecc.
Reasontatorpermette la composizione automatica e in tempo reale di una pagina Wikipedia scrive le
pagine attraverso un software in base ad una ricerca che noi facciamo va a pescare su Wikidata delle
informazioni e le impagina come fa Wikipedia.
A livello europeoprogetto Europeanautilizza tecnologie semantiche e promuove la digitalizzazione dei
beni culturali in senso lato e l’accessibilità deve essere garantita a tutti i cittadini europeimettere in
evidenza il patrimonio culturale e scientifico, per ispirare la creazione di nuovi contenuti e incoraggiare
l'emergere di nuovi servizi online democratizzare l'accesso e sviluppare la società dell'informazione e
l'economia basata sulla conoscenza
4 concetti fondamentali di Europeana:
Aggregazione non database centralizzato ma un’iniziativa aggregataraccoglie dei dati che
ciascuno degli stati membri possiede e mantiene per conto suo fornisce motore di ricerca unificato
pescando in tutte le banche dati dei vari stati.
Facilitaresostenere il settore del patrimonio culturale e scientifico
Distribuire rendere il patrimonio disponibile agli utenti ovunque si trovino.
Coinvolgimento utenti possono partecipare al loro patrimonio culturale e scientifico.
In realtà ci sono tantissimi altri database semantici es. Nomisma.org per le risorse numismatiche.
Kerameikos.orgdatabase relativo alla ceramica dipinta antica, soprattutto attica ma non solo che raccoglie
informazioni su temi religiosi, iconografici, sulle forme vascolari ecc. ricercatori che pescano i dati dai
grandi musei internazionali che mettono a disposizione pubblicando le proprie informazioni sotto forma di
linked data. Linked datausati moltissimo per implementare e creare questo tipo di progetti collaborativi.
Pleaidesdatabase dei luoghi antichi del Mediterraneo che mette dunque al centro la toponomastica. Nato
per il Mediterraneo, esso si sta allargando al centro Asia.
Problema di database centralizzati (come Pelagios) che affligge un po’ la ricerca scientifica fatta con
strumenti online: finché agisce un’industria con un interesse economico, le risorse sono disponibili, ma
quando intervengono anche in progetti ben strutturati ma con un’area ristrettagrossi rischi di perdere le
risorse. Pensare alla conservazione a lungo termine delle risorse è un punto molto importante e problematico.
Si tratta di un modo grafico di rappresentare in maniera sintetica e facile un dominio della conoscenza.
Entity relationship model / ER Diagram, è una
rappresentazione grafica in cui in maniera più o meno espressiva io posso raccontare cosa faccio con un
determinato dominio.
Esistono maniere più espressive per rendere questi tipi di diagrammi Crow’s foot notation (zampe di
corvo in inglese perché ricordano i simboli utilizzati)simbologia più espressiva per mappare vari tipi di
relazionistrumento grafico per descrivere in maniera concreta i dati.
L’ER diagram permette poi di mettere in relazione i risultati di più tabelle
singole, creando connessione.
Se stiamo descrivendo due oggetti diversi bisogna dividere in due tabelle
diverse questi dati, ma poi si possono collegare. Tutti gli oggetti e le entità
possono essere allargati nelle colonne e dunque posso aggiungere informazioni
come voglio. I dati possono essere collegati ad es. attraverso la
presenza di un attributo o campo particolare che è in questo caso l’id-autore.
Nella tabella delle opere devo riportare
riferimento esterno a informazioni sull’autore
inserimento id dell’altra tabella degli autori.
L’idprimary key,
l’identificatore ossia id-autore chiave esterna
(foreign key)
Dunque, un modello relazionale di questo tipo
dà gli strumenti in maniera automatizzata per
unire tutti gli elementi tipo di unione
‘join’ una delle funzioni fondamentali del
modello relazionale per le banche dati unione
tra le due tabelle, è questa la connessione modello relazionale mi dà la possibilità di avere anche mappe
molto articolate ma prendendo le info nelle varie entità/oggetti logici in cui sono state mappate in origine.
L’asserzione che esplicitava la connessione delle tabelleesprimibile in linguaggio specifico di
programmazione vari tipi di join (collegamenti)possono essere esplicitati attraverso la teoria degli
insiemi: unire un minimo di due o più entità e dunque di fonti di dati, e con essi possiamo avere vari tipi di
collegamenti; dunque, ci interessa l’intersezione di due tabelleLeft join significa che mi interessano tutti i
dati della prima tabella più i dati della seconda che hanno solo una piena corrispondenza; full jointutti i
dati dell’una e dell’altra e li mette insieme anche se non hanno corrispondenze; right join corrisponde a left
join ma a tabelle invertite; infine inner join inserisce al suo interno solamente i dati di intersezione.
Join=vari modi per unire le informazioni.
SQL
Nel modo di approccio delle banche dati unico linguaggio di programmazione. Se si parla di banche dati
relazionaliSQL (Structured Query Language, ossia linguaggio strutturato di interrogazione) linguaggio
formale che viene utilizzato per la programmazione, la progettazione e la gestione di dati contenuti in banche
dati relazionali oltre che gestione dei dati anche analisi linguaggio che per essere imparato richiede
moltissimo tempo; ma livello base gestito in maniera abbastanza facilitata.
SQL può essere usato per:
Creare database, tabelle e relazioni tra tabelle CREATE TABLE
Inserire dati nelle tabelle INSERT INTO
Aggiornare i dati UPDATE
Cancellare i data DELETE FROM
Estrarre (leggere, query) i datiSELECT
SQLlinguaggio unico ma esistono dei dialetti di SQL vari produttori di software implementano dei modi
dialettali per dire le stesse cose hanno introdotto formule specifiche per funzioni che hanno sviluppato loro
e non fanno parte dello standard. Talvolta dialetti introdotti anche per creare mercato, perché se impari solo il
mio dialetto non puoi andare o è più difficile che andrai da un altro produttore.
SQL oggi è uno dei linguaggi che è ritornato di moda per tutto quello che ha a che fare l’analisi dei dati
(Data science).
Esempio di asserzione in linguaggio SQL che permette di creare una relazione e dunque una tabella
‘Create table’ è la sintassi e ‘opere’ è il nome della tabella, e per ogni colonna ho un tipo di dato cioè
contiene un numero, una data, un dato binario ecc In questo caso sto anche definendo il campo ID come
chiave primaria, questo in certi dialetti fa sì che il software capisce e ogni volta che aggiungo un record egli
aggiunge un valore univoco ad esso. Con questo tipo di funzione possiamo creare tabelle, inserirvi dei dati
singoli o multipli, aggiornare i dati, cancellare dati singoli o multipli.
Con SQL possiamo modificare la struttura delle tabelle, cancellare tabelle, cancellare interi database,
duplicare e capire dati e molto di più.
Di solito usiamo strumenti con GUI (Graphical User Interface) per gestire i RDBMS (software che si
specializzano sul modello relazionale e ci forniscono il concime per gestire le nostre interfacce grafiche) e
raramente scriviamo SQL, a meno che non si faccia un uso professionale di tale linguaggio.
Di solito usiamo il SQL in DB e GIS per interrogare i dati strumento GUI difficilmente può offrire la
potenza e la flessibilità di SQL.
SELECT è l’asserzione che si usa per recuperare i dati da un database. Le interrogazioni (query) SELECT
non alterano la struttura e i dati dei database query di sola lettura, e quindi sicuri.
SELECT è un filtro e si usa per limitare la mia visualizzazione soltanto ad alcuni elementi della tabella
I
filtri sono sempre scritti come nome campo – operatore – valore. Un esempio sarebbe: Select * from opere
where autore = Lewis Caroll.
Sulla Operatori con simboli e parole
Possibile concatenare più asserzioni tramite
l’utilizzo di AND o OR o NOT
I software che funzionano con queste
caratteristiche moltissimi: es. MS Access,
FileMaker Pro, LibreOffice Base, OpenOffice
Base, SQLite, ecc. DBMS del Desktop. MS
Access è limitato al mondo Windows mentre la
maggior parte degli altri è utilizzabile su
molteplici piattaforme. Le rubriche dei nostri
telefoni SQLite.
I database sono da sempre qualcosa di collaborativo esiste un settore di mercato quando si parla di
databaseserver (database non è installato sul nostro computer ma su un server remoto a cui accediamo
tramite internet o strumenti Web)
Il programma in questo casoapplicazione che usiamo attraverso browser con cui accediamo ai nostri dati.
Oracle che è uno dei più importanti produttori di database; altri conosciuti sono MySQL/MariaDB, Microsoft
SQL Server, PostgreSQL, IBM DB2, ecc. Circa l’80% dei siti Web che visualizziamo schedano i loro dati. I
server RDBMS sono server utilizzabili per il modello relazionale.
Copyleft introdotto all’inizio nel mondo dei software e poi portato nel mondo editoriale in senso lato. Si
basa su gioco di parole sul diritto di copia (right vs left), e si traduce con ‘permesso di autore’.
Copyleft indica il fatto che certi tipi di regole su come distribuire un software libero sono accettabili quando
non entrano in conflitto con le libertà appena viste regola secondo la quale un programma è ridistribuito da
un terzo, non dal soggetto che l’ha creato, attraverso uno strumento legale, per cui non è possibile aggiungere
nuove restrizioni per negare libertà che erano garantite dal programma inizialeCopyleft=dispositivo
legale: chiunque rilasci versioni successivenon può mettere vincoli di licenza che vietano le 4 libertà
quello che nasce libero deve rimanere libero fondamentale perché all’inizio degli anni ’80-’90 con le
guerre di monopolio (es tra Microsoft e mondo del software libero), si prendevano programmi sviluppati
dalle comunità di sviluppatori, mettevi etichetta come Apple e Microsoft e vendevi senza ridistribuire il
codice, li miglioravi senza rimandare indietro le migliorieprogramma negava le 4 libertà
Copyleft da subito sbarcato nel mondo dell’editoria tradizionale.
Linux uno dei grandi ambiti in cui questo movimento ha preso piede, e tra i vari tipi di progettiDebian
Free Software Guidelines (DFSG) ha definito quali sono le libertà principali di filosofia che loro hanno
deciso per distribuire e promuovere lo sviluppo del loro softwareDebian sviluppa software e rilascia
sistemi operativi tutt’oggi una delle case di sviluppo più importanti nel mondo GNU Linuxfilosofia che
prevede diversi punti:
Libera ridistribuzione: la licenza di un componente Debian non può porre restrizioni a nessuno per
la vendita o la cessione del software come componente di una distribuzione software aggregata di
programmi proveniente da fonti diverse. La licenza non può richiedere royalty o altri pagamenti per
la vendita.
Codice sorgente: il programma deve includere il codice sorgente e deve permettere la distribuzione
sia come codice sorgente che in forma compilatacodice sorgente deve sempre essere disponibile e
distribuito insieme al programma.
Lavori derivati: Licenza deve permettere modifiche e lavori derivati e deve permettere la loro
distribuzione con i medesimi termini della licenza del software originale
Integrità del codice sorgente dell’autore: la licenza può porre restrizioni sulla distribuzione di
codice sorgente modificato solo se permette la distribuzione di ‘file patch’ insieme al codice
sorgente con lo scopo di modificare il programma durante la compilazione. La licenza può richiedere
che i lavori derivati abbiano un nome o numero di versione diversi da quelli del software originali.
Compromesso: gruppo Debian invita tutti gli autori a non impedire che file, sorgenti o binari
possano essere modificati.
Nessuna discriminazione di persone o gruppi
Nessuna discriminazione nei campi di impiego: non può porre restrizioni all’uso commerciale o
nella ricerca genetica.
Distribuzione della licenza: i diritti applicati al programma devono essere applicati a chiunque
riceva il programma senza il bisogno di utilizzare licenze addizionali di terze parti.
La licenza non può essere specifica per Debian: i diritti applicati al programma non possono
dipendere dal fatto che esso sia parte di un sistema Debian. Se il programma è estratto da Debian e
usato o distribuito senza Debian ma ottemperando ai termini della licenza, tutte le parti alle quali il
programma è ridistribuito dovrebbero avere gli stessi diritti di coloro che lo ricevono con il sistema
Debian.
La licenza non deve contaminare altro software: la licenza non può porre restrizioni ad altro
software che sia distribuito insieme al software concesso in licenza.
Esempi di licenza: le licenze ‘GPL’, ‘BSD’, e ‘Artistic’ sono esempi di licenze che consideriamo
‘libere’.
Open Source deriva la sua definizione dalla dichiarazione di Debian. Cosa s’intende con sorgente
aperta? software che è disponibile per tutti ed ha le seguenti caratteristiche:
Ridistribuzione gratuita.
Codice sorgente.
Opere derivate
Integrità del codice sorgente dell'autore
Nessuna discriminazione nei confronti di persone o gruppi
Nessuna discriminazione contro i campi di impegno
Distribuzione della licenza
La licenza non deve essere specifica per un prodotto
La licenza non deve limitare altri software
La licenza deve essere neutrale dal punto di vista tecnologico
Il penultimo puntopossibilità di utilizzare software Open Source per creare software a sorgente chiusa;
questa è la violazione del cosiddetto copyleft.
Solitamente viene detto che il software Open Source e basta, non libero, non garantisce il copyleft da
software Open Source possono nascere software commerciali perché la licenza non deve restringere, non
deve determinare i prodotti derivati grandi promotori di Open Source oggi sono le vecchie compagnie di
software come Windows, Apple, Google, ecc.
Gran parte dei prodotti Google nascono da progetti Open Source, vengono supportati da tale progetto ma
sono sostanzialmente dei prodotti perfettamente commerciali a sorgente chiusa.
Open Source è diverso software liberi, anche se i due concetti in gran parte si sovrappongonovalori
fondamentalmente diversiL'open source è una metodologia di sviluppo; il software libero è un movimento
sociale, imperativo etico Al contrario la filosofia dell'open source pensa a come “migliorare” il software
soltanto da un punto di vista pratico. Dice che il software non libero è una soluzione non ottimale.
Negli anni ‘90 e 2000 era diverso, Windows ha fatto guerra feroce all’Open Source perché promuoveva
un altro tipo di sviluppo; oggi lo stesso Windows promuove lo sviluppo Open Source perché costa meno e ha
grande qualità di sviluppo.
Il mondo del free software grossomodo oggi si articola intorno a GNU Projecttentativo di riportare la
libertà di sviluppare il progetto UNIX dopo che lo sviluppo collaborativo era stato chiuso per un progetto
commerciale GNU è una serie di pacchetti di software liberi sviluppato da terzi, liberi con copyleft.
Sistema operativo GNU è costituito da pacchetti GNU (programmi rilasciati specificamente dal Progetto
GNU) e da software libero rilasciato da terze parti.
GNU è un sistema operativo simile a Unixraccolta di molti programmi: applicazioni, librerie, strumenti
per sviluppatori e persino giochi.
Sviluppo di GNU, iniziato nel gennaio 1984, è noto come GNU Project. Molti dei programmi in GNU sono
rilasciati sotto gli auspici del Progetto GNUpacchetti GNU.
Nome "GNU" acronimo ricorsivo per "GNU's Not Unix". “GNU” si pronuncia g'noo,
Il programma in un sistema simile a Unix che alloca le risorse della macchina e comunica con l'hardware è
chiamato "kernel"kernel chiamato Linux. Questa combinazione è il sistema operativo GNU/Linux.
GNU/Linux è usato da milioni di persone, anche se molti lo chiamano "Linux" per errore.
Il kernel di GNU, The Hurd, è stato avviato nel 1990 (prima dell'avvio di Linux).
Le licenzecontratti d’uso con i quali chi rilascia un software determina cosa i soggetti terzi possono fare o
meno GNU ha fatto tanto sforzo legale e hanno scritto una licenza comunitaria che si chiama GPL
(General Public Licence) che ha differenti versionilicenza che ha un valore legale e che esplicita in
maniera chiara tutta questa filosofia.
Con GPL si può utilizzare il software per scopi commerciali; modificare il software e creare derivati;
distribuire originali o modificati opere (derivate); c’è la possibilità di applicare una garanzia sul software
concesso in licenza; si possono esercitare le rivendicazioni di brevetto dei contributori al codice.
Cose che non si possono fare con GPL: vieta la sublicenza, ma ogni utente che riceve il software ha
automaticamente il diritto di eseguire, modificare e far debuttare il lavoro. Infine, GPL 1. deve includere le
copie del software originale o le istruzioni per ottenere le copie devono essere distribuite con il software;
2.deve indicare le modifiche significative apportate al software;3. tutto il codice collegato al codice sorgente
deve essere distribuito con una licenza compatibile;4. il testo della licenza deve essere incluso completo nel
software modificato; 4. il copyright originale deve essere mantenuto; 5.se il software fa parte di un
dispositivo consumer, è necessario includere le informazioni di installazione necessarie per modificare e
reinstallare il software.
Altra licenza molto diffusa è MITa differenza di GNU, la puoi sottolicenziareposso prendere un
software MIT e ridistribuirlo con un altro tipo di licenza; è Open Source insomma.
Inoltre, con MIT è possibile 1. utilizzare le opere commercialmente; 2.apportare modifiche al lavoro;
3.distribuire il codice compilato e/o il sorgente; 4. puoi incorporare il lavoro in qualcosa che ha una licenza
più restrittiva; 5. puoi utilizzare l’opera per uso privato.
Inoltre con MIT è necessario includere l’avviso di copyright in tutte le copertine o usi sostanziali dell’opera;
è necessario anche includere l’avviso di causa in tutte le copie o documenti sostanziali dell’opera.
Esistono licenze aperte per i dati con cui posso distribuire un software ma anche dei contenuti (dunque dei
database) possibilità di definire una licenza aperta per i dati esiste grazie a ODC (Open Database
License) che definisce in maniera semplice vari tipi di possibilità su come io posso rilasciare dei dati.
Senza indicazione di licenza c’è violazione di copyright su qualsiasi tipo di contenuto digitale soluzione:
Creative Commons problema: Internet così com’è non funziona, io devo poter pubblicare i contenuti e
tutelare sempre la mia creazione, ma la vecchia legge non me lo permette necessità di uno strumento per
prendere coscienza sul mondo dei diritti di copyright e della licenza nel mondo digitale, strumento che dia
possibilità di lavorare nel mondo dell’Open Access (nell’editoria è l’accesso aperto ai contenuti)
Creative Commonsportale, fondazione che ha cercato di creare degli strumenti semplici per gente comune
per dare la possibilità di provvedere delle licenze d’uso facili da usare e capire per le proprie creazioni
strumentario estremamente semplice, che parte da una licenza più aperta che corrisponde a CC 0 (nessun
diritto) e arriva fino alla licenza di minima apertura (combina alcune caratteristiche che Creative
Commons esplicita attraverso delle sigle)
Creative Commons definisce 4 strumenti, ovvero BY (Attribution, dunque Attribuzione), SA (ShareAlike,
dunque condividi allo stesso modo), ND (NoDerivs, dunque non opere derivate), NC (NonCommercial,
dunque non sfruttamento commerciale)opzioni che puoi legare in vario modo.
Dal punto di vista della fornitura del servizio è possibile distinguere 4 modelli di distribuzione
- Public Cloud;
- Community Cloud;
- Private Cloud;
- Hybrid Cloud.
Public Cloudusiamo giornalmente, es. Google Drivegarantisce una maggiore agilità operativa e una
“scalabilità” illimitata, perché sfrutta le funzionalità e le risorse di calcolo e storage specifiche di grandi
fornitori come Google, Microsoft e Amazon Tuttavia problemi di tutela del dato personalecloud non è
regolamentato.
L’infrastruttura del community cloud specifica comunità di utenti o di organizzazioni che hanno interessi
condivisi. Può essere di proprietà, gestita e resa operativa dall’organizzazione di terzi es. Account
Sapienza da cui accedere ai corsi di Classroomchi non ha mail istituzionale non può accedervi.
Private cloud offre a un'azienda un maggiore controllo e una maggiore sicurezza rispetto a un public
cloud private cloud presenta un’infrastruttura predisposta per l’uso esclusivo da parte di un’unica
organizzazione (con più utenti)usato dalle aziende per garantire una tutela dei dati.
Hybrid cloud due o più strutture cloud distinte, privata pubblica o comunitariaapproccio ibrido
consente alle applicazioni e ai componenti di interagire oltre i confini, tra istanze cloud e persino tra
architetture. Anche per i dati è necessario lo stesso livello di flessibilità di distribuzione e accesso. Es.servizi
di posta elettronica quali Gmail e Microsoft.
La tecnologia cloud offre eccellenti prospettive anche per le applicazioni GIS Tuttavia GIS aveva un
problema, ovvero l’immagazzinamento dei dati che sono molto pesantiaccordo tra Cloud e GIS che ha
fatto nascere GIS CLOUD per gestire, elaborare dati raster e vector ecc. e soprattutto in questo modo si è
arrivata alla creazione di strumenti come con Google MapsGIS cloud è un sistema di tipo SaaSambiente
virtuale e condiviso in cui alcuni utenti, preventivamente autorizzati e con diversi livelli di accesso, possono
interagire da postazioni remote dislocate anche in posti fisicamente molto lontani tra loro, scambiandosi dati
e informazioni, spesso di natura eterogenea, relativi alla creazione e allo sviluppo di cartografie tematiche.
GIS cloudstrumento versatile anche per far emergere i contesti di studio e la loro storia per finalità
divulgative e turistiche. Con suo passaggio al web e al Cloud computing e l'integrazione con le informazioni
in tempo reale tramite l'Internet of Things, il GIS è diventato una piattaforma rilevante per quasi tutte le
attività umane.
Rischi nel Cloud Computing: servizio conveniente, ma rischioso per la conservazione dei datidanno
enorme. I vantaggi sono la scalabilità, la flessibilità e l’ubiquità: grazie a Cloud non bisogna sostenere e
mantenere l’hardware, si paga ciò che si consuma ma! svantaggi: privacy, perché il provider del servizio
Cloud può avere accesso ai dati dell’utente; può esserci migrazione dei dati stessi perché non abbiamo
accesso all’algoritmo che manipola i dati; la sindrome del dé-jà vu, ovvero il progresso tecnologico viene
visto come la soluzione di problematiche amministrative e operative inerenti ai sistemi informatici e
informativi.
I servizi di conservazione utilizzano un software specific, contestualizzabile nel principio del cloud deve
essere di tipo SaaS software utilizzato per la conservazione deve essere basato su applicazioni “multi-
tenant” (noleggiabili da più utenti contemporaneamente con codice non dedicato al cliente, ma uguale per
tutti). I servizi di conservazione sono:
- Submission, detto anche invio, ingerisce i dati in un ambiente di conservazione.
- Characterization detto anche caratterizzazione, identifica le proprietà tecniche, archivistiche e di
rappresentazione dei dati.
- Authenticity detto anche autenticità, cattura e riporta informazioni riguardanti l’identità e l’integrità dei
dati, e l’applicazione dei metodi di autenticazione.
- Preservation Storage, detto anche immagazzinamento, controlla l’archivio dei dati per mantenerne
l’identità, prevenirne la corruzione, e soddisfare gli altri requisiti di conservazione.
- Preservation Change, detto anche cambio di conservazione, governa i cambiamenti tecnologici, come la
migrazione di formato o la sostituzione di software.
- Access, detto anche accesso, fornisce la capacità di consegnare copie di dati.
L'avvento del Cloud computing, secondo Stallmanriproporre l'antica questione del Software free
contrapposto a quello non libero, il rischio è che se all'inizio questi servizi possono apparire più economici (o
addirittura gratuiti) rispetto agli standard attuali, nel lungo periodo possono, invece, rivelarsi costosi.
Questione deve essere affrontata con particolare attenzione nel caso in cui i dati affidati alla gestione del
fornitore dell’infrastruttura da parte dell’utente, titolare del trattamento, riguardino terzi interessati: caso
della pubblica amministrazione.
La ricostruzione del magmatico quadro giuridico in materia di Cloud computing ha evidenziato come
nuova tecnologia sollevi questioni di grande attualitàspunti offerti dal Cloud per una nuova riflessione sui
paradigmi dell’appropriazione: in crisi le teorie da sempre adoperate per sostenere la riducibilità degli
Intellectual Property Rights (l’etichetta dietro la quale confluiscono i detentori di interessi sulle opere
prodotte)diritto alla protezione dei dati personali è un diritto fondamentale della persona, appare nella
Carta dei Diritti Fondamentali dell’Unione Europea (CEDU) che all’art. 8 (ogni individuo ha diritto alla
protezione dei dati che lo riguardano) Tale diritto lo si ritrova anche nel D.Lgs 196/2003 noto anche come
Codice Privacy, all’art.132 fa riferimento ai dati inerenti al traffico telematico, i quali possono essere
conservati dal fornitore del servizio solo per dodici mesi.
unica eccezione per i fornitori di servizi Cloud hanno bisogno di monitorare l’uso per scopi di controllo
della qualità.
A livello mondiale, il mercato del Cloud è aumentato del 4,07% e ulteriore espansione del mercato. La
speranza è che i leader mondiale delle infrastrutture Cloud non influiscano negativamente lo sviluppo per
interessi economici, ma collaborino tra loro per rendere questa tecnologia fruibile a tutti.
Marc Benioff, CEO di Saleforcepotenza del Cloud computing è la democratizzazione della tecnologia.
Repositories di metadati es. Europeana Collections per raccogliere informazioni e oggetti digitali sulla
cultura europea. I Repositories online sia di metadati sia di oggetti sono molti: Crossref, Web of Science,
Google Scholar, PubMed, Zotero, Mendeley, ecc
Un altro argomento importanteOpen Access (strumento che dà una garanzia per il futuro) Non significa
solo non pagare per un contenuto, ma è una strategia per proteggere un certo contenutopossibilità per gli
utenti di accedere liberamente e senza costi aggiuntivi ad una pubblicazione online 2 tipologie di Open
Access: il GRATIS OAagli utenti è garantito l’accesso senza costi ai contenuti; o il LIBRE OAoltre
all’accesso senza costi (GRATIS OA) sono garantiti agli utenti anche altri diritti di sfruttamento.
Europa e in Italia quasi tutti i progetti di finanziamento della ricerca obbligano alla pubblicazione in Open
AccessEsistono poi diversi metodi di Open Access:
- Green road: contributi auto-archiviati (pratica del self-archiving) da parte degli autori istituzionali e/o
personali (ad esempio academia.edu)prevede un embargo, ovvero un periodo di tempo trascorso il quale è
possibile per l’autore di auto-archiviare i testi editi in altre sedi; e l’archiviazione del pre-print, ovvero del
contributo prima che venga sottoposto alla redazione editoriale. La green road può essere realizzata in varie
modalità, o tramite embargo o archiviazione pre-print.
- Gold road: contributi pubblicati in riviste che sono direttamente ad accesso libero. Ad esempio la stessa
casa editrice mantiene online un repositories con pdf o HTML di tutti gli articoli di una determinata rivista.
- Diamon Open Access: nessun costo né per gli autori né per i lettori.
Esistono dei depositi ed enti certificatori dell’Open Access, ad esempio DOAJ o DOAB.
si dice che il digitale non costa nulla rispetto ad altre pubblicazioni, come libri cartaceigrafici
semplificatorilibro cartaceo ha dei costi iniziali molto grandi: per la produzione e il magazzino ma dopo
sono costi che ammortizzi vendendo i libri e guadagnando inoltre gli altri costi calano con il tempo.
Nell’editoria digitale questi costi iniziali non ci sono, almeno non completamente perché non c’è la stampa, i
costi di distribuzione, di trasporti ecc. Ma i costi del digitale nel tempo tendono ad aumentare, ad
essere costantemente in salita, perché manutenzione dei Repositories, l’aggiornamento dei metadati e il
rinnovo dei supporti hanno dei costi sempre più crescenti. La gestione dei contenuti digitali e le garanzie di
accesso e accessibilità vanno oltre la prospettiva di vita nostra e tutto questo ha un costo.
Zenodo è una piattaforma creata dal Cern di Ginevra, una piattaforma aperta dove chiunque si può iscrivere
e creare un account e depositare i nostri oggetti digitali gratuitamente, senza limiti di spazio e di tempo. Per
ogni oggetto esso ci dà anche un DOI, così abbiamo la possibilità di citarlo.