Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
L'informatica è una disciplina che si occupa del trattamento automatico dell' informazione
SCIENZE DELL'INFORMAZIONE: in generale tutte quelle discipline che si occupano dei processi e dei sistemi
di reperimento, conservazione, trasformazione e trasmissione dei dati informativi.
Cosa fa la COMPUTER SCIENCE, quindi diremmo? C'è spazio per ambiguità? Ciò che la <costringe a fare è
trasformare i dati, tutti gli oggetti che portano informazioni, costruiti in base a precisi schemi e secondo
specifiche regole. Quello che è formalizzato diventa computabile. Ambiguità e indeterminatezza devono
essere sostituiti da schemi e regole, strutture e modelli.
L'informatica costringe i saperi tradizionali a fare cosa? Diremo che l'informatica obbliga a RENDERE
ESPLICITI I PROCESSI che coinvolgono l'oggetto di studio delle discipline umanistiche(Ciotti, 2002).
L'informatica cioè «costringe i saperi tradizionali a dichiarare e formalizzare le proprie procedure»
(Ferrarini, 2006).
La Informatica Umanistica (IU)affonda le sue radici nel settore della? - Le prime sperimentazioni sono
condotte con quale scopo e con chi nel 1949? Senza voler fare una storia dettagliata della IU , alcune
considerazioni sono necessarie per contestualizzare l'ambito di interesse di questa disciplina ormaisolo
relativamente recente. L' IU affonda le proprie radici in un settore denominato LINGUISTICA
COMPUTAZIONALE:- Le prime sperimentazioni disciplinari si collocano nel TENTATIVO di automatizzare
PROCEDIMENTI MANUALI di estrazione di parole da corpora di dati. Siamo nel 1949 e Padre Roberto Busa
inizia a produrre l'index verborum (o meglio le concordanze) degli opera omnia di Tommaso d'Aquino.
Si colloca negli anni 70 la fondazione della rivista ' Computers and the Humanities" e la salita di quali
associazioni? Un uso ancora strumentale della macchina informatica porta a una progressiva riflessione
sulle metodologie legate all' analisi del testo. Il risultato si colloca nella fondazione della rivista "Computers
and the Humanities" (siamo nel 1966) e nella nascita, negli anni settanta del secolo scorso, di due
importanti associazioni: l'Association for Literary and Lin-guistic Computing (ALLC; fondata nel 1973, e
l'Association for Computer in the Humanities (AcH, fondata nel 1978).Ogni anno ACH e ALLC organizzano
una conferenza internazionale che costituisce il punto di riferimento per il settore della humanities
computer science. Iniziano, dalla metà degli anni settanta, i primi convegni internazionali e nascono
numerosi centri di humanities computing. I membri di ACH e ALLC sono editor di un'altra importante rivista
di setto-re: "Literary and Linguistic Computing" < http://llc.oxfordjournals.org > (fondata nel 1986). ACH
gestisce poi la lista di discussione "Humanist", «an international electronic seminar on humanities
computing and the di-gitai humanities» < http://www.princeton.edu/ ~ mccarty/humanist/ > (il primo
volume è del 1987-88).
Alla fine anni 80 si ha poi lo SGML, e negli anni 90 cosa? Arriviamo così alla fine degli anni ottanta,
momento di riflessione sulle problematiche connesse con la rappresentazione digitale del testo tramite
linguaggi specifici di codifica. - La disponibilità dei personal computers permette nuove sperimentazioni nel
campo. Nel 1986 lo Standard Generalized Markup Language (SGML). Gli anni novanta del Novecento sono
segnati dall'avvento del World Wide Web che consente la pubblicazione online di materiali in formato
digitale e porta a un progressivo ampliamento dell'orizzonte di scambio nella comunità dell' IU.
Qual è l'obiettivo dell'umanista con L'informatica Umanista? Diremo che l'umanista deve essere in grado,
per ogni tipo di fonte su cui lavora, di comprendere quale è la strategia computazionale più adeguata.
Ogni fonte può essere cioè destinata a un trattamento differente, a seconda di quelle che sono le sue
caratteristiche: un testo letterario sarà sottoposto a un procedimento digitale diverso da un documento
d'archivio, l'immagine di un dipinto andrà trattata in modo differente da una raccolta bibliografi-
ca. Sarà poi necessario valutare cosa si intende fare con tale oggetto digitale
(riversarlo in rete o archiviarlo) e cosa si intende ottenere dalla risorsa digitalizzata (per esempio
visualizzarla, interrogarla, renderla scaricabile dall'utente). Ogni fonte materiale esigerà allora un diverso
approccio metodologico e tecnico: un manoscritto richiederà la digitalizzazione in formato immagine o in
formato testo; una raccolta di schede bibliografiche troverà nel database la sua strutturazione ideale; un
testo elettronico renderà necessario l'impiego di linguaggi formali di codifica come XML e così via.
Ogni oggetto digitale complesso disporrà allora di metodi diversi di inter-rogazione, consentirà il
reperimento di certi tipi di dato e prevederà l'impiego di strumenti differenti di accesso.
Importanti sono gli strumenti software, anche detti come? Per quale obiettivo e nel costruire cosa per
l'umanista? Diversi quindi i modelli di riferimento, ma anche gli strumenti software
(text tools), che consentiranno la creazione, la manipolazione e la fruizione
della risorsa digitale.
Per progettare OGGETTI DIGITALI COMPLESSI è da parte dell'Umanista, infatti necessaria non solo la
consapevolezza dell'oggetto della ricerca, ma anche delle tecnologie disponibili, significa innanzitutto
conoscenza dei principi che stanno alla base di tali strumenti.
• OGGETTO DIGITALE: Con oggetto digitale intenderemo ogni forma di ARCHIVIAZIONE in memoria di
massa: un cesto, un documento, un'immagine ma anche un ipertesto o una base di dati. Parleremo di
oggetti digitali complessi in relazione alla presenza di più media o diversi linguaggi o ancora differenti
tecnologie che cooperano alla creazione dell'oggetto.
• CLASSE: Il problema della classificazione, cioè dell'organizzazione dei DATI in categorie, riguarda vari
ambiti di interesse: andiamo dal -concetto di classe nei database e nelle biblioteche (sistemi di
classificazione o categorizzazione) VS concetto di classe nei linguaggi di programmazione (programmazione
orientata agli oggetti) e nella costruzione di oncologie (modelli concettuali).
SISTEMA OPERATIVO ( OS= SO) = INSIEME dei programmi che consente all’utente di interagire con la
macchina. Il SO infatti:
- GESTISCE l’hardware, AGISCE COME piattaforma per i programmi, INTERPRETA ed ESEGUE (i comandi
impartiti dall’utente tramite i programmi applicativi,) GESTISCE: i dati e i programmi dell’utente tramite un
sistema di memorizzazione in file e cartelle.
- Tramite la UI, il SO rende semplice l’utilizzo delle risorse del calcolatore da parte dell’utente, essa infatti
è lo strumento che media fra l’utente e i dispositivi hardware e software.
- In Base ai limiti della Codifica, abbiamo codifica di Basso e Alto livello, ovvero?
Il codice ASCII e l’UNICODE sono strumenti che consentono la rappresentazione del testo in una
forma leggibile dal calcolatore, la cosiddetta Machine Readable form = livello di codifica (che è un
LIMITI DI CODIFICA = portabilità e compatibilità + rappresenta nella memoria del pc solo la sequenza dei
segni grafici che rappresentano il testo, un testo però contiene una serie di informazioni a vari livelli.
Distingueremo:
rappresentazione dei dati a livello di strutture intermedie che chiamiamo MARKUP: Vi è possibilità di
aggiungere alla sequenza di caratteri che rappresentano il documento digitale altre STRINGHE di caratteri
denominate MARCATORI utili a descrivere determinati aspetti funzionali alla produzione del documento
elettronico MARKUP = con esso è possibile aggiungere notizie legate alla visualizzazione e all’aspetto del
documento ma è possibile anche assegnare a sezioni del testo altri elementi descrittivi che ne definiscono
certe caratteristiche. Chiamato anche annotazione del testo = passo preliminare per ogni operazione di
successiva elaborazione o trattamento del documento digitale, elementi ed attributi sono definibili come
strumenti per il markup.
- È un processo interpretativo, risultato dall’analisi di un testo e riguarda la costruzione di un modello di
quel testo che è più adeguato alle esigenze della rappresentazione elettronica. Codificare tramite
linguaggi formali di rappresentazione del testo = vuol dire contribuire ad arginare questa
perdita, effettuare un’analisi del testo, mirata a individuarne le caratteristiche e formulare una
interpretazione della fonte
Tipologie di markup:
- Proprietario VS un organizzazione ne detiene la proprietà
NON proprietario = può essere creato e definito dall’azienda che lega le istruzioni di
codifica all’applicativo in grado di interpretarle oppure può presentarsi con un set di istruzione
standard e condivise da un insieme di organizzazioni che non ne detengono la proprietà
- Leggibile VS non leggibile = può essere delegato a un applicativo che incorpora e nasconde i
marcatori rendendo il file interpretabile solo dall’applicativo in questione, in quello leggibile invece
non è necessario ricorrere a nessun particolare programma per la visualizzazione
- Orientato al layout VS orientato alla struttura = si possono usare marcatori o per definire
caratteristiche fisiche del documento oppure per segnalare elementi di struttura logica
- Procedurale VS dichiarativo = nel primo caso si presenta sotto forma di istruzioni che specificano
determinate caratteristiche, nel secondo caso le indicazioni sono orientate alla descrizione di certe
caratteristiche formali
Abitualmente usiamo quale forma di Markup? Con l'uso di quali segni? - Qual è la funzione/scopo dei
linguaggi markup?
Abitualmente utilizziamo una forma di markup che potremmo definire puntuazionale = l’impiego di segni di
interpunzione mostra come l’uso di simboli notazionali veicoli la leggibilità del documento. Il termine
markup deriva dalla stampa tipografica per riferirsi a quell’insieme di simboli e annotazioni che l’autore o
l’editore aggiunge al manoscritto per istruire lo stampatore sulle caratteristiche del documento
Funzione linguaggi di markup = fornire un insieme di strumenti che consentano di aggiungere notizie sul
testo, queste notizie possono riguardare l’aspetto formattazione e disposizione di elementi nella pagina
- Qual è uno dei problemi dei software proprietari (word)? - What does RTF stand e che tipo di formato?
Sistemi di WORD PROCESSOR = programmi che consentono di fare operazioni di scrittura, correzione e
lettura di un testo TEXT PROCESSING = programmi che sfruttano le potenzialità grafiche del calcolatore per
tentare di rappresentare sul video esattamente ciò che apparirà sulla carta stampata
-Un problema dei software proprietari (word) è che questi legano l’elaborazione del testo a un
determinato programma, rendendo problematica la portabilità tra hardware e software diversi, impiegano
caratteri di controllo invisibili che rendono il file leggibile solo dal sistema che l’ha generato
Microsoft = formato RTF (Rich Text Format) = proprietario ma leggibile che consente lo scambio di
documenti tra varie applicazioni, il testo del documento RTF viene arricchito di nuove informazioni sulla
formattazione
- HTML = è un formato:
- non proprietario basato su SGML, è una DTD SGML che nasce nel rispetto
delle specifiche della sintassi dello standard e che prescrive un vocabolario legato a quella classe di
documenti che sono gli ipertesti. Il limite principale è l'incapacità di fornire una adeguata
rappresentazione dell'informazione. È:
1. Un linguaggio di rappresentazione CHIUSO = si può scegliere entro un numero predefinito di
elementi
2. E’ un linguaggio che ha una sintassi poco potente incapace di descrivere fenomeni complessi
3. Predilige marcatori stilistici più che strutturali
- XML = Progetto iniziato nel’ 96 nell'ambito della SGML activities del W3C, nel ‘98 le specifiche
sono diventate una raccomandazione ufficiale, con il nome di Extensible Markup Language. È un
sottoinsieme di SGML semplificato e ottimizzato per applicazioni in ambiente web , permette di
specificare molte classi di linguaggi di marcatura . Grande novità e la descrizione logica delle
informazioni testuali in formato leggibile e comprensibile dall'utente, prescindendo dalle indicazioni
relative a come i dati devono essere visualizzati = solo in un secondo momento i dati marcati in
XML possono ricevere istruzioni circa le modalità di visualizzazione. Il markup XML esprime
quindi valore della stringa di caratteri cui il tag è associato a prescindere dalle modalità di resa
grafica appunto focalizza la codifica sulla struttura e quindi sul valore dei blocchi logici,
documentando l'ordinamento gerarchico che sovraintende all'organizzazione degli elementi della fonte
La DTD (definizione del tipo di documento- Document type definition) non è in grado di distinguere fra tipi
di dati ed elementi XML che appartengono a un dato tipo con XML schema è possibile definire dei tipi di
dati e poi dichiarare quegli elementi che fanno parte di ciascun tipo, si tratta di un linguaggio formale
espressivo, perché adeguato alle caratteristiche sintattiche di XML.
Documenti DATA centric = sono quelli che presentano una struttura chiaramente individuabile e possono
essere rappresentati in un database.
1) RIVERSARE un file XML in un database relazionale quando abbiamo data centric con dati semplici e
strutturati
2) CREARE un database XML NATIVO (consigliato quando si hanno dati semi strutturati e nel caso di
document centric)
Ogni modello di testo è il risultato del punto di vista assunto sulla fonte ed è l'espressione del livello di
analisi testuale che lo studioso intende affrontare, il limite del concetto di testo è la problematicità della
definizione di genere letterario e l'ambiguità del concetto di punto di vista appunto ci sono dei macro-livelli
di intervento interpretativi, sono tre e corrispondono a 3 modelli( o 3 punti di vista):
- STRUTTURA =individuazione delle partizioni principali e secondarie del testo
- RAPPRESENTAZIONE (formato) = si intende l'aspetto FISICO del Documento, la RIPRODUZIONE in
formato digitale delle caratteristiche della versione cartacea.
- Fenomeni INTERLINEARI /CONTENUTO = scelta specifica dei fenomeni virgola in relazione alle esigenze
analitiche del lavoro di resa elettronica
Per agevolare la portabilità dei prodotti digitali e per consentire la condivisione dei formati di scambio è
stato realizzato un progetto denominato TEI= è una DTD per testi umanistici, uno schema di codifica che
vuole contemplare tutta la serie di fenomeni di interesse umanistico e trovare per ciascuno un vocabolario
unico{L'obiettivo è arrivare ad una formalizzazione per normalizzare i criteri, modalità e lessico del markup}.
Abitualmente utilizziamo una forma di markup che potremmo definire puntuazionale = l’impiego di segni di
interpunzione mostra come l’uso di simboli notazionali veicoli la leggibilità del documento.{ Il termine
markup deriva dalla stampa tipografica per riferirsi a quell’insieme di simboli e annotazioni che l’autore o
l’editore aggiunge al manoscritto per istruire lo stampatore sulle caratteristiche del documento}
Funzione linguaggi di markup = fornire un insieme di strumenti che consentano di aggiungere notizie sul
testo, queste notizie possono riguardare l’aspetto formattazione e disposizione di elementi nella pagina
Codificare tramite linguaggi formali di rappresentazione del testo = vuol dire contribuire ad arginare
questa
perdita, effettuare un’analisi del testo, mirata a individuarne le caratteristiche e formulare una
interpretazione della fonte
Tipologie di markup:
- Proprietario VS
NON proprietario = può essere creato e definito dall’azienda che lega le istruzioni di
codifica all’applicativo in grado di interpretarle oppure può presentarsi con un set di istruzione
standard e condivise da un insieme di organizzazioni che non ne detengono la proprietà
- Leggibile VS non leggibile = può essere delegato a un applicativo che incorpora e nasconde i
marcatori rendendo il file interpretabile solo dall’applicativo in questione, in quello leggibile invece
non è necessario ricorrere a nessun particolare programma per la visualizzazione
- Orientato al layout VS orientato alla struttura = si possono usare marcatori o per definire
caratteristiche fisiche del documento oppure per segnalare elementi di struttura logica
- Procedurale VS dichiarativo = nel primo caso si presenta sotto forma di istruzioni che specificano
determinate caratteristiche, nel secondo caso le indicazioni sono orientate alla descrizione di certe
caratteristiche formali
Concetto di testo = organizzazione rigidamente gerarchica degli elementi costitutivi. Teoria OHCO è stata
presentata per la prima volta da un gruppo di studiosi americani ed è confluita in un importante articolo
che nasce da questa riflessione punto i limiti di questa teoria sono dovuti al fatto che non tutti gli oggetti
testuali sono rigidamente gerarchici, mentre il markup SGMLEXML impone tale tipo di rappresentazione.
{ Questo pone limiti alla rappresentazione di strutture fluide così come la casistica della over planning
hierachies che
possono esorbitare l'organizzazione logica degli elementi testuali punto il problema delle gerarchie
sovrapposte e che rompono la ben formatezza della XML}.
-Il documento non è solo un veicolo materiale, all'atto della memorizzazione esiste un testo come
riprodotto da uno specifico esemplare materiale, una sequenza codificata e variabile di significati grafici.
Ogni modello di testo è il risultato del punto di vista assunto sulla fonte ed è l'espressione del livello di
analisi testuale che lo studioso intende affrontare, il limite del concetto di testo e la problematicità della
definizione di genere letterario e l'ambiguità del concetto di punto di vista appunto ci sono dei macro-livelli
di intervento interpretativi, sono tre e corrispondono a 3 modelli( o 3 punti di vista):
- STRUTTURA =individuazione delle partizioni principali e secondarie del testo
- RAPPRESENTAZIONE (formato) = si intende l'aspetto FISICO del Documento, la RIPRODUZIONE in
formato digitale delle caratteristiche della versione cartacea.
- Fenomeni INTERLINEARI /CONTENUTO = scelta specifica dei fenomeni virgola in relazione alle esigenze
analitiche del lavoro di resa elettronica
Per agevolare la portabilità dei prodotti digitali e per consentire la condivisione dei formati di scambio è
stato realizzato un progetto denominato TEI= è una DTD per testi umanistici, uno schema di codifica che
vuole contemplare tutta la serie di fenomeni di interesse umanistico e trovare per ciascuno un vocabolario
unico.{L'obiettivo è arrivare ad una formalizzazione per normalizzare i criteri, modalità e lessico del
markup}.
Cos'è il " Calcolatore", e quando ed in che modo esegue compiti? Il CALCOLATORE: è una macchina in grado
di eseguire compiti quando espressi in modo FORMALE (cioè basati su precise regole e comunicati
attraverso un determinato CODICE), -accetta Istruzioni quando la Rappresentazione dell'Informazione
avviene tramite SIMBOLI (che stanno al posto dei Contenuti Concreti).
- Le caratteristiche "formali" di una macchina astratta :furono identificate per la prima volta da Turing, il
quale ideò una macchina composta da questi elementi = un nastro infinito suddiviso in celle, ognuna delle
quali può contenere un solo simbolo tra quelli appartenenti all’alfabeto finito, una testina di lettura e
scrittura preposta alla lettura del simbolo della cella sulla quale è posizionata e alla scrittura sul nastro;
parallelamente alla testina vi è un meccanismo che muove il nastro una casella alla volta, un’unità di
controllo che sposta la testina e determina una serie finita di stati che la macchina può assumere (automa a
stati finiti).
-Von Neumann comprese che la macchina universale poteva essere realizzata praticamente: si ha: a) una
memoria in cui sono presenti i dati e i programmi (M), b) un’unità di controllo centrale che presiede a
tutte le operazioni del calcolatore, interpretando le istruzioni prelevate dalla memoria e c)inviando alle
altre unità i segnali per l’esecuzione delle operazioni (CC), un’unità aritmetica che esegue operazioni
aritmetiche e restituisce i risultati all’utente (CA), un’unità di input per l’immissione di dati e programmi (I),
un’unità di output (O).
Oggetto digitale = file di qualsiasi tipo. Per risolvere un problema esso deve essere descritto in modo
formale e rigoroso, nonché tramite una sequenza di passi finita.
- Affinché un ALGORITMO sia
eseguibile dalla macchina è necessario che rispetti determinate condizioni:
1. ogni istruzione deve essere univoca
2. ogni istruzione deve essere eseguibile dalla macchina in un numero finito di passi
3. l’esecuzione dell’algoritmo deve arrivare a compimento e dunque terminare
codificazione dell’algoritmo:
- risoluzione
- codifica
- esecuzione
-Per agevolare la programmazione, è stata stabilita una corrispondenza tra : a) le sequenze di bit della
macchina ed b)un linguaggio simbolico: sono nati così i LINGUAGGI ASSEMBLY
- linguaggi imperativi
- dichiarativi
- ad oggetti
I TIPI DI DATI: (data type) è l’insieme dei valori e l’insieme delle operazioni che possono essere assegnati a
dati come (numeri interi decimali, caratteri alfanumerici). Per i SIMBOLI ALFANUMERICI, esiste una tavola
di corrispondenza tra le cifre binarie e tali simboli.
Ogni momento del processo algoritmico procede per scelte binarie in base a una condizione che può essere
vera o falsa (proposizione logica).
ISTEMA OPERATIVO (OS): Il software di base della macchina l'insieme di programmi cui è delegato il
compito di gestire le applicazioni e l'interazione fra l'uomo e la macchina.
INTERFACCIA GRAFICA: costituisce lo STRUMENTO che agevola questo dialogo.
- APPLICATIVI: sono i programmi che POSSONO essere eseguiti dal calcolatore.
Qual è l'unico codice comprensibile dalla macchina e su cosa corre o si basa? Perché è un sistema
posizionale? Sappiamo che affinché il processo comunicativo abbia luogo è necessaria la condivisione di un
codice che renda possibile il dialogo fra l'uomo e la
macchina.
- L'unico codice comprensibile dalla macchina è il CODICE BINARIO: un Codice Notazionale a base 2. Le
macchine possono cioè manipolare solo i due simboli (o segni) della notazione binaria (o e 1) e ripeterli in
un numero indefinito di volte, a patto che i suoi due simboli siano riuniti in gruppo e a patto di rendere
significativa la posizione che il segno occupa in una sequenza: il sistema di numerazione binaria è infatti
detto sistema posizionale.
La trasmissione di informazione deve avvenire in un formato DIGITALE: per ora diremo che i simboli
diventano COMPUTABILI (quando sono espressi in forma comprensibile alla macchina)
- Un aspetto è comprendere come debbano essere espresse le ISTRUZIONI in
modo tale che divengano eseguibili dal calcolatore attraverso dei PROGRAMMI.
- Il CALCOLATORE è dunque un Esecutore di Programmi e un PROGRAMMA: altro non è che
un: Insieme di Istruzioni espresse in modo formale (cioè tramite un algoritmo)
I TIPI DI DATI: (data type) è l’insieme dei valori e l’insieme delle operazioni che possono essere assegnati a
dati come (numeri interi decimali, caratteri alfanumerici). Ogni momento del processo algoritmico
procede per scelte binarie in base a una condizione che può essere vera o falsa (proposizione logica).
-Nell’ ALGEBRA BOOLEANA: le operazioni logiche principali sono AND (congiunzione), OR (disgiunzione)
e NOT (negazione), i 2 valori di verità sono rappresentati come 0 (falso) e 1 (vero). La combinazione di 2
valori, tramite le 3 operazioni logiche, produce le TAVOLE DI VERITÀ.
RAM= (acronimo dell'inglese Random Access Memory ovvero memoria ad accesso casuale in
contrapposizione con la memoria ad accesso sequenziale) è un tipo di memoria volatile. Il compito della
CPU=Una unità centrale di elaborazione o processore centrale (in inglese: central processing unit), CPU è
di leggere le istruzioni espresse in linguaggio macchina dalla memoria interna, decodificarle ed eseguirle. La
CPU è composta da: 1) unità di controllo (decodifica istruzioni) e 2) unità aritme/co-logica (esegue
operazioni aritmetiche e logiche). La CPU dispone di una speciale memoria (denominata registro) dove
vengono immagazzinati dati e istruzioni che stanno per essere o sono stati processati. Due tipi di registro: 1)
registro indirizzi (rappresentare l’indirizzo della cella di memoria cui la CPU accede e il 2) registro dati (nel
quale vengono copiati i dati letti dalla memoria).
Il bus di sistema (bus dati, bus indirizzi e bus controllo) ha la funzione di collegare fra di loro le diverse unità
consentendo lo scambio dei dati.
La memoria esterna (di archiviazione) contenente dati e programmi in modo persistente ed è indicata come
memoria di massa (hard disk, floppy disk).
Software applicativi → programmi che possono essere u/lizzati dall’utente per risolvere determinate classi
di problemi.
Interfaccia → strumento che media fra l’utente e i disposi/vi hardware e soeware e permette di interagire
in modo semplice. Interfacce softwer:
1) Interfaccia a caratteri: comandi impar// tramite istruzioni in un linguaggio comprensibile alla macchina;
2) Interfaccia grafica: l’utente può lavorare manipolando una rappresentazione grafica delle componenti.
I programmi applicativi → dotati di particolare interfaccia con cui l’utente può manipolare i contenuti. Ogni
applicativo gestisce uno specifico formato di dati.
Un file è cos/tuito da nome ed estensione che specifica il tipo di dato, quindi il formato → si intende la
classe dei documenti e uno dei differenti formati di quella classe. Formati proprietari → leggibili da uno
specifico applicativo; Formati non proprietari → non legati a un programma.
Protocolli TCP/IP (Transmission Control Protocol (TCP) e l’Internet Protocol (IP). → serie di protocolli
elaborata da Cerf e Kahn. Compito: gestione della trasmissione dei dati a livello di trasporto e di rete. Si
basa sulla tecnica di commutazione di pacchetto: il TCP suddivide il flusso di dati in pacchetti mentre l’IP
gestisce l’instradamento e li inoltra ai nodi di destinazione.
I protocolli sono pubblici. Ogni nodo della rete (host) deve essere individuato in modo univoco, il tutto è
garantito dall’impiego di indirizzi rappresentati sotto forma di stringhe numeriche. Indirizzo IP →
sequenza numerica (quattro gruppi di cifre separate da un punto, ciascun gruppo con valori 0<x255) che
identifica univocamente ogni macchina della rete in modo gerarchico. È convertito in indirizzo simbolico di
dominio tramite il Domain Name System. 1. Architettura client server: una macchina (client) richiede un
servizio ad un’altra macchina (server); 2. Modello peer-to-peer: i nodi della rete che comunicano rivestono
ruoli interscambiabili.
Il www: decentralizzazione e universalità:
L’dea del web nasce alla fine degli anni ottanta presso il CEERN di Ginevra grazie a Tim Berners-Lee.
Obiettivo originario era di trovare un sistema per consentire a dati relativi a software, persone e progetti di
ricerca di essere collegati fra loro.
Enquire → primo programma ad an/cipare i WWW. Usava collegamen/ fra le diverse pagine di
informazione, ogni pagina era un nodo e per creare nuovi nodi era necessario collegarsi ad un nodo già
esistente.
Tangle → successore, sistema di documentazione globale, sono collegamenti fra ogni tipo di informazione.
Decentralizzazione delle risorse e universalità di accesso sono le componenti fondamentali. Come
modello del sistema viene scelto l’ipertesto che permette di collegare fra loro i dati e quindi associare
informazioni tramite l’hypertext links.
Nel 1990 nasce il WWW → editor di ipertesti (programma per la scrittura e la composizione) e browser
(programma per lettura e navigazione). Nel 1994 nasce il World Wide Web Consortium (W3C).
Risoluzione dell’immagine e profondità del colore: qualità dell’immagine digitale rispetto all’originale;
Formato del file: agilità di consultazione, file leggeri e veloci da visualizzare per evitare tempi di
caricamento della pagina troppo lunghi.
Formati immagini → GIF, JPEG, PNG
File audio Formato più noto → MP3, formato compresso che consente di ges/re file più leggeri rispe:o ad
altri presen/ sul Web. È un formato portabile. L’audio deve essere valutato anche come istanza di
apprendimento alterna/va alla le:ura e u/le strumento di memorizzazione dei contenu/.
I video Esistono diversi sistemi per incorporare Alma/ sul Web: applet Java ma anche applicazioni
speciAche. MPEG → formato compresso divenuto standard per la creazione di filmati.
Interrogare il Web: motori di ricerca e directory per recuperare documenti sul Web: 1. Conoscere l’indirizzo
URL della risorsa; 2. Attraverso mortori di ricerca, cataloghi o directory. Directory → forma di
organizzazione dei siti Web che segue uno schema di classificazione per argomento. Ogni directory
definisce una serie di categorie di riferimento entro le quali far rientrare sottocategorie dipendenti e quindi
mira ad assegnare ogni sito ad una delle categorie predefinite nell’albero gerarchico. La categorizzazione è
mirata alla selezione dei siti dai contenuti ritenuti più significativi dall’utente. Le directory più note: Yahoo
e Google.
Motori di ricerca → risorsa cui l’utente fa più ricorso. L’interrogazione (query) avviene tramite parole
chiave che consentono il reperimento di pagine e rela/vi URL. Accade a livello di interfaccia utente, lato
browser. I motori di ricerca indicizzano il Web in modo automa/co tramite specifici soeware (spiders).
Interrogare il Web tramite motore di ricerca signiAca interrogare la base dati che è stata indicizzata da
quello specifico motore. I motori di ricerca mirano ad indicizzare tutti gli URL. Meta-motore → sito che
cerca sul Web u/lizzando diversi motori.
GOOGLE
- Tecnica matematica del relevance ranking ovvero la modalità di selezione dei risulta/ restituiti dall’utente.
Più un sito è linkato e più in alto sarà nella lista dei risultati. Altre funzionalità: ricerca avanzata, ricerca per
immagini, ricerca di libri, Google Scholar per la ricerca sulla letteratura accademica.
OPAC → On-line public access catalog = catalogo elettronico che consente di interrogare le biblioteche
aderenti. L’u/lizzo degli OPAC consente di reperire un determinato titolo, di ricercare tu:e le opere di un
determinato autore. Si parla di biblioteca ele:ronica. OPAC del Servizio Bibliotecario Nazionale (SBN):
no/zie rela/ve ad una pubblicazione e sapere quali sono le biblioteche che sul territorio nazionale hanno un
determinato volume. Meta-OPAC Azalai (MAI): è possibile ricercare su molteplici cataloghi per veriAcare
il posseduto di documen/ poco comuni.
Blog e Wiki cos/tuiscono il Web 2.0. Wiki → sito web che perme:e a ciascuno dei suoi u/lizzatori di
aggiungere contenu/ ma anche di modiAcare quelli già esisten/ inseri/ da altri u/lizzatori. Blog → sito web
pensato perché un singolo pubblichi i suoi scritti (post).
Sistemi che consentono di creare pagine web sul server remoto: Content Management System (CMS)
condivide il trend dominate del Web ovvero la distinzione della forma e del contenuto. CMS → applicazioni
che me:ono a disposizione anche una stru:ura di sito deAnita. È possibile disporre di un’organizzazione dei
contenu/ a livello di elemen/ della navigazione e di una serie di modelli graAci con cui ges/re l’aspe:o del
sito
DBMS (Database Management System) → sistema soeware di ges/one dei da/. Si occupa
dell’aggiornamento, della manutenzione, e della consultazione di un insieme di registrazioni contenute in
un supporto di memoria di massa. È un insieme di programmi rivolto alla ges/one di da/ di memorizzazione
in formato digitale. L’SQL è diventato il linguaggio standard per lavorare su un DB. Modello logico, schema
e istanza del DB Modello dei da/ → insieme di conceF u/lizza/ per organizzare i da/ e descriverne la stru:ura
in modo comprensibile al calcolatore. Esistono diverse /pologie di modelli, che corrispondono ai diversi
conceF e /pi di dato e ai diversi costru:ori di /po. Modello gerarchico: stru:ure ad albero. Modello
re/colare: uso di graA. Modello relazionale: stru:urazione dei da/ in tabelle. Modello a oggeF:
programmazione orientata agli oggeF.
Fanno parte di un DBMS sistemi di DDL (definizione dello schema del DB) e di DML (manipolazione del DB)
Markup → è chiamato annotazione del testo, è il passo preliminare per ogni operazione di successiva
elaborazione o trattamento del documento digitale
Funzione dei linguaggi di markup → fornire un insieme di strumen/ che consentano di aggiungere no/zie sul
testo riguardan/:
1. Aspetto: formattazione e disposizione degli elementi nella pagina.
2. La struttura logica: funzione dei blocchi di testo.
I sistemi di text processing basa/ sull’impiego di un word processors sono detti di tipo WYSIWYG (what
you see is what you get). Questi sistemi agevolano il lavoro dell’utente consentendogli di interagire con
l’interfaccia grafica.
Si parla di linguaggi di marcatura del testo (markup languages) → linguaggi che si basano su un insieme di
istruzioni e indicazioni orientate alla descrizione dei fenomeni di stru:urazione, composizione,
impaginazione del testo. I marcatori sono sequenze di cara:eri visibili che vengono immessi dentro il file,
dire:amente accanto alla sequenza di cara:eri, marcando blocchi di testo cui intendono assegnare una
determinata funzione. In questo modo è garan/ta la leggibilità
Qual è la differenza tra Internet VS WEB? Sono due strumenti fondamentali per la ricerca dell’umanista
digitale e si sono sempre confuse, solo a partire dagli anni 2000 si è fatto chiarezza su questa distinzione. Da
un lato, Internet= rappresenta l'hardware della rete, l'infrastruttura che funziona con un protocollo
comune che crea la connessione.
2) D'altra parte, il World Wide Web è il software della rete, la vasta rete di applicazioni e protocolli che usa
internet e che fanno comunicare il tutto e “parlare”. Dunque è il principale strumento di internet, costituito
da documenti o pagine web dette siti localizzati su dispositivi diversi collegati tra loro e consultabili per
mezzo di programmi detti Browser. Il web è lo strumento che ci permette di pubblicare e rendere
accessibile a tutti il nostro patrimonio culturale
Da quali 3 fondamenti è costituito il World Wide Web.? ( visibili e conoscibili da te) - <u>http://= Hyper
Text Transfer Protocol ( il Protocollo per il Trasporto di Ipertesti)
- <b>HTML= Hyper Text Markup Language( il linguaggio degli ipertesti)
- <em>URL= Universal Resource Locator ( ogni risorsa sul Web ha questo indirizzo chiamato URL ci
permette dunque di ritrovare e raggiungere la risorsa)
1. digitiamo l’url nella barra degli indirizzi ed inizia la ricerca 2. il server restituirà attraverso il protocollo
http 3.una pagina html che possiamo leggere
In capitolo 4° , lesson 4.2. from Teams
-Cos'è un Ipertesto? -IPERTESTO=Documento informatizzato costituito da diverse porzioni di testo
collegate tra loro da nessi logici implementati come collegamenti che consentono al lettore il passaggio da
un blocco di testo all' altro" (Lazzari, 2010). Esempi di ipertesto è anche il dizionario pur essendo
antecedente al sistema digitale, ma il modello per eccellenza dell’ipertesto si ha solo col web.
- " ogni forma di testualità - parole, immagini, suoni, che si presenta in blocchi o lessìe(frammento testuale
di Barthes) o anche unità di lettura (nodi o finestre o pagine o anche parole) collegati tra di loro da link (che
appaiono sotto forma di parole attive) (Tomasi, 2012)
Cos'è una Rete LAN? Una Local Area Network è un Insieme di DISPOSITIVI COLLEGATI INSIEME in un
LUOGO FISICO (edificio pubblico o privato, ufficio, casa). Una LAN può essere piccola o grande, da una rete
domestica con un utente a una rete aziendale con migliaia di utenti e dispositivi.
Cos'è la CODIFICA? CODIFICA: da Gigliozzi: È il momento iniziale, ma più importante, di qualsiasi indagine"
- Gleßgen: Non è semplicemente una procedura tecnica ma si tratta di una " tematica filologica e semiotica,
come lo sono l'elaborazione della scrittura o quella della stampa".
Perché abbiamo solo 2 simboli nel codice binario? Perché non abbiamo bisogno di più simboli?
1)Perché non abbiamo bisogno di più simboli per aumentare la complessità
2) Perché possono essere memorizzati sui DISPOSITIVI BISTABILI (che possono assumere 2 configurazioni
alternative es. " la scheda perforata" i cui fori indicavano la presenza del o del non segnale)
, pensiamo alla " polarizzazione
sul nastro magnetico, le incisioni sul CD- Rom)
Protocollo= insieme di regole standardizzate
[I documenti ipertestuali NON si trovano soltanto sul web, ma anche sotto forma di CD-ROM o
DVD].
IPERTESTO: può essere quindi considerato un modello, in quanto rappresentazione di una certa posizione
della realtà. Ogni forma di testualità che si presenta in BLOCCHI COLLEGATI TRA LORO da link è un
ipertesto = tipo di strutturazione delle informazioni che consente al lettore di percorrere in modo
interattivo, una grande quantità di informazioni in modi scelti dal lettore stesso e nei modi previsti
dall’autore dell’ipertesto.
Storia IPERTESTO: è un concetto che nasce negli anni ’40 e verte sulla necessità di collegare informazioni tra
di loro e il cui adeguamento in ambito digitale è posteriore. Solo con l’avvento di internet e del web il
concetto ha iniziato acircolare diffusamente.
P.S. Nel ’45 Bush pubblicò un saggio scaturito dalla riflessione su come le tecnologie possano contribuire
all’organizzazione del sapere umano
Il Memex di Bush l’inventore è Bush che solo immagina un sistema di interconnessione delle informazioni
chiamato Memex, viene presentato come una scrivania elettronica di lavoro, è basato su dei macchinari che
facendo muovere delle bobine di microfilm permetteva di proiettare le informazioni contenute nella
scrivania, resa disponibile sotto forma di sequenze di fotogrammi sono strumenti ottici non digitali che
permettevano come dice l’acronimo, una memory expansion, "espansione della memoria", di fornire un
potenziamento del loro lavoro e collegare il patrimonio testuale. Comunicare informazioni è ritenuta una
necessità. Bush propone un modello associativo: la mente umana opera per associazioni, e la funzione del
Memex è di consentire all’utente di creare relazioni. Si tratta del tentativo di riprodurre i processi mentali e
meccanicizzare la selezione per associazione. Modello teorico dell’ipertesto che non si era però
concretizzato. Con il suo progetto immaginò che tutta l’informazione potesse essere pubblicata sotto forma
di ipertesto. Tuttavia, tale progetto non venne mai finanziato.
Engelbart inventò l’ONLINE system (NLS), un ambiente di lavoro dove le comunicazioni fra i testi
Nel ’45 Bush pubblicò un saggio scaturito dalla riflessione su come le tecnologie possano contribuire
all’organizzazione del sapere umano = egli immaginò un sistema di interconnessione
delle informazioni che chiamò Memex e aveva lo scopo di collegare il patrimonio testuale. Viene presentato
come una scrivania elettronica di lavoro, ad uso individuale, in cui ciascuno può memorizzare libri,
documenti e immagini, e connettere fra di loro gli elementi ritenuti pertinenti al lettore. Bush propose un
modello associativo = il Memex consentiva all’utente di stabilire collegamenti fra blocchi di testo, operando
come la mente umana, la quale lavora per associazione, non per indicizzazione. Nelson coniò il termine
hypertext con il quale intendeva una scrittura non sequenziale, basandosi sul presupposto che il pensiero
umano non opera in modo sequenziale, ma per collegamenti. Con il suo progetto immaginò che tutta
l’informazione potesse essere pubblicata sotto forma di ipertesto. Tale progetto non venne mai finanziato.
Engelbart inventò l’ONLINE system (NLS), un ambiente di lavoro dove le comunicazioni fra i testi.
Uno dei principali rischi dell’ipertesto è il DISORIENTAMENTO. Inoltre, essendo l'attenzione concentrata sui
LINK, può capitare che il passaggio da uno all'altro avvenga senza una ragione specifica.
L'architettura è l'organizzazione dell'ipertesto: come si articola e da quali elementi è costituito. Gli elementi
dell'architettura di un ipertesto sono:
- STRUMENTI DELLA NAVIGAZIONE = forniscono al lettore un'idea dei contenuti presenti nell’ipertesto e gli
fanno capire le modalità con cui è stato costituito e strutturato, permettendogli di orientarsi fra i
materiali
- Elementi DELLA PAGINA = sono le parti in cui si articola la pagina: testata, corpo, barra di navigazione,
piè di pagina
- METANAVIGAZIONE = sezione della pagina in cui vengono messi a disposizione dell'utente strumenti di
aiuto e funzionalità generali
- NAVIGAZIONE PRINCIPALE o globale = è la barra di navigazione
- Navigazione SECONDARIA
- BRICIOLE DI PANE = indicano all'utente in quale punto della struttura si trova (ad esempio home,
sezione, pagina corrente)
Gli ipertesti letterari sono oggetto di studio e di interesse per gli umanisti. Nella progettazione di
ipertesti l'oggetto centrale della comunicazione è il TESTO.
- Il primo livello della rappresentazione informatica di un testo letterario è la TRASCRIZIONE = si tratta di un
primo atto di modellizzazione.
-La scelta del testo da trascrivere elettronicamente è una scelta ragionata dell'edizione cartacea di
riferimento. Si verifica l'attendibilità filologica della versione elettronica realizzata, ossia si verifica
l'essenza di refusi e il rispetto delle scelte di struttura logica del testo in relazione all’edizione utilizzata.
Con la trascrizione digitale si dà
vita a una nuova forma di edizione. Passo successivo è la definizione dei collegamenti: la scelta delle
correlazioni fra gli elementi ritenuti significativi al fine dell'analisi del testo è un'operazione di ermeneutica.
Particolare attenzione deve essere rivolta al significato del link, che vuol dire scelta oculata del vocabolo da
rendere linkabile, scelta che deve essere significativa anche per il lettore che dovrà essere in grado di
comprendere dove lo condurrà il collegamento. I link in-text costituiscono il rapporto che il testo intrattiene
con se stesso.
- Paratesto = elementi che accompagnano il testo, ma non sono il testo in senso stretto e che identificano la
specifica edizione assunta come riferimento
- Apparato di commento
- Intertesto = citazioni dirette di altre opere, traduzioni
- Metatesto = informazione di commento e testi critici
- Architesto = serie di nozioni di approfondimento su: autore, opera, periodo storico ecc.
-Lo scopo della digitalizzazione di una FONTE PRIMARIA può essere la necessità di preservare l’originale
dall’usura, delegando all’immagine digitale la funzione di strumento di consultazione della fonte.
La digitalizzazione può avvenire in formato testuale e in formato immagine. La scelta dipende dal tipo di
originale. Ma la scelta dipende anche dall’utilizzo che si vorrà fare del documento digitale e dal tipo di
trattamento a cui si vuole sottoporlo.
-I sistemi di cattura delle immagini sono vari e differenti, il più noto è lo SCANNER. Tutti i "sistemi di
digitalizzazione"— lavorano dividendo l’immagine in una GRIGLIA di punti, ASSEGNANDO a ciascuna di
essi un VALORE e memorizzando i valori dei punti in forma sequenziale nel computer, il quale è in grado di
—ricostruire l’immagine leggendo questi valori e riproducendoli sullo schermo. Ogni punto è detto PIXEL
(in riferimento allo schermo), o DOT( in riferimento alla stampa).
- Il numero di colori che la macchina è in grado di riconoscere è determinato dal numero dei bit impiegati
per ogni punto.
-Nel formato RGB il colore di ogni singolo pixel è dato da 3 valori di 8 bit ciascuno: ogni colore ha 256
sfumature/tonalità possibili, nel complesso risultano
16,7 milioni possibili valori. 256⁸= 16,7 m).
I tre valori combinati forniscono il colore del pixel che costituisce l’immagine.
A seconda del tipo di materiale è richiesta un’appropriata strategia di digitalizzazione al fine di ottenere
risultati soddisfacenti. A seconda dell’obiettivo che si intende raggiungere con la digitalizzazione, si possono
produrre 3 livelli qualitativi dell’immagine: basso, medio e alto. La QUALITÀ di un’immagine digitale
dipendeda 2 parametri:
- Numero di pixel
- Gamma di valori di cui ogni pixel è dotato
La relazione tra la qualità dell’immagine e la combinazione di ppi e profondità del pixel non è lineare. Per
i materiali in bianco e nero aumentare la gamma di colori non migliora la qualità dell’immagine, ma ne
aumenta soltanto le dimensioni, perciò conviene limitarsi ad aumentare il numero dei ppi. Per i materiali in
scala di grigio la miglior resa digitale si ottiene aumentando la gamma di valori associati a ogni pixel.
-Per ottenere un’immagine di buona qualità, la digitalizzazione andrebbe operata direttamente sull’oggetto
originale, ma generalmente avviene che la scansione sia fatta su un fonte intermedia per evitare che
l’oggetto venga danneggiato.
- Un’immagine digitale può essere SALVATA IN FORMATI DIVERSI, a seconda della sua destinazione finale:
-I formati esistenti possono essere compressi, con o senza perdita di dati (GIF, JPEG, PNG), non
compressi (TIFF). Sono i più comuni formati di immagine in quanto sono gestibili da piattaforme hardware e
software differenti: sono formati immagine non proprietari.
- I formati COMPRESSI sono ben pensati per la distribuzione, poiché i file risultano essere più LEGGERI e
VELOCI da caricare e scaricare; lo svantaggio è dato dalla perdita di informazione e dal fatto che, una volta
compresso il file, all’atto della decompressione
non tutti i dati vengono ripristinati.
- Formato GIF è soggetto ad una compressione che non comporta alcuna perdita di dati; lo svantaggio
è che il formato memorizza solo 256 colori: dunque non è adatto alle fotografie a colori
- PNG creato appositamente per il web, consente una visualizzazione da 256b a 16,7 milioni di colori
e può essere compresso senza generare alcuna perdita di dati
- TIFF produce immagini di elevata qualità ed è dunque utilizzato per l’archiviazione a lunga durata, èin
grado di visualizzare 16,7 milioni di colori
ANALISI DEL TESTO = procedimento che consente di ESTRARRE tutte le parole presenti in un testo,
STABILENDO:
- il NUMERO DI VOLTE in cui ciascuna forma occorre, questi risultati permettono di ragionare sull’uso
di un certo vocabolo o di stabilire ipotesi interpretative.
-Disporre di CORPORA = disporre di grandi quantità di dati è necessario per operare con sistemi automatici
di analisi, un corpus si deve basare su una serie di regole di aggregazione, selezione e organizzazione
precise. L’affidabilità di un corpus come fonte di dati dipende dalla sua capacità di fornirci un modello
fedele del lessico e della grammatica di una lingua.
Diversi livelli della manipolazione del testo = possibili interventi analitici sul piano morfo-lessicale,
sintattico e semantico. Tipologie di interrogazione del testo così manipolato = si ha un recupero e
un’astrazione non solo di dati, ma anche di informazione intesa come dato interpretato.
Text retrieval = software di reperimento dei vocaboli entro un testo o un corpus testuale, sono in grado di
estrarre tutte le sequenze di caratteri che stanno tra due spazi bianchi.
-PROGRAMMA DI CONCORDANZE = applicativo che enuclea tutte le parole presenti in un testo,
presentandole in ordine e accompagnate da un contesto ed indicazioni per il reperimento e la
localizzazione = si tende ad EVITARE le PAROLE VUOTE: particelle, preposizioni poiché non aiutano la
ricerca. Analisi delle concordanze = permette di verificare il contesto d’uso del vocabolario, le concrete
accezioni delle parole e permette di disambiguare.
Per cosa stanno gli acronimi di Concordanze KWIC ( ) e KWOC ( Key Word Out of Context)?
- Com'è chiamato il trattamento automat. del linguaggio naturale? Quali processi e preceduti da cosa?
- Tra questi processi spiega: LEMMATIZZAZIONE , lemma, stemming ;
-Trattamento automatico del linguaggio naturale ( NLP ) composto da processi come: -normalizzazione,
lemmatizzazione, part of speech, tagging, riduzione sinonimia ecc. è importante la fase manuale di analisi:
PRE-PROCESSING: riducendo le sigle, le parole composte, riconoscere nomi propri e intervenire con
l’annotazione del testo.
Livelli di analisi del testo:
- Morfo-lessicale = occorrenze
- Sintattico = costrutto delle frasi
- Semantico = combinazione di lessico, morfologia e sintassi
LEMMA = parola che appare sui dizionari. La lemmatizzazione serve per raccogliere sotto un’unica forma
base.
Stemming = processo AUTOMATICO per estrarre la RADICE(stem) di una parola, rimuovendone la
desinenza.
Nuove frontiere dell’analisi del testo = TEXT MINING = EXTRATION( estrazione) di informazione significativa
del testo non strutturato, con l'obiettivo di ottenere una nuova conoscenza: sistemi di clustering
(raggruppamento) e di classificazione
-misurare la LUNGHEZZA delle parole o frasi oppure la FREQUENZA di certi tipi di parole.
STILE = non è solo riconoscibile ma anche formalmente definibile e può perciò divenire oggetto della
ricerca condotta usando il PC. Lo stile è ciò che caratterizza l'opera e le opere di un autore = STYLISTIC
FINGERPRINT ovvero caratteristiche tipiche e distintive di un’opera, una serie di usi stilistici.
- Ricerca e recupero di informazioni = se voglio informazioni intese come risultato di un ragionamento non
è detto che esistano documenti
- La correlazione fra informazioni = non è detto che i collegamenti fatti da chi crea la pagina siano gli stessi
che interessano la mia ricerca
- Dialogo fra applicazioni = sarebbe utile un interscambio per avere un'unica ricerca globale
Per Tim Barners-Lee, fondatore del WWW e primo ad utilizzare l’espressione semantic web ha come
obiettivo un web in cui agiscano agenti software intelligenti ovvero applicazioni in grado di capire il
contenuto delle pagine e portare l’utente all’informazione ricercata.
Capire significati, creare percorsi in base alle informazioni richieste, collegare logicamente elementi diversi
= è il campo della gestione della conoscenza intesa come relazione tra concetti.
-Quali sono i 5 processi di " Gestione della conoscenza" per capire il Semantic web( concetto)?
- Perché la rappresentazione è fondamentale tra questi, e quale la soluzione?
- Per quanto riguarda l'elaborazione, oltre dizionari e thesaurus ,cosa ?
Capire significati, creare percorsi in base alle informazioni richieste, collegare logicamente elementi diversi
= è il campo della gestione della conoscenza intesa come relazione tra concetti.
- Abbiamo 5 processi di
gestione della conoscenza:
- Acquisizione
-Rappresentazione
- Elaborazione
- Condivisione
- Utilizzo
Rappresentare la conoscenza = è 1 degli elementi fondamentali del semantic web perché le macchine
abbiano accesso ad un insieme strutturato di informazioni e ad una serie di regole di inferenza da
impiegare per il ragionamento automatico. È importante l'interoperabilità sul piano tecnologico e
sintattico = adesione a linguaggi standard e accedere ad un repertorio di conoscenze condivise.
-La soluzione = uso dei METADATI = dati su dati con il compito di descrivere il contenuto veicolato dalle
singole pagine web.
- Procedimento di definizione dei metadati nel semantic web =
ELABORAZIONE= di un modello semantico e di un modello concettuale. Ragionamento su 3 livelli:
FRA le iniziative proposte per la definizione di un vocabolario più ricco c'è il DUBLIN CORE METADATA
ELEMENT SET( O semplicemente DC) = un vocabolario ideato per assegnare etichette e basilari alle risorse
della rete, fornire un elenco di nomi di marcatori applicabile alle risorse web e garantire l'uso di tale
vocabolario di metadati tramite differenti linguaggi formali. La descrizione di una risorsa
elettronica si avvicina tramite vocabolario DC alla categoria catalogazione libraria, come si può ricavare da
una scheda catalografica.
1° livello = linguaggio di indicizzazione, scegliere un vocabolario controllato = valore che venga selezionato
rispetto a un insieme aperto di valori = necessità di univocità semantica. È necessario che tale vocabolario
sia contestualizzato rispetto a una gerarchia di riferimento = devono essere definite classi o categorie
secondo relazioni di specificità o generalità. TASSONOMIE = organizzazione sotto forma di struttura ad
albero degli elementi di un vocabolario controllato
THESAURO = e il vocabolario di un linguaggio di indicizzazione controllato ed organizzato in maniera
formale per esplicitare le relazioni tra concetti.
Abbiamo 3 relazioni semantiche tra i termini:
- Sinonimica
- Gerarchica
- Associativa
Per arricchire una semantica si passa modelli concettuali a teorie logiche = è il modello di una particolare
area di conoscenza o attività, denominata dominio.
La soluzione al problema dei nomi sono gli URI (W3C = URL) = gli VS URL localizzano le risorse sul web, gli
URI dovrebbero consentire di rintracciare le risorse che possono cambiare locazione, perchè identificano
una informazione tramite una informazione.
-Sono il primo esempio di METADATO SEMANTICO = così si evita il problema della volatilità degli indirizzi,
perché tramite gli URI una risorsa è identificata univocamente ed è quindi rintracciabile. UNICODE = si
userà per la questione degli alfabeti.
- Servono
linguaggi che prima di definire formalmente la semantica permettano di poterle esprimere attraverso
ASSERZIONI = RESOURCE DESCRIPTION FRAMEWORK utili a formalizzare asserti sulle risorse.
INTRAdocumentali.