Documentazione Dig

DOCUMENTAZIONE DIGITALE APPUNTI LEZIONE ARCHIVI DIGITALI Catalogazione
definizione ICCD (Istituto Centrale per il Catalogo e la Documentazione) : Attività di

registrazione, descrizione e classificazione di tutte le tipologie di beni culturali,
individuare e conoscere i beni, documentarli in modo opportuno, archiviare le
informazioni raccolte secondo i criteri. Formato digitale, ci sono opere nate in digitale:
Film e Fotografia, ebook. Altre vengono convertite in quello che si chiama “equivalente
digitale”, processo di cui vie e una cattura dei dati reali, una foto digitale, una
scansione di un libro, Processo di DIGITALIZZAZIONE che permette la conversione da
opera fisica a opera digitale. Viene imposto uno standard per la digitalizzazione che
assicurano la qualità e l’interoperabilità del risultato. Data Deluge: diluvio di dati,
dovuto sempre di più ad un ammassamento ad onda di dati reali che diventano
digitali, con musei virtuali, consultazione di testi in formato digitali, la scienza con le
pubblicazioni, grandi quantità di dati (dataset) Modo in cui gli archivi digitali si
manifestano si articola in alcune aree generali:  Biblioteche digitali (Digital libraries)
dove le risorse sono conservate in forma digitale (PERSEUS digital library)  Archivi
digitali (Digital archives) dove il materiale più eterogeneo in archivi – formati diversi,
spesso legato all’attività di un’istruzione (archivi di film, musica, immagini, teatro, ecc..)
 Digital repository: un “deposito” scarsamente strutturato di documenti Scopi della
conservazione:  Conservazione; conservazione a lungo termine del bene/risorsa, la
conservazione delle risorse digitali ha problematiche specifiche  Fruizione: ricerca e
accesso alle risorse da parte del pubblico che può essere generico o specialistico 
Studio: lo studio da parte di specialisti della risorsa Digital rights management:
Gestione dei diritti nel contesto digitale CATALOGO/METADATI/ARCHIVIO Archivio:
raccolta di beni culturali. Opere o documenti (risorse) sono descritti in un catalogo
Catalogo: insieme di schede, che descrivono le opere (titolo, dimensioni, argomenti,
autore, ecc…) forma strutturata che contengono i Metadati, Metadati: sono la
descrizione dei dati, contengono informazioni diverse: Metadati Amministrativo-
Generali, MAG che corrispondono alla gestione e alla amministrazione, come
responsabilità, provenienza e proprietà; relative al contento come ad esempio autore,
formato, ecc… (ES. di scheda metadati DUBLIN CORE) Schede di catalogo hanno le
schede gemelle con la stessa struttura con le stesse proprietà, situazione di
grandissima confusione se la condizione non è corretta, bisogno di omogeneità
Schede di metadati: Dublin (Non Dublino, nome nasce da Dublin in Ohio, USA) core, si
trova ovunque, schema di metadati, schema descrittivo per rappresentare dati di una
determinata risorsa, Nata per il WEB, è lo schema di metadati più semplice (ISO
15836), nato per essere una base per tutta la documentazione. Ha lo scopo esplicito di
permettere il reperimento di risorse (Web risorse). Con Dublin Core si può descrivere
qualsiasi cosa, descrive le risorse, risorsa per essere tale deve avere un’identità,
identità è un indirizzo internet, secondo lo standard RFC2396 (lo standard che si
riferisce all’URI), risorsa può essere informazione o indirizzo in senso più ampio. DCMI
(Dublicn Core Metadate Initiative) ha una typelist: collection, dataset, ecent, image
(still or moving), interactive, resourse, service, software, sound, text, physical object.
Elementi fondamentali del Dublin Core (DC-MES Metadate element set): Title, Creator,
Subject, Descripion, Publisher, Contributor, Date, Type, Format, Identifier, Source,
Language, Relation(relazione con altre opere), Coverage e Rights. 1 Si può identificare
qualsiasi cosa come la canzone in esempio o una immagine, anche una gif, anche una
statua. I vari elementi possono essere ripetuti seguendo sempre la massima
descrizione di una risorsa. Bisogna attingere dallo standard Dublin Core. Bisogna
digitalizzare ovviamente lo schema fatto (in questo caso a matita, o su slide), il
processo permette al contenuto logico dello schema di metadati (nozione astratta) di
essere in un formato machine-readble (XML, RDF e JSON) si chiama SERIALIZZAZIONE.
In esempio è la serializzazione per un file audio chiamato “A Guide to Growing Roses”
di “Rose Bush”, esempio fittizio, in scrittura XML (leggibile), tag html che
corrispondono al Dublin Core <dc:title>A Guide to Growing Roses</dc:title> segnalano
alla macchina che gli elementi tra i tag fanno parte del Dublin Core, in modo
comprensibile è leggibile sia per noi sia per la macchina. Formato JSON è un formato
meno comprensibile, formato adatto allo scambio di dati improntato sugli array
Javascript, annidati uno negli altri, primo livello contengono key words precedute dalla
@ ( in esempio laterale @type appartiene al tipo Library che contiene all’interno ciò
che è racchiuso nelle parentesi graffe dopo la riga “contains” contiene un @subject ,
un “@type”=”ex:Book” (un libro) “dc:creator”: “Plato”, “dc:title: “The Republic” ( il libro è
la Repubblica di Platone che a sua volta contiente Capitoli ecc…) permesso da JSON è il
forte annidamento dei dati. Tra gli esempi di possibilità da remoto di indagine delle
documentazioni digitali vi sono: Europeana, MET Galleries, British Museum, ecc…
MODELLO OAIS Modello OAIS descrive un modello astratto di archivio, non è
architettura concreta, è un modello di funzionamento dell’archivio, orientato alla
conservazione di dati, il modello è funzionale, perché si concentra sulle funzioni
principali dell’archivio: inserimento, consultazione e conservazione dei dati. Descrive
un insieme di funzioni che si interfacciano ad uno schema predefinito (modello
funzionale), i dati immensi nell’archivio vengono resi accessibili al fruitore attraverso
l’intervento del gestore dei dati. Da notare che è definita rispetto al concetto di
comunità designata, riconoscendo il fatto che l’archivio ha la finalità di consultazione
di una singola comunità che poi utilizzerà i dati. Per quanto riguarda le funzioni di
base (Entità funzionali) OAIS (dispensa) riconosce 4 funzioni base: Ingest, ha il compito
di ricevere i dati del produttore e predisporli per la memorizzazione; Archival Storage,
gestisce la memorizzazione dei dati; Data Management gestisce il database; Access
supporta l’accesso ai dati da parte dell’utente. In figura vengono evidenziatii flussi
interni dell’archivio Producer inoltra i dati (pacchetto informativo SIP) alla funzione
Ingest che conterrà il dato e la descrizione (metadati), dato inoltrato poi alla funzione
Archival Storage, verrà rappresentato in un luogo (cartella, ecc…) invece l’indirizzo
dove è stata messa la risorsa e i metadati della risorsa vengono inviati da Ingest (NO
da Archival Storage) a Data Management che viene assolto tipicamente dall’utilizzo di
un Database, nel momento in cui avviene l’accesso e si interfaccia (da sito, es.
Europeana) digita una keyword o usa una risorsa, l’archivio viene interrogato e viene
inoltrato la funzione di accesso che recupera dati. 2 Dublic Core) i loro metadati
secondo i protocolli OAI-PMH. Service Providers richiedono di poter raccogliere i
metadati che vengono esposti dai Data providers. Funziona via HTTP seguendo il
protocollo ipertestuale, permette ai providers di comunicare tra loro. OAI-PMH
permette in comunicazione HTTP una serie di sei servizi (in esempio solo uno).
L’operazione di Harvesting è una richiesta da parte di un Service providers di accedere
ai dati contenuti in una serie di repository, in sé è un’applicazione client che effettua
una richiesta OAI-PMH, il mezzo con cui il Service Provider raccoglie i metadati da un
repository si chiama harvester. Repository (Definizione) è un server accessibile in rete
che può rispondere alle richieste OAI-PMH come descritto dallo standard. Questa è
gestita da una Data Provider per esporre i metadata agli harvester. Risorsa (resource)
è oggetto di cui il metadato parla (con about). Item è un contenitore contiene i
metadati (statici o generati automaticamente) su una singola risorsa, in formati
multipli che possono essere raccolti via OAI-PMH, ogni item ha un identificativo che è
unico nel repository in cui fa parte. Record è un insieme di metadati in un certo
formato, normalmente restituito in formato XML, normalmente è identificato da un
prefisso (Prefix) che delinea il formato dei metadati, da un identificativo unico che
permette l’accoppiamento con l’item a cui appartengono, inoltre viene identificato
anche da un datestamp che ci dice quando sono stati generati quei dati. GetRecord
(comando all’interno del protoccolo OAI-PMH) recupera un singolo record di metadati
(una scheda) da un repository, il funzionamento è in figura. (si chiede arXiv.org il
record con l’item che ha come identificativo 0112017, formato in formato Dublin core)
RICHIESTA: RISPOSTA: La risposta avviene in xml e descrive l’item con tag in HTML, che
portano informazione, il record ha un header che contiene le informazioni generali
della risorsa, con l’identificativo, con il datestamp e il tag setSpec che precisa l’ambito
di appartenenza dell’articolo in questo caso matematica e computer science, dopo
l’header abbiamo i metadati in formato Dublin Core, che ci inoltrano il titolo, il creato
e il soggetto (argomento). SISTEMI PER LA GESTIONE DI BASI DI DATI (DBMS) Database
management system: vi è differenza fra dati manipolati in un formato che risponde ad
un modello concettuale e lo strumento per creare e gestire i documenti in tale
formato. Dati e Metadati sono diversi, i primi hanno entità e proprietà mentre i
metadati sono i nomi delle entità e delle proprietà e il tipo dei valori delle proprietà,
nel DB sono rappresentate entrambi, i metadati sono parte dei dati. Un esempio è
Donald Duck. I dati sono: Donald Duck, 0101111, Via Principale 15, Paperopoli. I
metadati sono che Donald Duck è una stringa di caratteri e rappresenta un nome
proprio, 0101111 è un numero e rappresenta un numero di telefono e Via Principale
15, Paperopoli è una stringa di caratteri e rappresenta un indirizzo. ATTENZIONE: i
metadati delle risorse nel mondo degli archivi nel DB sono i dati veri e propri che a
loro volta devono essere descritti, nel DB i dati veri e propri sono separati dalla loro
descrizione. Relazioni tra i dati nel database. Nei DB i dati sono strutturati secondo le
relazioni logiche tra di essi, esempio Donald Duck abita a Paperopoli, perciò tendono
a essere autodescrittive, i dati non sono duplicati, utenti diversi possono condividere
gli stesi dati e tutti agiscono sulla stessa rappresentazione, tutti accedono agli stessi
dati, se lavorano su stesso DB, un senso contrario all’uso quotidiano dell’informatica
(esempio i file docx sul mio computer li posso 5 vedere solo io), i dati sono persistenti
cioè sono memorizzati su supporto permanente, il supporto di memorizzazione è
indipendente dal programma che si usa per l’accesso (funzione di storage) CONCETTI
E DEFINIZIONI di DBMS DBMS: Sistema per la gestione di basi di dati (DataBase
Management System, DBMS) si interpone tra il DB e gli utenti, deve avere dei requisiti
e caratteristiche, il database può essere gestito da un’interfaccia (grafica o riga di
comando) oppure da un linguaggio di programmazione (per es. PHP), gli utenti
possono effettuare operazioni sul database tramite l’interfaccia utente oppure
operare su di esso tramite un programma che effettua le operazioni per loro. Le
proprietà del DBMS: supporto a accesso contemporaneo da parte di più utenti –
concorrenza; dati indipendenti dalle applicazioni – riutilizzo tra applicazioni diverse;
Sicurezza – riservatezza dei dati e categorie di utenti; Persistenza dei dati (sia di
integrità fisica sia di vincoli logici); Ottimizzazione dell’accesso (tempi di risposta
prevedibili). In maniera grafica l’accesso al database avviene così: Le basi di dati sono
ben protette dal DBMS che le “custodisce”, l’amministratore di sistema inoltra al DBMS
dei comandi tramite l’interfaccia di accesso al DBMS (PhpMyAdmin o
MySqlWorkbench nel nostro caso) mentre usando internet, gli utenti accedono alle
informazioni tramite un’applicazione programmate (PHP, Node js, ecc…) su un server,
hanno un’interfaccia locale (in html) che permette loro di decidere che operazioni fare
Stati di una transazione, si può vedere come una singola entità, ma a degli step:
1.Inizia 2. Legge-scrive i dati 3. Finisce 4. Conferma: qui vi sono due possibilità:
Commit (operazione andata a buon fine e eseguita) Abort (operazione non eseguita,
nessun passaggio sarà stato eseguito). Da questo modello deriva anche una lista delle
proprietà delle transizioni. Ogni transizione deve essere Acid(a) (EN) ovvero: Atomicità:
se viene eseguita, la transazione viene eseguita per intero, se un’operazione fallisce
tutto fallisce; Consistenza: non viola i vincoli di integrità della base dei dati, non è
possibile esempio, durante un prelievo da un conto la modifica della associazione tra
il numero di conto e la persona a cui appartiene; Isolamento: non interferisce con le
altre transazioni, ogni transazione è singola, ogni operazione inizierà dove finisce la
precedente; Durabilità: le modifiche effettuate non vanno perse, l’estratto conto si
modifica con ogni operazione riuscita in modo permanente. La progettazione di un
DB si articola in fasi, ad ogni fase della progettazione corrisponde un modello di
rappresentazione dei dati: Progettazione Concettuale (sulla base dei requisiti raccolti,
avviene la creazione un modello concettuale ad alto livello della Base di dati, usando il
modello entità-relazioni); Progettazione Logica (Modello concettuale viene tradotto in
uno schema di relazioni tra tabelle e poi implementato; Progettazione Fisica
( Implemento in un DBMS). Per quanto riguarda la gestione del DB, il linguaggio per la
definizione dei dati (Data Definition Language) permette di creare la struttura in cui i
dati saranno inseriti che andranno poi a definire e specificare come si chiama la
tabella, il tipo di dato. Il linguaggio per manipolare il DB (Data Manipulation Language)
permette di fare tre operazioni: inserire i dati, modificare i dati e interrogare i dati. Il
linguaggio per la memorizzazione dei dati (Data Storage Language) più a basso livello
di interazione. MODELLO CONCETTUALE del DB Il Modello Entity-Relationship (Entità –
Relazioni), si basa sull’individuazione, nel dominio dato, di entità (concrete o astratte)
queste sono caratterizzate da un insieme di proprietà (attributi) e sono collegate
tramite relazioni (associazioni). Strumento per progettare concettualmente il DB.
Entità: un tipo di entità è caratterizzato da un insieme di attributi (Es. Regista, Film
questi caratterizzati da attributi primari), un tipo di entità corrisponde a un insieme di
entità, descrivendolo in generale come categoria, tutti hanno gli stessi attributi ma i
valori sono probabilmente diversi alcuni possono essere uguali tipo il luogo di
residenza per una 6 persona, come uno stampo che vada bene per tutti. Esempio: Il
tipo di entità libro è caratterizzato dai seguenti attributi Autore, Titolo, Editore, l’entità
dal titolo “Codice da Vinci” ha come autore “Dan Brown” e come editore “Mondadori”.
Attributi: hanno un nome e un valore, questo fa parte di un insieme, denominato
dominio dell’attributo (nome dell’attributo: anno, Dominio dell’attributo: insieme delle
date). Vi sono più tipi di attributo: elementari (Codici Fiscali), composti (Indirizzo),
attributi a valore singolo-multivalore (Autori). Tra questi vi è l’attributo chiave il cui
valore è unico per tutte le singole entità di un certo tipo, chiave, PRIMARY KEY, i vari
esempi sono i codici ISBN e il Codice Fiscale, la chiave può essere data da un insieme
di attributi ( titolo e anno per il libro; nome, luogo e data di nascita per una persona).
Relazioni: Si ha una relazione/associazione quando un attributo di un tipo di entità si
riferisce al valore di un attributo di un altro tipo di entità (es. casa editrice e il nome o
id del libro, la relazione è “pubblica”). Le relazioni sono caratterizzate da una loro
cardinalità, questa può essere 1:1, un libro è prestato a un solo utente per volta; 1:N
una casa editrice pubblica molti libri; N:M, diverse copie dello stesso libro possono
trovarsi nel magazzino di librerie diverse. Il grado di una relazione è il numero di tipi di
entità coinvolti nella relazione (binaria, se coinvolte due). Le entità in una relazione
rivestono un certo ruolo (es. casa editrice > libro). Una relazione può essere
caratterizzata da proprietà, rappresentate da attributi della relazione, per esempio
l’edizione di un libro ha un anno di edizione. Vi è il vincolo di partecipazione totale:
tutte le entità di un certo tipo devono partecipare a una certa relazione (es. libro deve
avere editore, in ottica di inserire il libro in un DB se un libro non ha un editore, è
inutile metterlo, ma libro non può essere in prestito, ottica della biblioteca), questo
vincolo viene detto anche dipendenza di esistenza: una entità non può esistere se non
è in relazione con un’altra (esempio insegnamento universitario potrebbe non
esistere senza un dipartimento di riferimento). 7 La cardinalità delle relazioni nello
schema relazione si traduce in questo modo: 1:1, in una delle due relazioni coinvolte
si inserisce come chiave esterna la chiave primaria dell’altra; 1:N si inserisce come
chiave esterna nella relazione del lato N la chiave primaria della relazione lato 1
(esempio in figura) ; N:M si crea una nuova relazione che contenga come chiave
esterna le chiavi primarie di N e M. (esempio in figura). 1. 3. POSSIBILE
RAPPRESENTAZIONE GRAFICA DELLO SCHEMA 10 ALGEBRA RELAZIONALE L’algebra
relazionale è un calcolo che permette di definire l’operazione su uno schema di tabelle
in relazione tra di loro, si applica sul modello relazionale. All’interno della tabella si
identificano due operazioni fondamentali: Selezione (simbolo ϭ) ovvero l’estrazione
delle ennuple (righe) di una tabella; Proiezione (simbolo π) ovvero ) ovvero l’estrazione
delle ennuple (righe) di una tabella; Proiezione (simbolo π) ovvero ) ovvero estrazione
dalla tabella un insieme di colonne. Selezione e Proiezione avviene secondo una
condizione data. Utilizzo delle due operazioni è molto comune. Vi sono operazioni
insiemistiche, mettendo in relazioni più tabelle tra di loro, tramite le operazioni di
Unione, Intersezione, Differenza e il Prodotto cartesiano. Un requisito importante per
unire in senso insiemistico è la compatibilità all’unione, ciò è permesso se vi è uno
stesso tipo di ennuple, ovvero lo stesso grado (numero di elementi) e gli elementi
(Attributi) devono corrispondersi ad 1:1 corrispondendo allo stesso dominino, ciò è
indispensabile anche per le operazioni di Unione, Intersezione e Differenza. Unione, si
rappresenta con la dicitura: R∪S, tutte le ennuple della prima relazione e tutte le
ennuple della seconda, eliminando le ripetizioni, vengono redatte in una nuova tabella
Intersezione, si rappresenta con la dicitura: R ∩ S, solo le ennuple che sono sia nella
prima relazione che nella seconda vengono redatte in una nuova tabella. Differenza, si
rappresenta con la dicitura R – S, solo le ennuple della prima relazione che non sono
anche nella seconda relazione vengono redatte in una nuova tabella. Prodotto
Cartesiano, si rappresenta con la dicitura R X S, è il prodotto delle ennuple di due
relazione, in questo caso la compatibilità dell’unione non serve poiché l’operazione
compone le due tabelle per creare una tabella con un grado totalmente diverso, che si
ottiene con la somma delle colonne della prima e della seconda tabella, bisogna
prendere tutte le coppie delle due tabella (Se la tabella A ha due ennuple e la tabella B
ne ha due, allora le ennuple totali sono 4) 11 Operazione per eccellenza che ci
permette di sfruttare la proprietà del modello relazione del collegamento grazie alla
chiave esterna è l’operazione di Join che ci permette di ricostruire il dato nella sua
interezza, la sua dicitura è R |><| S (simbolo della farfallina), tutte le coppie di ennuple
di R e S per cui vale una certa relazione tra un certo attributo di R e un certo attributo
di S, l’operazione si fonda sull’esistenza delle relazioni tra le tabelle. Si riconoscono
alcuni tipi di join, in particolare: Equijoin, la relazione è una relazione di uguaglianza;
Join naturale, si elimina la ridondanza eliminando uno dei due attributi. L’operazione
di Join può essere vista come una sequenza di due operazioni semplici: Il Prodotto
cartesiano e la Selezione delle ennuple per cui vale la condizione di Join. SQL Vi sono
dei tipi di operazioni che definiscono lo schema e inseriscono i dati: per le tabelle le
operazioni sono Create (creazione), Drop (cancellazione) e Alter (modifica); per le
ennuple i tipi di operazioni sono: Insert (inserire), Delete (cancellare) e Update
(modificare). In foto esempio di creazione di una tabella. Sql permette di porre dei
vincoli sullo schema di base di dati, in particolare la relazione di chiave esterna
(Foreign Key) che permette la realizzazione dentro lo schema logico delle associazioni
del modello E-R, ovvero collegare dati da una tabella all’altra, il vincolo permette di
specificare il comportamento del DBMS deve avere se le relazioni vengono violate,
non è possibile per esempio cancellare un valore riferito nella chiave esterna. Per
inserire righe (ennuple) in una tabella (relazione) si usa il comando INSERT, con
attenzione nell’operazione poiché non è detto che il DBMS faccia rispettare i vincoli di
integrità. Il comando di modifica di dati è UPDATE, la dicitura è: UPDATE nome_tab
SET attr1 = xxx WHERE condizione. Le selezioni (interrogazioni) richiedono l’algebra
relazionale, hanno una struttura canonica divisa in tre clausole: SELECT attributi da
includere; FROM tabella in cui prenderli; WHERE (non obbligatoria) condizione. Il
comando Select effettua una selezione delle righe di una tabella in base a una
condizione e proietta il risultato in base agli attributi indicati, il risultato è una tabella
ma può avere righe duplicate. Per porre a condizione in base alla quale si selezionano
gli operatori si usano operatori di confronto (WHERE numero_pagine < 300) e può
avvenire con un numero o una stringa. Per cercare tutte le righe in cui un certo campo
contiene una certa stringa si usa nome_campo 12 facile per un essere umano. Benché
vi siano alcuni principi generali su come strutturare il markup sul piano della
progettazione concettuale, XML non fornisce vincoli formali in tal senso, ma offre
invece la possibilità di specificare in maniera formale una tipologia di documento
definendo un insieme di tag e le loro possibili combinazioni. Il tipo di documento può
essere definito formalmente attraverso un linguaggio denominato DTD oppure un
linguaggio creato ad hoc per incentivare lo sviluppo di XML, XML Schema. L’ordine in
cui appaiono i tag nel documento viene specificato indicando per ogni tag, il suo nome
e il suo modello di contenuto, cioè elencando quali altri tag esso può contenere e in
quale ordine. Per ogni tag che appare nel modello di contenuto di un altro tag, è
possibile specificare quante occorrenze di esso devono apparire nel markup. È
possibile specificare più alternative nel modello di contenuto di un tag, determinando
un markup dalla struttura più o meno aperta. Utilizzando la possibilità di indicare
modelli di contenuto diversi per lo stesso tag è possibile ipotizzare che i due
frammenti siano specificati da un’unica descrizione aperta, anche se tale possibilità
non sarebbe particolarmente utile sul piano pratico, in quanto scarsamente
vincolante. Il modello di contenuto di un tag può essere costituito anche da un
semplice testo come avviene per il tag “descrizione” nel primo frammento, Infine,
possono essere tag vuoti, che non contengono testo al loro interno, lo scopo di questi
tag è arricchire il markup di informazioni che non sono necessariamente riferibili a un
contenuto testuale. Nella specifica degli attributi è possibile indicare tipi di dati diversi
per loro valore, inclusa la enumerazione, è possibile inoltre specificare un valore
predefinito per di attributi. Un documento XML conforme alla definizione di un
linguaggio di markup specifico, definito come tipo di documento è detto valido
rispetto a quella definizione, Un documento che sia invece conforme alle regole
generali della sintassi XML è un documento “ben formato” anche se non
necessariamente valido rispetto alla definizione di un linguaggio. La descrizione della
specifica di un tipo di documento fornita a questo punto è riferita al DTD. A partire dal
2001 il W3C ha definito ufficialmente un nuovo linguaggio per ‘descrizione del tipo di
documento’, la struttura del documento è definita attraverso schemi espressi in
linguaggio XML, perciò il nuovo linguaggio è stato denominato XML Schema, il quale è
più complesso del linguaggio DTD ma più completo. XML Schema è stato progettato
per descrivere i dati contenuti nei documenti XML in termini di strutture dai che
possono essere combinate tra di loro e formare strutture più complesse. XML Schema
è stata accompagnata dall’elaborazione di un ulteriore standard XML, ovvero XML
Namespaces che permette d’identificare la provenienza dei tag rispetto alla
definizione di linguaggi. diversi. Nel corso dell’ultimo decennio la fortuna di XML è
rimasta viva grazie al progetto TEI (Text Encoding Initiative) il quale è un linguaggio di
marcatura testuale basato su XML che permette di codificare la struttura del testo,
quest’ultimo viene etichettato inserendo dei tag che ne identificano le parti, la finalità
del TEI è rappresentare non solo gli aspetti strutturali e concettuali del testo ma anche
la sua resa in un documento specifico. È particolarmente tarato sulle discipline
umanistiche e sulle scienze sociali, si presta a rappresentare in forma elettronica il
testo dei documenti che costituiscono le fonti della ricerca analisi di queste discipline
appunto la portata di TEI non è limitata ai suoi libri ma si estende documenti testuali
di molti tipi diversi. TEI si basa su uno schema XML modulare e facilmente estensibile,
pubblicato con licenza open or source. La struttura di un documento si basa su uno
schema di base, dove viene diviso in <teiHeader> e poi chiuso con dentro le
informazioni per l’header, poi i text che hanno dentro front, body e back. Front
contiene tutto ciò che precede il testo vero e proprio , body contiene il testo e infine
back contiene tutto ciò che segue un testo. Vi sono numerosi tag tra cui <p> e <div>,
inoltre TEI include tag specifici per tipologie di testo specifico, ad esempio <sp>
contiene una battuta di un testo drammatico. A livello fisico un documento XML Si
presenta come un file testuale, nel quale non può essere incorporata nessuna
caratteristica di formattazione, in questo documento testuale, il documento XML
fisicamente composto di unità testuali, le quali costituiscono i dati e il markup,
composto di tag, le tipologie di unità, ugualmente composta di caratteri, vengono
distinte tra di loro per mezzo delle convenzioni illustrate in precedenza. A livello
logico, i tag presenti a livello fisico identificano un insieme di elementi strutturati
secondo lo schema gerarchico determinato dall' annidamento dei tag .Il modello
logico infatti può essere gestito diversamente in ogni ambiente di sviluppo che sia
predisposto la manipolazione del linguaggio XML indipendentemente dal documento
fisso in particolare il W3C ha definito un modello comune orientato agli oggetti per
l'elaborazione di XML nei linguaggi di programmazione. Il DOM costituisce
un'interfaccia si tratta di programmazione dei temi denominata DOM Document
Object Model cioè modello a oggetti del documento. Il modello gerarchico che
caratterizza XML rafforza tutti realmente dal vincolo secondo cui l'intero documento
deve essere contenuto in un unico tag ha determinato in buona parte del successo di
XML da una parte infatti esso si presta all’elaborazione automatica grazie alla sua
struttura ricorsiva tale per cui lo stesso schema di processamento applicato all'intero
documento può essere applicato ogni sua sotto parte dall'altra 15 parte e si
costituisce un principio organizzativo dei dati semplicemente arrivo per l’annotatore
umano. D’altro canto, il modello strettamente gerarchico di XML presenta il difetto di
essere limitante rispetto alla rappresentazione di domini concettuali organizzati
secondo relazioni non strettamente gerarchica. Per ovviare a questa limitazione è
stato creato un linguaggio apposito Xlink che permette di aumentare la struttura
rigidamente gerarchica di XML con elementi ipertestuali trasversali rispetto alla
gerarchia dei tag. Un documento XML può essere visualizzato direttamente nel
browser secondo una modalità di visualizzazione interattiva particolarmente adatta a
evidenziare la struttura e facilitarne la navigazione da parte dell'utente. I web browser
infatti contengono un interprete sintattico o parser che analizza la struttura dei
documenti XLM permettendo di produrre la visualizzazione detta. Inoltre, la maggior
parte dei parser XML è in grado di verificare la conformità di un documento rispetto
alla definizione di un tipo di documento a cui esso fa riferimento. Lo sviluppo XML ha
comportato la creazione di tecnologie ad hoc per la visualizzazione e l'accesso ai dati
rappresentati in formato XLM rispettivamente XSL e XQuery, tutte e due poggiano sul
linguaggio XPath, definito dal W3C come strumento per riferirsi alle parti che
compongono un documento XML. Nel linguaggio XPath il documento XML è
rappresentato come un insieme di nodi, strutturati in una gerarchia che riflette la
gerarchia degli elementi nel documento. Una differenza tra la gerarchia degli elementi
XML e il modello di rappresentare presentazione XPath è data dal fatto che al fine di
permettere un accesso selettivo tutte le parti del documento sono rappresentati
come noti non solo gli elementi ma anche il loro contenuto testuale gli attributi degli
elementi e altri componenti del documento. Il linguaggio XPath identifica i nodi che
fanno parte di un documento XML in base alla loro posizione nel documento. Tale
posizione viene specificata sulla base del percorso che collega il nodo dato a un nodo
di riferimento nella struttura gerarchica del documento. Normalmente il nodo di
riferimento è dato dalla radice del documento tuttavia è possibile prendere come
riferimento qualsiasi altro nodo nel documento stesso o in un documento esterno.
Per creare un linguaggio XML bisogna definire la sintassi (grammatica) di un
linguaggio con XML significa definire: un insieme di tag, attributi di tag e possibili
combinazioni di tag. Ci sono due metodi per farlo: DTD (Document Type Declaration) e
XML Schema. DTD È la grammatica di un linguaggio XML-based, la conformità di un
documento a una DTD va contenuta in un file esterno <!DOCTYPE esempio SYSTEM
“prova.dtd”> o definita nel documento stesso <! DOCTYPE esempio [definizione
DTD]>. Come in esempio <! : Crea e definisce un elemento o una serie di attributi, la
parte che segue contiene la descrizione di come l’elemento si combina con gli altri.
Vengono dichiarati una serie di elementi, la dichiarazione avviene in questo modo: <!
ELEMENT nome elemento (modello del contenuto)> se vogliamo dire che l’elemento
conterrà semplice testo scriviamo PCDATA (parser character data) oppure scriviamo il
nome di altri elementi, ci sono simboli particolari per vincolare il numero di quanti
elementi troveremo all’interno dell’elemento che stiamo definendo: ? uno o nessuno;
* nessuno o più; + uno o più. In più ogni elemento può essere accompagnato dal
simbolo messo, dopo ovviamente aver scritto l’elemento (Elemento+). Possiamo avere
una sequenza di elementi scritti così (el1, el2), la virgola è l’operatore di sequenza che
segue l’ordine che è vincolante. Ci possono essere anche elementi alternativi,
rappresentati così (el1 | el2) e ci può essere nessun elemento (EMPTY). Vi sono degli
esempi <!ELEMENT capitolo (titolo, testo_capitolo)> significa: Un elemento capitolo
contiene un solo elemento titolo seguito da un solo elemento testo_capitolo. Questo
preclude in esempio che ad ogni titolo segue un testo capitolo, in mancanza di uno
dei due il file non è valido, poiché secondo DTD non segue la condizione di uno e uno
solo. Un altro esempio <!ELEMENT biblioteca (libro+)> significa: l’elemento biblioteca
contiene uno o più elementi libro. Se valido il testo presenta il tag biblioteca a cui
seguono i libri, in ordine, il testo non è valido in esempio non ha libro. Un altro
esempio <!ELEMENT titolo_capitolo (titolo|numero)> significa che l’elemento
titolo_capitolo contiene un titolo o un numero, nel testo valido presenta o titolo o
numero, ciò permette la varietà di manifestazioni reali diverse, 16 non è valido se si
presentano nei tag sia il titolo sia il numero, poiché l’alternativa è l’alternativa.
Ulteriore esempio è <!ELEMENT capitolo ((titolo | numero), corpo)> ciò significa che
l’elemento capitolo contiene un titolo o un numero e un corpo. L’immagine è la
descrizione di un dominio della biblioteca. Per la creazione degli attributi si usa il
codice <!ATTLIST nome_elemento nome_attributo | tipo_dato defaul>. I nomi di
attributo devono essere diversi, il default può essere di quattro tipi: obbligatorio
#required ; facoltativo #implied ; fisso #fixed ; “valore predefinito”. Nell’immagine il
significato è: l’elemento libro ha un attributp id necessario e un attributo editore
facoltativo. Se manca id manca il testo non è valido perché #required. Un secondo
esempio è <!ATTLIST prefazione valutazione (pessimo| sufficiente| buono| ottimo)
#REQUIRED> l’esempio significa che l’elemento prefazione ha un attributo valutazione
obbligatorio che può avere uno dei quattro valori specificati. Nel caso scrivessi
mediocre, il testo non è valido. CDATA indica il testo. Si può collegare un documento
CML a una DTD internamente o esternamente al documento secondo la dicitura: DTD
esterna <!DOCTYPE radice SYSTEM URL> dopo ovviamente la dichiarazione XML,
oppure DTD interna con <! DOCTYPE radice [dtd]>. In ogni caso per collegare bisogna
usare il DOCTYPE, il caso più comune è quella esterna. La radice della DTD esterna,
DTD ci permette di definire la struttura di un documento XML a partire che la sua
radice, nell’esempio della biblioteca sia appunto biblioteca, in pratica l’elemento
radice è quello che compare solo una volta. Es. <!DOCTYPE biblioteca …>, nel caso
lavoro da libro in giù l’esempio cambia in <!DOCTYPE libro…> Le DTD hanno alcuni
limiti intrinseci: non permettono di distinguere tipi di dati diversi, solo stringhe di
caratteri e elementi e non sono scritte in XML, ha hanno un linguaggio specifico. XML
SCHEMA Per le limitazioni che ha DTD, la definizione di lunguaggi basati su XML
tramite Schemi XML ha soppiantato l’uso delle DTD, lo stesso schema XMl è un
documento XML, questo è un linguaggio più espressivo ma produce definizioni meno
compatte. Anche uno schema XML è un documento XML e come tale comincia con la
dichiarazione del tipo di linguaggio <?xml version=”1.0” ?> e tutti i tag hanno il prefisso
xsd (XML Schema Definition) che permette di individuare il linguaggio di riferimento.
Si collega un documento a uno schema, avviene nel primo elemento del documento e
si utilizza l’attributo xsi:schemaLocation. Dentro lo schema XML vi è una traduzione in
XML del linguaggio della DTD. Sostanzialmente !ATTLIST diventa <xs:attribute>…
</xs:attribute> segue a ciò anche !ELEMENT che diventa <xs:element>…</xs:element>
All’interno degli schemi XML abbiamo una gestione migliore dei tipi di dato, vi sono
infatti due tipi di dati che si diramano in altrettanti tipi: tipo di dato semplici (stringhe,
data e tempo e numerici (byte, float, ecc.)) e tipo di dato complessi (sequence e
choice) questi elementi contengono altri elementi. Con ciò si arriva alla
trasformazione che i dati semplici come il testo devono affrontare, per il testo se in
DTD era delineato così: <!ELEMENT titolo (#PCDATA)> diventa nello schema XML
<xs:element name=”titolo” type=”xs:string”/> l’elemento titolo viene riferito in altre
parti dello schema tramite l’attributo ref. Esempio <xs:element ref=”titolo/> . In sé il
modello per indicare gli elementi è la seguente: <xs:element name=”nome”
type=xs:tipo”/>, ci sono molti tipi di dato: string, int, decimal. anyUri, gYear, dayTime e
altri. Dopo andranno inseriti con la classica dicitura già vista in HTML. La Sequenza in
DTD si svolge in una sola riga con <!ELEMENT li bro (dati, contenuto)> invece con lo
schema XML la sequenza si espande diventando ciò che è nella figura a lato. Il tag
choice indica l’alternativa che da DTD, che permette quindi la scelta di due elementi,
ovviamente annidato all’interno. La dicitura per gli attributi in XML Schema cambia da
così: <!ATTLIST copertina immagine CDATA #IMPLIED> ad essere così: <xs:attribute
name=”immagine” type=”xs:string” use=”optional”/>. In pratica si prende pezzo per
pezzo del DTD e lo si denota in varie categorie. Con il tag attributeGroup si possono
raggruppare gli attributi che sono collegati ad un elemento. Vi sono delle restrizioni: è
possibile porre restrizione sul numero di occorrenze di un elemento, generalizzando
così i simboli usati in DTD, usando un singolo attributo nello schema XML che sono
minOccurs o maxOcuurs, se non è specificato il valore vale 1, usando inoltre la
dicitura maxOccurs=”unbounded” 17
Documentazione Digitale Riassunto,

Appunti di Informatica gestionale
Università di Torino
Informatica gestionale
DOCUMENTAZIONE
DIGITALE APPUNTI
LEZIONE
ARCHIVI DIGITALI
Catalogazione definizione ICCD
(Istituto Centrale per il Catalogo e
la Documentazione) : Attività di
registrazione,
descrizione e classificazione di tutte
le tipologie di beni culturali,
individuare e conoscere i beni,
documentarli in
modo opportuno, archiviare le
informazioni raccolte secondo i
criteri.
Formato digitale, ci sono opere nate
in digitale: Film e Fotografia,
ebook. Altre vengono convertite in
quello che si
chiama “equivalente digitale”,
processo di cui vie e una cattura dei
dati reali, una foto digitale, una
scansione di un
libro, Processo di
DIGITALIZZAZIONE che
permette la conversione da opera
fisica a opera digitale. Viene
imposto
uno standard per la digitalizzazione
che assicurano la qualità e
l’interoperabilità del risultato.
Data Deluge: diluvio di dati, dovuto
sempre di più ad un ammassamento
ad onda di dati reali che diventano
digitali,
con musei virtuali, consultazione di
testi in formato digitali, la scienza
con le pubblicazioni, grandi
quantità di dati
(dataset)
Modo in cui gli archivi digitali si
manifestano si articola in alcune
aree generali:
 Biblioteche digitali (Digital
libraries) dove le risorse sono
conservate in forma digitale
(PERSEUS digital
library)
 Archivi digitali (Digital
archives) dove il materiale più
eterogeneo in archivi – formati
diversi, spesso legato
all’attività di un’istruzione (archivi
di film, musica, immagini, teatro,
ecc..)
 Digital repository: un
“deposito” scarsamente strutturato
di documenti
Scopi della conservazione:
 Conservazione; conservazione a
lungo termine del bene/risorsa, la
conservazione delle risorse digitali
ha
problematiche specifiche
 Fruizione: ricerca e accesso alle
risorse da parte del pubblico che
può essere generico o specialistico
 Studio: lo studio da parte di
specialisti della risorsa
Digital rights management:
Gestione dei diritti nel contesto
digitale
CATALOGO/METADATI/ARCHI
VIO
Archivio: raccolta di beni culturali.
Opere o documenti (risorse) sono
descritti in un catalogo
Catalogo: insieme di schede, che
descrivono le opere (titolo,
dimensioni, argomenti, autore,
ecc…) forma strutturata
che contengono i Metadati,
Metadati: sono la descrizione dei
dati, contengono informazioni
diverse: Metadati Amministrativo-
Generali, MAG
che corrispondono alla gestione e
alla amministrazione, come
responsabilità, provenienza e
proprietà; relative al
contento come ad esempio autore,
formato, ecc… (ES. di scheda
metadati DUBLIN CORE)
Schede di catalogo hanno le schede
gemelle con la stessa struttura con
le stesse proprietà, situazione di
grandissima
confusione se la condizione non è
corretta, bisogno di omogeneità
Schede di metadati: Dublin (Non
Dublino, nome nasce da Dublin in
Ohio, USA) core, si trova ovunque,
schema di
metadati, schema descrittivo per
rappresentare dati di una
determinata risorsa, Nata per il
WEB, è lo schema di
metadati più semplice (ISO 15836),
nato per essere una base per tutta la
documentazione. Ha lo scopo
esplicito di
permettere il reperimento di risorse
(Web risorse). Con Dublin Core si
può descrivere qualsiasi cosa,
descrive le
risorse, risorsa per essere tale deve
avere un’identità, identità è un
indirizzo internet, secondo lo
standard RFC2396 (lo
standard che si riferisce all’URI),
risorsa può essere informazione o
indirizzo in senso più ampio. DCMI
(Dublicn
Core Metadate Initiative) ha una
typelist: collection, dataset, ecent,
image (still or moving), interactive,
resourse,
service, software, sound, text,
physical object.
Elementi fondamentali del Dublin
Core (DC-MES Metadate element
set): Title, Creator,
Subject, Descripion, Publisher,
Contributor, Date, Type, Format,
Identifier, Source,
Language, Relation(relazione con
altre opere), Coverage e Rights.
1
Si può identificare qualsiasi cosa
come la canzone in esempio o una
immagine, anche una gif, anche una
statua. I vari
elementi possono essere ripetuti
seguendo sempre la massima
descrizione di una risorsa. Bisogna
attingere dallo
standard Dublin Core.
Bisogna digitalizzare ovviamente lo
schema fatto (in questo caso a
matita, o su slide), il processo
permette al contenuto logico dello
schema di metadati (nozione
astratta) di essere in un formato
machine-readble (XML, RDF e
JSON) si chiama
SERIALIZZAZIONE.
In esempio è la serializzazione per
un file audio chiamato “A Guide
to Growing Roses” di “Rose Bush”,
esempio fittizio, in scrittura
XML (leggibile), tag html che
corrispondono al Dublin Core
<dc:title>A Guide to Growing
Roses</dc:title> segnalano alla
macchina che gli elementi tra i tag
fanno parte del Dublin Core, in
modo comprensibile è leggibile sia
per noi sia per la macchina.
Formato JSON è un formato meno
comprensibile, formato adatto allo
scambio di dati improntato sugli
array Javascript, annidati uno negli
altri,
primo livello contengono key words
precedute dalla @ ( in esempio
laterale
@type appartiene al tipo Library
che contiene all’interno ciò che è
racchiuso
nelle parentesi graffe dopo la riga
“contains” contiene un @subject ,
un
“@type”=”ex:Book” (un libro)
“dc:creator”: “Plato”, “dc:title:
“The
Republic” ( il libro è la Repubblica
di Platone che a sua volta contiente
Capitoli ecc…) permesso da JSON
è il forte annidamento dei dati.
Tra gli esempi di possibilità da
remoto di indagine delle
documentazioni
digitali vi sono: Europeana, MET
Galleries, British Museum, ecc…
MODELLO OAIS
Modello OAIS descrive un modello
astratto di archivio, non è
architettura concreta, è un modello
di funzionamento
dell’archivio, orientato alla
conservazione di dati, il modello è
funzionale, perché si concentra sulle
funzioni principali
dell’archivio: inserimento,
consultazione e conservazione dei
dati. Descrive un insieme di
funzioni che si interfacciano
ad uno schema predefinito (modello
funzionale), i dati immensi
nell’archivio vengono resi
accessibili al fruitore
attraverso l’intervento del gestore
dei dati. Da notare che è definita
rispetto al concetto di comunità
designata,
riconoscendo il fatto che l’archivio
ha la finalità di consultazione di una
singola comunità che poi utilizzerà i
dati.
Per quanto riguarda le funzioni di
base (Entità funzionali)
OAIS (dispensa) riconosce 4
funzioni base: Ingest, ha il
compito di ricevere i dati del
produttore e predisporli per la
memorizzazione; Archival Storage,
gestisce la
memorizzazione dei dati; Data
Management gestisce il
database; Access supporta l’accesso
ai dati da parte
dell’utente. In figura vengono
evidenziatii flussi interni
dell’archivio Producer inoltra i dati
(pacchetto informativo
SIP) alla funzione Ingest che
conterrà il dato e la descrizione
(metadati), dato inoltrato poi alla
funzione Archival Storage,
verrà rappresentato in un luogo
(cartella, ecc…) invece
l’indirizzo dove è stata messa la
risorsa e i metadati della
risorsa vengono inviati da Ingest
(NO da Archival Storage) a
Data Management che viene assolto
tipicamente dall’utilizzo di un
Database, nel momento in cui
avviene l’accesso e
si interfaccia (da sito, es.
Europeana) digita una keyword o
usa una risorsa, l’archivio viene
interrogato e viene
inoltrato la funzione di accesso che
recupera dati.
2
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
SCARICA
SCARICA
Dublic Core) i loro metadati
secondo i protocolli OAI-PMH.
Service Providers richiedono di
poter raccogliere i
metadati che vengono esposti dai
Data providers. Funziona via HTTP
seguendo il protocollo ipertestuale,
permette ai
providers di comunicare tra loro.
OAI-PMH permette in
comunicazione HTTP una serie di
sei servizi (in esempio solo
uno). L’operazione di Harvesting è
una richiesta da parte di un Service
providers di accedere ai dati
contenuti in una
serie di repository, in sé è
un’applicazione client che effettua
una richiesta OAI-PMH, il mezzo
con cui il Service
Provider raccoglie i metadati da un
repository si chiama harvester.
Repository (Definizione) è un
server accessibile in
rete che può rispondere alle
richieste OAI-PMH come descritto
dallo standard. Questa è gestita da
una Data Provider
per esporre i metadata agli
harvester. Risorsa (resource) è
oggetto di cui il metadato parla (con
about). Item è un
contenitore contiene i metadati
(statici o generati automaticamente)
su una singola risorsa, in formati
multipli che
possono essere raccolti via OAI-
PMH, ogni item ha un identificativo
che è unico nel repository in cui fa
parte. Record
è un insieme di metadati in un certo
formato, normalmente restituito in
formato XML, normalmente è
identificato da
un prefisso (Prefix) che delinea il
formato dei metadati, da un
identificativo unico che permette
l’accoppiamento con
l’item a cui appartengono, inoltre
viene identificato anche da un
datestamp che ci dice quando sono
stati generati quei
dati. GetRecord (comando
all’interno del protoccolo OAI-
PMH) recupera un singolo record di
metadati (una scheda)
da un repository, il funzionamento è
in figura. (si chiede arXiv.org il
record con l’item che ha come
identificativo
0112017, formato in formato
Dublin core)
RICHIESTA:
RISPOSTA:
La risposta avviene in xml e
descrive l’item con tag in HTML,
che
portano informazione, il record ha
un header che contiene le
informazioni generali della risorsa,
con l’identificativo, con il
datestamp
e il tag setSpec che precisa l’ambito
di appartenenza dell’articolo in
questo caso matematica e computer
science, dopo l’header abbiamo i
metadati in formato Dublin Core,
che ci inoltrano il titolo, il creato e
il
soggetto (argomento).
SISTEMI PER LA GESTIONE DI
BASI DI DATI (DBMS)
Database management system: vi è
differenza fra dati manipolati in un
formato che risponde ad un modello
concettuale e lo strumento per
creare e gestire i documenti in tale
formato.
Dati e Metadati sono diversi, i primi
hanno entità e proprietà mentre i
metadati sono i nomi delle entità e
delle
proprietà e il tipo dei valori delle
proprietà, nel DB sono
rappresentate entrambi, i metadati
sono parte dei dati. Un
esempio è Donald Duck. I dati
sono: Donald Duck, 0101111, Via
Principale 15, Paperopoli. I
metadati sono che
Donald Duck è una stringa di
caratteri e rappresenta un nome
proprio, 0101111 è un numero e
rappresenta un numero
di telefono e Via Principale 15,
Paperopoli è una stringa di caratteri
e rappresenta un indirizzo.
ATTENZIONE: i
metadati delle risorse nel mondo
degli archivi nel DB sono i dati veri
e propri che a loro volta devono
essere descritti,
nel DB i dati veri e propri sono
separati dalla loro descrizione.
Relazioni tra i dati nel database. Nei
DB i dati sono strutturati secondo le
relazioni logiche tra di essi,
esempio Donald
Duck abita a Paperopoli, perciò
tendono a essere autodescrittive, i
dati non sono duplicati, utenti
diversi possono
condividere gli stesi dati e tutti
agiscono sulla stessa
rappresentazione, tutti accedono
agli stessi dati, se lavorano su
stesso DB, un senso contrario
all’uso quotidiano dell’informatica
(esempio i file docx sul mio
computer li posso
5
Dublic Core) i loro metadati

secondo i protocolli OAI-PMH.
Service Providers richiedono di
poter raccogliere i
metadati che vengono esposti dai
Data providers. Funziona via HTTP
seguendo il protocollo ipertestuale,
permette ai
providers di comunicare tra loro.
OAI-PMH permette in
comunicazione HTTP una serie di
sei servizi (in esempio solo
uno). L’operazione di Harvesting è
una richiesta da parte di un Service
providers di accedere ai dati
contenuti in una
serie di repository, in sé è
un’applicazione client che effettua
una richiesta OAI-PMH, il mezzo
con cui il Service
Provider raccoglie i metadati da un
repository si chiama harvester.
Repository (Definizione) è un
server accessibile in
rete che può rispondere alle
richieste OAI-PMH come descritto
dallo standard. Questa è gestita da
una Data Provider
per esporre i metadata agli
harvester. Risorsa (resource) è
oggetto di cui il metadato parla (con
about). Item è un
contenitore contiene i metadati
(statici o generati automaticamente)
su una singola risorsa, in formati
multipli che
possono essere raccolti via OAI-
PMH, ogni item ha un identificativo
che è unico nel repository in cui fa
parte. Record
è un insieme di metadati in un certo
formato, normalmente restituito in
formato XML, normalmente è
identificato da
un prefisso (Prefix) che delinea il
formato dei metadati, da un
identificativo unico che permette
l’accoppiamento con
l’item a cui appartengono, inoltre
viene identificato anche da un
datestamp che ci dice quando sono
stati generati quei
dati. GetRecord (comando
all’interno del protoccolo OAI-
PMH) recupera un singolo record di
metadati (una scheda)
da un repository, il funzionamento è
in figura. (si chiede arXiv.org il
record con l’item che ha come
identificativo
0112017, formato in formato
Dublin core)
RICHIESTA:
RISPOSTA:
La risposta avviene in xml e
descrive l’item con tag in HTML,
che
portano informazione, il record ha
un header che contiene le
informazioni generali della risorsa,
con l’identificativo, con il
datestamp
e il tag setSpec che precisa l’ambito
di appartenenza dell’articolo in
questo caso matematica e computer
science, dopo l’header abbiamo i
metadati in formato Dublin Core,
che ci inoltrano il titolo, il creato e
il
soggetto (argomento).
SISTEMI PER LA GESTIONE DI
BASI DI DATI (DBMS)
Database management system: vi è
differenza fra dati manipolati in un
formato che risponde ad un modello
concettuale e lo strumento per
creare e gestire i documenti in tale
formato.
Dati e Metadati sono diversi, i primi
hanno entità e proprietà mentre i
metadati sono i nomi delle entità e
delle
proprietà e il tipo dei valori delle
proprietà, nel DB sono
rappresentate entrambi, i metadati
sono parte dei dati. Un
esempio è Donald Duck. I dati
sono: Donald Duck, 0101111, Via
Principale 15, Paperopoli. I
metadati sono che
Donald Duck è una stringa di
caratteri e rappresenta un nome
proprio, 0101111 è un numero e
rappresenta un numero
di telefono e Via Principale 15,
Paperopoli è una stringa di caratteri
e rappresenta un indirizzo.
ATTENZIONE: i
metadati delle risorse nel mondo
degli archivi nel DB sono i dati veri
e propri che a loro volta devono
essere descritti,
nel DB i dati veri e propri sono
separati dalla loro descrizione.
Relazioni tra i dati nel database. Nei
DB i dati sono strutturati secondo le
relazioni logiche tra di essi,
esempio Donald
Duck abita a Paperopoli, perciò
tendono a essere autodescrittive, i
dati non sono duplicati, utenti
diversi possono
condividere gli stesi dati e tutti
agiscono sulla stessa
rappresentazione, tutti accedono
agli stessi dati, se lavorano su
stesso DB, un senso contrario
all’uso quotidiano dell’informatica
(esempio i file docx sul mio
computer li posso
5
SCARICA
1 / 18
INGRANDISCI
Prepara al meglio i tuoi esami
Registrati a Docsity per scaricare i documenti e allenarti con i Quiz
REGISTRATI
e ottieni 20 punti download
Recensisci per primo questo documento

Documentazione Dig

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Documentazione Dig

Caricato da

Copyright:

Formati disponibili

DOCUMENTAZIONE DIGITALE APPUNTI LEZIONE ARCHIVI DIGITALI Catalogazione

definizione ICCD (Istituto Centrale per il Catalogo e la Documentazione) : Attività di

Documentazione Digitale Riassunto,

Dublic Core) i loro metadati

Potrebbero piacerti anche