Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ePub: metadata per arricchire un eBook (Parte 1°) « Punto acuto « Servizi per l'editoria
punto-acuto.it
ePub: metadata opzionali (Parte 2°) « Punto acuto « Servizi per l'editoria
punto-acuto.it
2
La ventata di novità dell’ePub3 | eBookReader Italia
Degli ebook reader a inchiostro elettronico in questi anni vi abbiamo raccontato quasi
tutto, svelandone l’evoluzione hardware e funzionale, e quest’ultimo è forse l’aspetto che
nei reader più è apprezzato da noi lettori. La possibilità di adattare il testo al nostro stile
di lettura, l’integrazione di dizionari e negozi di ebook (per un acquisto facile single-click
via Wi-Fi) ha definitivamente mostrato i piccoli/grandi vantaggi del libro elettronico su
quello a stampa.
C’è un altro tipo di evoluzione, meno appariscente e per il momento seguita soltanto dagli
addetti ai lavori. Si tratta della crescita e trasformazione di ePub, un formato che ad oggi è
uno dei più utilizzati a livello mondiale per la pubblicazione degli ebook. Affiancano ePub
altri due formati, anch’essi molto comuni: Pdf e Azw. Pdf è un brevetto di Adobe Systems
ed è orientato alla stampa, mentre Azw è il formato proprietario di Amazon riconosciuto
solo dai dispositivi della famiglia Kindle, siano essi tablet o lettori a inchiostro
elettronico.
In questo articolo vedremo le principali novità dell’ultima versione di
ePub, senza però entrare in dettagli squisitamente tecnici in modo da essere compresi
anche da chi i libri digitali semplicemente li legge. Nelle prossime settimane torneremo
sull’argomento in maniera tecnica e scenderemo nei dettagli del formato ePub.
L’ePub è l’abbreviazione di electronic publication ed è uno standard aperto il cui
sviluppo è portato avanti dall’International Digital Publishing Forum (IPDF).
L’ultima
evoluzione del formato è appunto ePub3. Basato pesantemente su Xml, Html5 e Css3,
porta con sé molte nuove features che lasciano intravedere come il libro elettronico del
futuro sarà, molto probabilmente, responsivo - in grado cioè di adattarsi al “contenitore” –
e contraddistinto da una migliore accessibilità, multimedialità e, almeno per i libri tecnico-
scientifici, da più interattività.
Inserti multimediali con video e audio saranno presto integrati nel testo: un aspetto che
risulterà apprezzato nella consultazione di magazine digitali come pure durante la lettura
di ebook di narrativa.
Sul fronte dell’accessibilità la specifica Media Overlays 3.0 di
ePub3 prevede la “sovrapposizione” di uno strato audio sul contenuto del libro digitale,
consentendo così la lettura del testo e il suo ascolto in sincronia. A questo proposito,
limitatamente ai lettori a inchiostro elettronico, ad oggi solo i LeggoIBS si sono dimostrati i
“più accessibili” grazie a una sintesi vocale di buona qualità e a un rudimentale (ma
funzionante) meccanismo di sincronizzazione della voce narrante con il testo del libro. Con
la specifica Media Overlay 3.0 ecco che la granularità della sincronizzazione della voce
con il testo potrà essere scelta dal creatore del contenuto e il dispositivo, di
conseguenza, evidenzierà la singola parola pronunciata dalla voce oppure l’intero
paragrafo in lettura.
L’interattività è un altro aspetto fondamentale di ePub3. Per esempio, noi lettori potremo
interagire facilmente con l’ebook rispondendo a domande di percorso (pensate a un libro
di scuola), compilando form per la raccolta di feedback o semplicemente passando
qualche minuto di svago con giochi o indovinelli presenti all’interno del libro (cosa peraltro
già possibile con alcuni ebook per iPad).
Per quanto riguarda le pubblicazioni scientifiche ePub3 migliora il supporto alle formule
matematiche (trattate come normali elementi testuali) e alle immagini vettoriali (Svg) che
saranno in grado di adattarsi alla dimensione dello schermo del dispositivo usato per la
lettura.
Da tempo in Rete, tra gli addetti ai lavori, si fa un gran parlare di ePub3, prevedendone i
più ampi scenari di utilizzo che configurano all’orizzonte lo scontro tra il formato ePub3 e
Html5, ovvero tra ebook e applicazioni.
Nell’attesa che ePub3 si diffonda nell’uso, vi
presentiamo due iniziative interessanti.
È il caso di Il Narratore che da inizio anno, in
3
collaborazione con Smuuks, sta pubblicando audio-ebook in formato ePub3, volti «ad
avvalorare l’apprendimento linguistico, emotivo ed empatico attraverso la lettura e l’ascolto
di libri».
Rimanendo in ambito didattico-sperimentale, segnaliamo come seconda iniziativa La
Principessa Azzurra e il Drago Golosone disponibile gratuitamente sull’App Store di Apple.
È un simpatico esempio di libro-gioco per bambini e di quello che si può ottenere con un
uso sapiente di Html5 e Css3, le due fondamenta di ePub3.
4
ePub: metadata per arricchire un eBook (Parte 1°) « Punto acuto «
Servizi per l'editoria
Metadata obbligatori
Metadata opzionali
E ora approfondiamo ogni metadata con un focus dettagliato sulle sue proprietà.
METADATA OBBLIGATORI
- title
Questo elemento è obbligatorio e deve essere inserito almeno un titolo del libro in ogni
ePub. Nelle specifiche ePub3 viene chiarita la possibilità di inserire titoli multipli, ma in
questo caso occorre specificare la tipologia di ognuno di questi nell’elemento title-type (per
esempio “Titolo principale”, “Sottotitolo”, ecc.). Per evitare confusione con la gerarchia,
può essere utile indicare l’ordine di visualizzazione (e per questo ci viene in aiuto
l’elemento opzionale display-seq). Mettiamo di avere un libro dal titolo “L’universo dei
metadata. Guida per arricchire un ePub. Prima edizione”. Ecco come potremmo
suddividerlo:
1 <metadata xmlns:dc="http://purl.org/dc/elements/1.1/">
2 …
3 <dc:title id="titolo1">L'universo dei metadata</dc:title>
4 <meta refines="#titolo1" property="title-type">main</meta>
5 <meta refines="#titolo1" property="display-seq">1</meta>
6
7 <dc:title id="titolo2">Guida per arricchire un ePub</dc:title>
5
8 <meta refines="#titolo2" property="title-type">sottotitolo</meta>
9 <meta refines="#titolo2" property="display-seq">2</meta>
10
11 <dc:title id="titolo3">Prima edizione</dc:title>
12 <meta refines="#titolo3" property="title-type">edizione</meta>
13 <meta refines="#titolo3" property="display-seq">3</meta>
14 …
15 </metadata>
Purtroppo nessun dei lettori che abbiamo testato permette ancora di visualizzare questa
tripartizione e nel caso di iBooks viene mostrato come titolo principale il terzo in gerarchia
(“Prima edizione” come si può vedere dallo screenshot che segue).
- language
In questo metadata obbligatorio va specificata la lingua in cui è stata redatta la
pubblicazione. Le abbreviazioni per specificare la lingua devono avere un valore conforme
alle disposizioni [RFC5646] dell’IETF. Ecco alcuni esempi:
it –> italiano
en –> inglese
fr –> francese
ja –> giapponese
de –> tedesco
Nel caso di un libro scritto in italiano il codice del metadata sarà il seguente:
1 <metadata xmlns:dc="http://purl.org/dc/elements/1.1/">
2…
3 <dc:language>it</dc:language>
4…
5 </metadata>
- identifier
Ogni pubblicazione deve avere un numero identificativo univoco che va specificato
con questo metadata (generalmente è il codice ISBN).
Per essere valido nell’epub2
questo metadata appare così:
1 <metadata xmlns:dc="http://purl.org/dc/elements/1.1/">
2…
3 <dc:identifier id="BookID" opf:scheme="ISBN">1234567890123</dc:identifier>
4…
5 </metadata>
6
5 </metadata>
1 <metadata xmlns:dc="http://purl.org/dc/elements/1.1/">
2…
3 <dc:identifier id="isbn-id">urn:isbn:1234567890123</dc:identifier>
4 <meta refines="#isbn-id" property="identifier-type"scheme="onix:codelist5">06</meta>
5 …
6 </metadata>
Nel caso in cui, invece, venissero apportate modifiche o revisioni significative e il libro
risultasse essere una nuova edizione, sarà necessario specificare un nuovo identifier
univoco.
Per ora neanche questa nuova versione ePub3 del metadata identifier sortisce effetti nei
programmi di lettura testati. Occorre attendere che i programmi di lettura vengano
aggiornati, ma nel frattempo non fa sicuramente male sapere che un domani si potranno
inserire anche queste informazioni.
7
ePub: metadata opzionali (Parte 2°) « Punto acuto « Servizi per l'editoria
Dopo il focus sui metadata obbligatori affrontiamo ora l’argomento dei metadata
opzionali.
Riprendiamo come prima cosa l’elenco.
Metadata opzionali
Queste informazioni non sono obbligatorie, quindi nel caso decidiate di non inserirle non
avrete problemi con la validazione dell’ePub.
Ma riprendendo l’articolo precedente, i
metadata arricchiscono di informazioni il vostro eBook, quindi costituscono un buon valore
aggiunto anche in termini di ricerca dei contenuti.
- creator
In questo metadata viene indicato il nome della persona o dell’organizzazione
responsabile del contenuto della pubblicazione. È possibile specificare il ruolo
ricoperto attraverso la proprietà role. Questi elementi sono disponibili sia nella versione
ePub2 che ePub3 ma con delle differenze:
versione ePub2
versione ePub3
Nel caso in cui ci sia più di un creatore della pubblicazione, con i metadata ePub3 è
possibile servirsi di display-seq (già visto con title) per decidere la gerarchia nella
visualizzazione dei nomi.
8
aui –> Autore dell’introduzione
bkd –> Book designer
clb –> Collaboratore
cov –> Cover designer
ill –> Illustratore
pfr –> Correttore di bozze
red –> Redattore
trl –> Traduttore
In questo modo può essere data visibilità a tutti coloro che hanno contribuito alla
realizzazione del libro creando una sorta di titoli di coda del libro.
Nel caso in cui si
volesse effettuare un’ulteriore divisione distinguendo ruoli di primo e secondo piano nella
realizzazione del libro, si può ricorrere al metadata contributor.
- contributor
Dal punto di vista del codice ha le stesse caratteristiche di creator, ma indica coloro che
hanno avuto un ruolo di secondo piano nella realizzazione della pubblicazione.
- rights
Vanno qui indicate tutte le informazioni inerenti i diritti legati alla pubblicazione.
Tipicamente le informazioni di copyright includono i vari diritti di proprietà associati alla
pubblicazione, compresi i diritti della proprietà intellettuale.
- date
Questo elemento serve per indicare la data di creazione dell’ebook. È ammessa
solamente una data e nel caso di modifiche successive del libro, lasciando immutato il
valore inserito in date, si potrà ricorrere alla proprietà modified.
1 <dc:date>2012-03-20T10:00:00+02:00</dc:date>
2 <meta property="dcterms:modified">2012-03-27T10:00:00+02:00</meta>
Il formato dell’ora deve essere conforme ai criteri indicati in questa pagina dal W3C.
- source
Questo elemento è molto interessante per avere un collegamento tra l’edizione digitale
e la corrispettiva cartacea. Tramite source è infatti possibile indicare il codice
identificativo univoco (generalmente l’ISBN) dell’edizione cartacea da cui è stato tratto
l’ebook.
Anche in questo caso è ammesso un solo valore in source.
Nello snippet che
segue si vede prima il codice ISBN dell’edizione digitale e a seguire l’ISBN dell’edizione a
stampa.
1 <dc:identifier id="BookID" opf:scheme="ISBN">1234567890123</dc:identifier>
2 <dc:source id="srcID" opf:scheme="ISBN">0987654321098</dc:source>
- publisher
Come si può facilmente capire qui va indicato il nome della casa editrice o di chi ha
9
fatto sì che la pubblicazione fosse disponibile.
1 <dc:publisher>Edizioni Taldeitali</dc:publisher>
- subject
Qui è possibile inserire alcune parole chiave o anche una frase sintetica che indichi
l’argomento dell’ebook. Non c’è una lista precisa a cui attenersi per inserire i valori e non
c’è un limite di valori da inserire.
- type
Con questo metadata è possibile specificare la natura o il genere del documento. Per
avere un’idea di alcuni valori disponibili per questo metadata si può consultare la sezione
apposita DCMI Type Vocabulary del Dublin Core.
- format
Qui è possibile specificare il formato del file o le dimensioni della risorsa. Per avere
maggiori informazioni si rimanda al MIME Media Types
- description
Questo metadata prevede una descrizione del contenuto della pubblicazione. Può
includere per esempio un riassunto della trama o una descrizione dei contenuti principali
nel caso di una pubblicazione tecnica.
- relation
Qui può essere indicata una stringa identificativa di una risorsa e la sua relazione con la
pubblicazione. È consigliabile che la stringa faccia parte di un sistema convenzionale di
identificazione. Il DCMI Usage Board sta cercando un modo formale per esprimere questa
intenzione.
- coverage
Questo metadata serve per indicare la pertinenza spaziale e temporale della
pubblicazione, la giurisdizione entro cui la pubblicazione, con i suoi contenuti, è pertinente.
Un luogo identificato con le sue coordinate geografiche, un periodo temporale, una
giurisdizione. Si raccomanda di servirsi di una risorsa controllata come il Thesaurus of
Geographic Names [TGN].
10
Introduction to EPUB 4 – EDRLab
11
detailed specifications; Therefore, .pwp files would be exchanged in many B2B or B2C use
cases, for e.g. business reports. Other participants believe that PWP should be an abstract
specification, which defines blueprints for concrete implementations like EPUB 4, but does
not define a complete interchange format. The position of EDRLab is that PWP should
define a simple but complete interchange format, which should be marketed as EPUB 4,
so that end users never face two almost identical formats (.pwp and .epub). The Interest
Group didn’t solve that issue before and the Business Group and Working Group will
therefore have this responsibility.
EPUB 3 was created in 2011, but it didn’t replace EPUB 2 so far on most ebook
distribution channels.
The WG charter states that EPUB 4 will be a profile of PWP, i.e. a specialization of PWP,
with some additional features specific to the publishing industry (if any). EPUB 4 should be
the ultimate interchange format for ebooks and other kinds of publications. It will keep
most features of EPUB 3 (if not all), will make use of HTML5, CSS 3, javascript, media
overlays, etc.
With some care and duplication of internal structures, it will be possible for a publisher to
release EPUB files simultaneously compatible with versions 2, 3 and 4 of the format.
The modifications of such internal plumbing will not change much for publishers of simple
ebooks and round-trip transformation between EPUB 3 (or EPUB 2) and EPUB 4 will be
made available by the Readium community.
But EPUB 4 wouldn’t have a great interest for publishers and users if it was only a matter
of plumbing. EDRLab will therefore push two innovations:
A solution for Web comics (and manga); an internal EDRLab Working Group has been
created in June 2017 for preparing proposals to the W3C for such concept and structure;
this will include page transitions and much more.
A solution for audio-books, currently never published using EPUB; an internal EDRLab
Working Group has also been created in June 2017 on this subject.
Other profiles of PWP may be created by different companies. This aspect is currently
(June 2017) only promoted by Adobe systems, so that they can build their “Next
Generation PDF” on PWP. From the public information available, one can imagine this
Adobe format as a large package containing a manifest, the html/css/js resources of a
Web Publication, plus a set of PDF 2.0 documents, each optimized for a specific screen
resolution.
Conclusion
As on June 2017, the Publishing Working Group has just begun its work on these three
specifications. Currently, no representative of the browser vendors has joined the group,
something which must be addressed quickly, as some issues like a clean pagination
mechanism (CSS Fragmentation?) and a great layout both depend on the integration of
paged content in multiple browsers.
Web standardization should be agile and based on software prototypes. We hope that the
developments already made by the Readium-2 community will foster a rapid pace of
development for Web Publications and EPUB 4 format.
12
13
The Importance of EPUB and the Need for EPUB 4
Introduction
EPUB has become a fundamental technology for the global publishing ecosystem. It is the
preferred format for a broad range of types of publications, and it is considered essential
for accessibility. It has also become embedded in systems and workflows, not just as a
distribution file format, but as the basis for content development and management
workflows as well.
It is important to this ecosystem that the specificity, portability, and predictability provided
by EPUB be maintained and advanced as a profile of the more general, flexible, and
accommodating Web Publication format.
As the convergence of EPUB and Web Publications moves forward in the proposed
Publications WG in the W3C, it is critical to the publishing ecosystem that EPUB 3 be
maintained and refined in the meantime (which will be done in the EPUB 3 CG). It is even
more important that the next generation of EPUB, currently referred to as EPUB 4, retain
the specificity, portability, and predictability required by the publishing ecosystem while
benefitting from the improved features and functionality offered by full alignment with the
Open Web Platform as a profile of Web Publications and as a well-defined type of Portable
Web Publication.
EPUB 4 must not be in conflict with Web Publications; it must be a type of Web Publication
that provides the predictability and interoperability that this ecosystem has come to rely on.
Trade Books
The first and still the most common use of EPUB is for the distribution of ebooks. Because
it has become so widely accepted in this space, it is now possible for trade book
publishers to create a single EPUB file that can be provided to all the retailers and
aggregators for whom they previously had to create separate versions. Although the
biggest recipient, Amazon, still delivers to consumers a proprietary format, the single
EPUB that a trade book publisher sends to the rest of its partners is also the preferred
format to send to Amazon, where it is converted into their proprietary format.
The ability to send a single EPUB file to multiple recipients in the book supply chain is an
important business requirement to publishers, removing significant friction and
maintenance overhead to production and distribution workflows. That ability is based on
the specificity and consistency provided by the EPUB format, removing ambiguity and
unpredictability as files move between systems.
Although EPUB was used at first mainly for books with relatively simple formats—fiction
and trade nonfiction—it is now used for almost all types of trade books, including books
with complex layouts (e.g., cookbooks, travel guides) and books for which the graphics
and page layout are essential to how the book “works,” such as many children’s books. As
another example, EPUB has become the standard format for the distribution of e-manga in
Japan.
Education
14
EPUB and the EPUB for Education profile are used not so much for distribution to the
retail supply chain, but as a framework for the content infrastructures and platforms by
which many large educational publishers develop, deliver, and disseminate their content to
the learning management systems (LMS’s) and virtual learning environments (VLEs) used
in the classroom.
While these implementations are essentially built on Open Web Technologies, this is an
example of the added value that the EPUB format provides: an enhanced vocabulary,
containing publication- and education-specific terms not available in HTML or WAI-ARIA;
the ability to create a complex publication consisting of many documents, media, and
interactive features as a single well organized entity; and the ability to extract ”chunks” of
content (distributable objects) such as tests, quizzes, exercises, scripted components, etc.
and distribute them as valid EPUBs as well. EPUBs used in education also have stricter
accessibility requirements than those of the web in general, although those requirements
are all consistent with WAI, WCAG, and ARIA.
The ability to create arbitrarily complex, interactive, and media-rich publications as
consistent, coherent, identifiable entities is an important business requirement for
publishers that the EPUB format provides.
EPUB is also not just for book content. IBM, for example, has moved from PDF to EPUB
as the standard format by which its documents are delivered. Japanese official documents
are distributed as EPUBs. The EU Publications Office (EU OP) has created EPUBs for the
extremely diverse set of publications it distributes—ranging from legal, parliamentary, and
judicial documents to instructional and informational documents from the EU agencies in
all countries of the European Union, in all the EU languages. The EU OP is a strong
supporter of the continued evolution of EPUB and Web Publications because their mission
is the wide and free distribution of content by all means possible throughout the EU.
Finally, as an indication of how ubiquitous EPUB has become for document publishing,
Google Docs now provides automatic export as EPUBs.
The ability to disseminate publications in a form that can adapt to any rendering
environment, online or offline, in any orientation and dimension, and that is well
understood and adopted throughout the world, is an important business requirement for
publishers that EPUB provides.
Scholarly Journals
Because scholarly journals were early to see the benefits of digital distribution, the use of
PDFs for journal articles became the norm years ago. This is a problem today because
PDFs are not reflowable or sufficiently accessible. This situation is about to change:
Atypon, one of the leading hosts of scholarly journal content—40% of the world’s peer
reviewed journal literature is on their Literatum platform—has announced that its next
release, coming later in 2017, will create EPUBs as a standard output, requiring no
changes to submitted content on the part of the publisher. This will suddenly make it
possible for literally millions of journal articles to be available as EPUBs.
The ability to automatically generate a reflowable file that renders adaptively, online or
online, in a web-conformant format, from arbitrary source files such as the
NLM/JATS/BITS XML format universally used in scholarly journals, is an important
business requirement that EPUB provides.
15
As a further indication of how ubiquitous EPUB has become, it is part of iBooks, which is
embedded in iOS. This means that all users of current iOS devices can render EPUBs
natively. Similarly, EPUB is natively supported by Google Play, which is available in
Android. Even more significantly, the late beta of Microsoft Edge incorporates EPUB
natively in the browser, as does the Windows 10 Creators Update. These are all
indications of how fundamental EPUB has become—and how close it is to supplanting
PDF as the default publication viewing format.
The ability to create and disseminate publications in a format that renders natively in
browsers, authoring environments, and other widely used systems is an important
business requirement that EPUB provides.
Accessibility
The publication of EPUB Accessibility 1.0 in January was a watershed event in the
publishing ecosystem. This provides the long-needed “baseline specification” for what is
meant by “an accessible publication.” Based on and fully conformant with all Web
accessibility guidelines, EPUB Accessibility provides publication-specific requirements that
will enable the creation of authoritative, referenceable specifications for use both in legal
contexts and in procurement documents, especially in government and educational
contexts. It also provides the basis for accessibility certification, which is actively being
developed by the DAISY Consortium under a Google Impact Grant. EPUB is now widely
preferred as the format for the distribution of accessible content.
The ability to create accessible publications not in a separate, purpose-built form based on
remediation of standard publication formats, but to make the standard publication formats,
created by standard publishing workflows, natively accessible is an important business
requirement provided by EPUB.
Why EPUB 4?
The convergence of the Web and Publishing—which is the main motivation behind the
main motivation behind the recent combination of the IDPF into the W3C—means that
future publications will be able to make use of all the features available on the Web, and
can produce publications that can be displayed, without any specific actions, in any Web
browser. This evolution is essential for some of the aforementioned publishing areas like
publishing educational document or scholarly journals and books. This evolution leads to
the concept put forward by the recent work at W3C and now planned to be a core
development for Publishing@W3C—Web Publications, and its subset, Portable Web
Publications.
Web Publications need to be able to use any and all available web technologies, whether
online or offline. The Web Publication format needs to be extremely accommodating and
agnostic. For example, when a Web Publication is packaged, it must be possible to use
any packaging format available on the Web, now or in the future. And the Web Publication
specification needs to align completely—down to the specifics of “may,” “should,” and
”must”—with the Web in general.
However, the publishing ecosystem requires specificity, portability, and predictability that
may mean, in some respects, limiting such choices and requiring things that may not be
required by Web Publications in general. For example, while a Web Publication may be
packaged in any valid way, it is useful for the publishing ecosystem to know that all EPUBs
are packaged in a certain way (e.g., as a .zip). Likewise, the Web does not require WCAG
AA conformance; this is only recommended for web content. EPUB 4, on the other hand,
16
may require WCAG AA conformance.
The recognizable and widely implemented EPUB format can, and should, continue to
evolve. But it is important for its identity as a specific type of Web Publication, which
provides the specificity, portability, and predictability required by the publishing ecosystem,
to be maintained in its next, fully Web conformant, generation.
17