Sei sulla pagina 1di 5

Digitalizzare libri: io faccio cos

Accolgo, pur con il ritardo di qualche mese, linvito di un amico a


scrivere una breve guida alla digitalizzazione dei testi.
Non sono un esperto di informatica ma un semplice autodidatta che
ha imparato a fare delle cose, spinto dal desiderio di condividere su
Scribd una comune passione per i libri.
Quello che di seguito illustrer il mio modo di procedere, risultato
di sperimentazioni continue, di pratiche di lavoro altrui osservate ed
assimilate e di suggerimenti presi al volo.
Il software di riferimento, segnalatomi da Filosofia_in_Italia,
ScanTailor1 (open source), programma dai risultati strepitosi.
Cosa fa Scantailor? Caricate tutte le scansioni di un libro, consente
lorientamento delle pagine, la divisione delle singole fotocopie in due
parti (due pagine), numerando progressivamente e singolarmente le pagine
cos ottenute. Riallinea il testo, seleziona il contenuto, imposta i margini e
per loutput propone diverse opzioni, dal bianco e nero a colore/scala di
grigi, o modalit mista (dipende dai gusti e dalle esigenze di lettura).
Luso di questo programma risponde ad una personale esigenza di
potere leggere il testo digitalizzato su un ebook reader o su un tablet. In
entrambi i casi la scansione della singola pagina indispensabile. vero
che con il tablet si possono gestire anche le fotocopie a doppia pagina, ma
il passaggio da una pagina allaltra non fluido e inoltre bisogna
riposizionare continuamente limmagine.
Mentre prima procedevo direttamente (in automatico) alla scansione
e conversione in PDF, ora ho separato, ottimizzandole, le diverse fasi.
1) Scansione a 300 dpi in modalit grayscale. Per la copertina e
il retro, colore a 150 dpi. Conviene per ridurre a 100 o a 50 dpi per il
colore, perch ho notato che alcune copertine non vengono
visualizzate su Scribd. I primi lavori si basavano su scansioni a 100150 dpi, ma mi sono accorto che il risultato migliore si ha con un valore
1

http://code.google.com/p/scantailor-osx/
http://scantailor.sourceforge.net/?q=en/node/3
www.scribd.com/Baruhk

di 300 dpi. Un testo di 300 pagine pu comportare una cartella delle


scansioni superiore a 1 GB, ma poi loutput di ScanTailor restituisce
una cartella di file di 20-30 MB, che con un ulteriore alleggerimento
pu arrivare a 5 MB.
2) Finita la scansione, apro ScanTailor, carico la cartella delle
scansioni (escludendo le pagine a colori), eseguo in automatico i diversi
passaggi, controllando poi e aggiustando manualmente (se necessario).
Arrivato a Select Content, allargo il riquadro di selezione per
lintera pagina, regolandomi sulla pagina (destra o sinistra) che ha la
maggiore estensione, in modo che la selezione si sovrapponga all'area
della pagina opposta (dopo diverse prove, mi sono convinto che questa
la soluzione migliore). La colonna di destra consente di visualizzare
con precisione il risultato.
La procedura sopra descritta consigliabile per scansioni non
superiori a 150 dpi. Questo perch il programma ha difficolt a
riconoscere alcune parti del testo, quindi si rischia di saltare interi
pezzi di pagine che il programma non vede. Con una scansione a 300
dpi ci si pu invece affidare alla selezione automatica del contenuto.
Controllare sempre il risultato, perch pu capitare che salti qualche
numero di pagina o qualche nota. In questo caso, regolare
manualmente la singola pagina.
3) A questo punto, avendo gi impostato margini piuttosto ampi
nella selezione precedente, imposto a zero tutti i valori del riquadro
margins e applico per tutte le pagine. Segue controllo manuale,
perch qualche pagina pu rimanere tagliata. Quando ci succede, si
ritorna al punto precedente, si regola la selezione del contenuto in
modo da comprendere anche la pagina o le pagine tagliate e si ripete la
sequenza.
Come per sopra, la procedura descritta va bene per scansioni
fino a 150 dpi. Per scansioni di 300 dpi, lasciare i margini predefiniti.
4) Arrivati alloutput, regolo a 600 dpi la risoluzione e seleziono
la modalit Black and white. Per le pagine di solo testo la scelta
migliore. Si ha un testo nitido su sfondo bianco, ottimo per i
www.scribd.com/Baruhk

reader/tablet. Per le pagine a colori e per le immagini o foto in bianco


e nero, impostare color/grayscale. Per fotocopie di testo non ben
definite, un discreto miglioramento si ha con lopzione White
margins ed equalize illumination. Provare in questo caso anche
mixed, valutando il risultato.
Finita questa prima parte, passo alluso del secondo, fondamentale
programma, Adobe Acrobat. Ovviamente, si possono usare programmi
similari che consentano le stesse operazioni. Apro con File Crea
Combina file in un unico Pdf la cartella di output di Scan Tailor. Inserisco
tutti i file e aggiungo la copertina e la quarta di copertina che avevo
tralasciato. Ordino, nel riquadro di assemblaggio, la numerazione dei file
spostandoli in sequenza (la numerazione di ScanTailor va riordinata nel
riquadro). A questo punto comincio a lavorare sul file PDF appena
prodotto.

1) Ritaglio la copertina , la quarta e il risvolto di copertina a


parte.
2) Poi procedo con il ritaglio dei margini, impostando un
valore medio sia per le pagine pari che per quelle dispari. Le due
operazioni (pari e dispari) sono separate (non so se altri
programmi includono queste due distinte operazioni, ma Acrobat lo
fa in modo veloce ed efficace). La procedura descritta vale per le
scansioni fino a 150 DPI. Per le scansioni a 300 dpi i contenuti
delle pagine sono perfettamente allineati e si pu eventualmente
ritagliare in altezza o larghezza a seconda delle esigenze.
3) Prima di salvare, controllo singolarmente le pagine, per
fare in modo che le stesse siano allineate e che abbiano
(approssimativamente) la stessa misura. Se qualche pagina risulta
tagliata, annullo loperazione (lannullamento possibile solo prima
del salvataggio) e ripeto il ritaglio allargando i margini. Dopo aver
proceduto al ritaglio per le pagine pari e dispari, capita di trovare
pagine con margini neri ( leffetto collaterale dellallargamento, in
www.scribd.com/Baruhk

Scan Tailor, dei margini allintero riquadro della pagina). In questo


caso si pu procedere ulteriormente al ritaglio della singola pagina.
La procedura sopra descritta superflua per scansioni
originarie a 300 dpi.
4) Quando il risultato soddisfacente, si pu salvare.
Sottolineo il fatto che bene salvare alla fine, perch, una volta
salvato il ritaglio, non si pu tornare indietro e bisogna di nuovo
riassemblare i file per creare il Pdf.
5) Per lalleggerimento del file si procede con il comando
Salva con nome Pdf con dimensioni ridotte. Limpostazione
predefinita rendi compatibile con Acrobat 4.0 o successivo.
Questa impostazione produce risultati modesti (qualche Mb in
meno). Lopzione consigliabile rendi compatibile con Acrobat
10.0 o successivo: i risultati sono strabilianti. Quello che si perde
in definizione (poco, visibile ingrandendo molto) lo si guadagna in
leggerezza. Il Dizionario di Abbagnano, che con salvataggio
normale di 111,7 MB, salvato con la modalit sopra descritta, si
riduce a 27,6 Mb; o La storia della filosofia III di Abbagnano,
da 68,7 passa a 16,6 MB.
Il risultato ottenuto stato s il frutto di due potenti programmi,
ma anche l'esito di lunghe giornate di prove e tentativi per potere
realizzare un prodotto apprezzabile. Ma avendo tempo e pazienza,
controllando cio tutte le fasi (con ritagli puliti e simmetrici e pagine con
un perfetto allineamento delle righe), si possono raggiungere risultati di
gran lunga superiori. Inoltre, per alcuni testi, e solo se divorati dal
demone del perfezionismo, con Acrobat si possono creare PDF con
possibilit di indicizzazione ed inserimento di testo, partendo ovviamente
da scansioni di buona definizione (OCR integrato, testato, di ottima
qualit).
Da un PDF costituito da scansioni a doppia pagina, di buona qualit, si
possono ricavare con Acrobat, in formato JPEG, le singole pagine
(loperazione veloce). Con queste immagini si pu procedere con Scan
www.scribd.com/Baruhk

Tailor al miglioramento del file, attraverso la divisione per singola pagina.


Poi si ricostituisce il file PDF con Acrobat. Questa operazione riesce a
migliorare sensibilmente il testo. Se il file PDF, di partenza, invece di
scarsa definizione, la procedura descritta non affatto migliorativa. Per
questo motivo, dora in poi, conserver in un disco esterno la cartella delle
scansioni di ogni testo, in modo da potere costruire file PDF di diversa
grandezza in base alle esigenze duso.
Buona condivisione a tutti! ;-)
Baruch

www.scribd.com/Baruhk