Accolgo, pur con il ritardo di qualche mese, linvito di un amico a
scrivere una breve guida alla digitalizzazione dei testi. Non sono un esperto di informatica ma un semplice autodidatta che ha imparato a fare delle cose, spinto dal desiderio di condividere su Scribd una comune passione per i libri. Quello che di seguito illustrer il mio modo di procedere, risultato di sperimentazioni continue, di pratiche di lavoro altrui osservate ed assimilate e di suggerimenti presi al volo. Il software di riferimento, segnalatomi da Filosofia_in_Italia, ScanTailor1 (open source), programma dai risultati strepitosi. Cosa fa Scantailor? Caricate tutte le scansioni di un libro, consente lorientamento delle pagine, la divisione delle singole fotocopie in due parti (due pagine), numerando progressivamente e singolarmente le pagine cos ottenute. Riallinea il testo, seleziona il contenuto, imposta i margini e per loutput propone diverse opzioni, dal bianco e nero a colore/scala di grigi, o modalit mista (dipende dai gusti e dalle esigenze di lettura). Luso di questo programma risponde ad una personale esigenza di potere leggere il testo digitalizzato su un ebook reader o su un tablet. In entrambi i casi la scansione della singola pagina indispensabile. vero che con il tablet si possono gestire anche le fotocopie a doppia pagina, ma il passaggio da una pagina allaltra non fluido e inoltre bisogna riposizionare continuamente limmagine. Mentre prima procedevo direttamente (in automatico) alla scansione e conversione in PDF, ora ho separato, ottimizzandole, le diverse fasi. 1) Scansione a 300 dpi in modalit grayscale. Per la copertina e il retro, colore a 150 dpi. Conviene per ridurre a 100 o a 50 dpi per il colore, perch ho notato che alcune copertine non vengono visualizzate su Scribd. I primi lavori si basavano su scansioni a 100150 dpi, ma mi sono accorto che il risultato migliore si ha con un valore 1
di 300 dpi. Un testo di 300 pagine pu comportare una cartella delle
scansioni superiore a 1 GB, ma poi loutput di ScanTailor restituisce una cartella di file di 20-30 MB, che con un ulteriore alleggerimento pu arrivare a 5 MB. 2) Finita la scansione, apro ScanTailor, carico la cartella delle scansioni (escludendo le pagine a colori), eseguo in automatico i diversi passaggi, controllando poi e aggiustando manualmente (se necessario). Arrivato a Select Content, allargo il riquadro di selezione per lintera pagina, regolandomi sulla pagina (destra o sinistra) che ha la maggiore estensione, in modo che la selezione si sovrapponga all'area della pagina opposta (dopo diverse prove, mi sono convinto che questa la soluzione migliore). La colonna di destra consente di visualizzare con precisione il risultato. La procedura sopra descritta consigliabile per scansioni non superiori a 150 dpi. Questo perch il programma ha difficolt a riconoscere alcune parti del testo, quindi si rischia di saltare interi pezzi di pagine che il programma non vede. Con una scansione a 300 dpi ci si pu invece affidare alla selezione automatica del contenuto. Controllare sempre il risultato, perch pu capitare che salti qualche numero di pagina o qualche nota. In questo caso, regolare manualmente la singola pagina. 3) A questo punto, avendo gi impostato margini piuttosto ampi nella selezione precedente, imposto a zero tutti i valori del riquadro margins e applico per tutte le pagine. Segue controllo manuale, perch qualche pagina pu rimanere tagliata. Quando ci succede, si ritorna al punto precedente, si regola la selezione del contenuto in modo da comprendere anche la pagina o le pagine tagliate e si ripete la sequenza. Come per sopra, la procedura descritta va bene per scansioni fino a 150 dpi. Per scansioni di 300 dpi, lasciare i margini predefiniti. 4) Arrivati alloutput, regolo a 600 dpi la risoluzione e seleziono la modalit Black and white. Per le pagine di solo testo la scelta migliore. Si ha un testo nitido su sfondo bianco, ottimo per i www.scribd.com/Baruhk
reader/tablet. Per le pagine a colori e per le immagini o foto in bianco
e nero, impostare color/grayscale. Per fotocopie di testo non ben definite, un discreto miglioramento si ha con lopzione White margins ed equalize illumination. Provare in questo caso anche mixed, valutando il risultato. Finita questa prima parte, passo alluso del secondo, fondamentale programma, Adobe Acrobat. Ovviamente, si possono usare programmi similari che consentano le stesse operazioni. Apro con File Crea Combina file in un unico Pdf la cartella di output di Scan Tailor. Inserisco tutti i file e aggiungo la copertina e la quarta di copertina che avevo tralasciato. Ordino, nel riquadro di assemblaggio, la numerazione dei file spostandoli in sequenza (la numerazione di ScanTailor va riordinata nel riquadro). A questo punto comincio a lavorare sul file PDF appena prodotto.
1) Ritaglio la copertina , la quarta e il risvolto di copertina a
parte. 2) Poi procedo con il ritaglio dei margini, impostando un valore medio sia per le pagine pari che per quelle dispari. Le due operazioni (pari e dispari) sono separate (non so se altri programmi includono queste due distinte operazioni, ma Acrobat lo fa in modo veloce ed efficace). La procedura descritta vale per le scansioni fino a 150 DPI. Per le scansioni a 300 dpi i contenuti delle pagine sono perfettamente allineati e si pu eventualmente ritagliare in altezza o larghezza a seconda delle esigenze. 3) Prima di salvare, controllo singolarmente le pagine, per fare in modo che le stesse siano allineate e che abbiano (approssimativamente) la stessa misura. Se qualche pagina risulta tagliata, annullo loperazione (lannullamento possibile solo prima del salvataggio) e ripeto il ritaglio allargando i margini. Dopo aver proceduto al ritaglio per le pagine pari e dispari, capita di trovare pagine con margini neri ( leffetto collaterale dellallargamento, in www.scribd.com/Baruhk
Scan Tailor, dei margini allintero riquadro della pagina). In questo
caso si pu procedere ulteriormente al ritaglio della singola pagina. La procedura sopra descritta superflua per scansioni originarie a 300 dpi. 4) Quando il risultato soddisfacente, si pu salvare. Sottolineo il fatto che bene salvare alla fine, perch, una volta salvato il ritaglio, non si pu tornare indietro e bisogna di nuovo riassemblare i file per creare il Pdf. 5) Per lalleggerimento del file si procede con il comando Salva con nome Pdf con dimensioni ridotte. Limpostazione predefinita rendi compatibile con Acrobat 4.0 o successivo. Questa impostazione produce risultati modesti (qualche Mb in meno). Lopzione consigliabile rendi compatibile con Acrobat 10.0 o successivo: i risultati sono strabilianti. Quello che si perde in definizione (poco, visibile ingrandendo molto) lo si guadagna in leggerezza. Il Dizionario di Abbagnano, che con salvataggio normale di 111,7 MB, salvato con la modalit sopra descritta, si riduce a 27,6 Mb; o La storia della filosofia III di Abbagnano, da 68,7 passa a 16,6 MB. Il risultato ottenuto stato s il frutto di due potenti programmi, ma anche l'esito di lunghe giornate di prove e tentativi per potere realizzare un prodotto apprezzabile. Ma avendo tempo e pazienza, controllando cio tutte le fasi (con ritagli puliti e simmetrici e pagine con un perfetto allineamento delle righe), si possono raggiungere risultati di gran lunga superiori. Inoltre, per alcuni testi, e solo se divorati dal demone del perfezionismo, con Acrobat si possono creare PDF con possibilit di indicizzazione ed inserimento di testo, partendo ovviamente da scansioni di buona definizione (OCR integrato, testato, di ottima qualit). Da un PDF costituito da scansioni a doppia pagina, di buona qualit, si possono ricavare con Acrobat, in formato JPEG, le singole pagine (loperazione veloce). Con queste immagini si pu procedere con Scan www.scribd.com/Baruhk
Tailor al miglioramento del file, attraverso la divisione per singola pagina.
Poi si ricostituisce il file PDF con Acrobat. Questa operazione riesce a migliorare sensibilmente il testo. Se il file PDF, di partenza, invece di scarsa definizione, la procedura descritta non affatto migliorativa. Per questo motivo, dora in poi, conserver in un disco esterno la cartella delle scansioni di ogni testo, in modo da potere costruire file PDF di diversa grandezza in base alle esigenze duso. Buona condivisione a tutti! ;-) Baruch