DjVu

DjView

Forse avete letto del fortunoso salvataggio dei documenti processuali relativi alla strage di Piazza Fontana:

http://www.repubblica.it/cronaca/2010/11/25/news/archivio_piazza_fontana-9489279/

Bene, questo è uno di quei casi di digitalizzazione di documenti a fini conservativi che si presentano spesso nella realtà quotidiana, sia nelle aziende (pensate ai disegni CAD di vecchie macchine) che presso la Pubblica Amministrazione (documenti dell’anagrafe, documenti processuali, etc.).

Tradizionalmente, questo tipo di documenti è sempre stato “fotografato” con un apposito scanner e salvato sotto forma di file immagine (“raster”). Un tempo si usava TIFF, poi si è passati a cose più raffinate (GIF, JPEG, etc.).

Il problema del peso

Il problema di fondo con i file immagine (raster) è il peso dei file, ovvero la loro dimensione. Per avere una risoluzione adatta a molte applicazioni, è necessario salvare file che, nelle loro versioni TIFF o GIF, pesano da qualche Mb a decine di Mb. Moltiplicate questo valore per decine o centinaia di migliaia di pagine e potete capire quanto sia difficile gestire archivi di documenti di questo tipo.

Oltretutto, trasferire file di queste dimensioni via Internet è un problema. Lo è persino oggi, con le ADSL, figuriamoci cosa è stato fino a qualche anno fa.

Questo problema è stato mitigato dall’adozione di formati “compressi”, come JPEG, ma non completamente risolto. I formati compressi nati per la gestione delle foto come JPEG, infatti, hanno uno scarso rispetto per i dettagli più fini, che vengono rimpiazzati da apposite “texture”, e questo crea non pochi problemi al testo scritto (soprattutto quando i font sono piccoli ed elaborati).

La natura digitale del testo

Ma questo è forse il minore dei problemi. Quello più serio è la natura raster del file. Il file che si raccoglie in questo modo è una immagine. Il testo che contiene non può essere compreso da un programma e quindi non si possono cercare le parole, non si possono effettuare operazioni di copia&incolla e non si possono effettuare altre operazioni più sofisticate, come la creazione automatica di indici e sommari. Insomma, si perdono tutti i vantaggi del testo digitale.

DjVu

DjVu è un nuovo formato immagine, simile per certi aspetti a JPEG, che permette di avere file immagine (a colori, se necessario) delle pagine di un documento che pesano solo una frazione di quanto avviene con i formati di file tradizionali. Questo, da solo, è un vantaggio tale da rendere possibile la gestione e la trasmissione di documenti che sarebbero ingestibili in altro modo. Si pensi, ad esempio, alla digitalizzazione dei quotidiani che, a causa delle grandi dimensioni e del testo molto fitto, peserebbero normalmente decine o centinaia di Mb a pagina.

Ma questo è solo il primo dei vantaggi. DjVu (come peraltro anche PDF) permette di avere al suo interno uno “strato” di dati dedicato esclusivamente alla conservazione del testo in formato ASCII (o UNICODE) in parallelo all’immagine raster. In questo modo, il file diventa accessibile anche al software e possono essere eseguite su di esso tutte quelle operazioni che non sarebbero possibili sui file immagine, come la ricerca di parole e frasi, la creazione automatica di indici e sommari, il copia&incolla, etc. Questa funzionalità si basa, in realtà, sul fatto che alcuni programmi usati per la digitalizzazione dei documenti contengono al loro interno un vero sistema OCR, cioè “Optical Character Recognition” (o ICR, cioè Intelligent Character Recognition). L’esempio più noto è “Document Express with DjVu” di Caminova:

https://www.caminova.net/en/products/?src=products2.aspx

L’uso degli OCR/ICR era una tecnica molto diffusa fino a qualche anno fa per digitalizzare i documenti, sia per scopi leciti (archiviazione) che per scopi illeciti (pirateria) ma era afflitta da un “costo operativo” molto alto. Ogni testo andava acquisiti da scanner, digitalizzato, salvato su un file ASCII e ripulito dalle imperfezioni.

L’avvento di sistemi OCR integrati ha mitigato questo costo operativo soprattutto nell’ultimo punto: dato che all’interno del file resta comunque disponibile la “foto” in formato raster della pagina, a fianco del testo ASCII/UNICODE, non ha più molto senso ripulire a mano il file di testo. Il lettore può sempre controllare sulla “foto” la correttezza del file di testo ed in alcuni casi lo può anche correggere, se necessario.

Un’applicazione inattesa (forse)

Mi sono imbattuto in DjVu a causa di una sua applicazione decisamente imprevista: la “pirateria” degli eBook di ultima generazione.

Come probabilmente sapete, gli eBook di questa seconda generazione (Amazon Kindle, Apple iPad, etc.) sono quasi sempre protetti da sistemi anticopia (DRM) che li rendono decisamente antipatici. Appena sono apparsi sul mercato, molti “studiosi” del settore si sono messi all’opera per capire quale fosse il modo più semplice e sicuro di bypassare i sistemi di protezione e rendere disponibili questi file sulle reti P2P.

Una delle soluzioni più eleganti è stata proprio l’acquisizione dei testi con uno scanner e la loro digitalizzazione sotto forma di file DjVu: si appoggia il lettore (il dispositivo Kindle o equivalente) sullo scanner e si acquisisce il testo, senza preoccuparsi di nessuna protezione, poi lo si passa ad un programma di digitalizzazione DiVu come quello di Caminova.

Il solo fatto di usare questo formato permette di avere documenti perfettamente leggibili all’interno di file così piccoli che possono essere scambiati anche su reti a bassissime prestazioni (ma anonime e blindate) come MUTE, ANTs P2P, Freenet, Netsukuku e via dicendo. Questi file possono anche essere facilmente scambiati per posta elettronica o attraverso sistemi di instant messaging (anche incastrandoli in altri file con tecniche steganografiche).

Non solo: usando proprio il programma di Caminova è possibile ottenere file accessibili dal software, con i vantaggi che abbiamo già detto.

Potete quindi immaginare l’entusiasmo di alcuni “pirati” per questa tecnologia.

Per quanto ne so, al momento si stanno ancora conducendo dei test su questa tecnologia perché si ha il dubbio che Caminova inserisca nel file DjVu risultante un watermark che permette di risalire alla copia del programma usata per la digitalizzazione e quindi all’utente responsabile del “furto”. Se e quando questi test avranno dato risultati confortanti, c’è da aspettarsi una vera pioggia di eBook piratati in Rete.

Sarà una sfida interessante mettere a punto gli strumenti di sorveglianza e di analisi forense necessari per combattere questa ennesima “minaccia”.

Conclusioni

Personalmente, sono convinto che questo formato di file e la tecnologia usata per supportarlo siano destinati ad offrirci dei preziosi servizi nei prossimi anni. Pensate per esempio alla digitalizzazione (sempre annunciata ma mai realizzata) dei miliardi di pagine di manoscritti d’epoca che affollano (inutilizzati) le nostre biblioteche. Oppure, pensate ai documenti processuali.

Tra l’altro, la natura “stratificata” di DjVu permette di pensare anche ad applicazioni di altro tipo, come l’aggiunta di note “localizzate” sul testo, cioè qualcosa di molto simile ai POI (Point of Interest) delle mappe dei navigatori satellitari e di Google Map.

Se questa mia presentazione vi ha stuzzicato l’appetito, proseguite la lettura qui:

http://www.djvu.org/

http://en.wikipedia.org/wiki/Djvu

Per leggere i file DjVu, provate DjView:

http://djvu.sourceforge.net/djview4.html

Alessandro Bottoni

L’immagine di copertina ritrae DjView all’opera su un file che contiene 35 sonetti di Fernando Pessoa. Notare le righe nere attorno al testo: sono le tipiche tracce lasciate dall’azione di “fotocopiatura” del libro cartaceo sullo scanner. Notare la “box” a sinistra: l’operazione in corso è la ricerca del testo “Beauty” nel testo. Ad un tecnico come me fa una certa impressione vedere un programma in grado di ricercare del testo dentro un file raster.

Comments
6 Responses to “DjVu”
  1. simone scrive:

    Interessante, però non ho capito se si tratta di una estensione con “copyright”.

    Chiedo scusa ma purtroppo con l’inglese me la cavo poco.

    • Estensione chi? DjView? Estensione di cosa? Di un browser web?

      Se stiamo parlando di DjView, si tratta di un programma autonomo, scritto in C++ e Nokia Qt, che gira quasi dovunque (Windows, MacOS X e Linux). Non è un’estensione di altri programmi.

      Sempre se parliamo di DjView, è un programma Open Source, liberamente scaricabile e ri-distribuibile, del tutto gratuito.

  2. badwireless scrive:

    Forse simone si riferiva al formato .djv
    Se non è così allora domando, è un formato aperto? tipo .odt o .pdf o .ogg?

  3. Claudio scrive:

    Complimenti bel post come al solito.

    Quindi, se ho capito bene, ho un archivio di vecchi disegni su carta/lucido, uso il mio vecchio scanner A0 che me li
    salva in formato Tiff, poi uso questo programma della Caminova per salvari in formato Djvu il quale provvede ad inserirvi dentro le parti che riesce a convertire in formato testo. Giusto ?

    Ne deduco che i programmi di conversione che troviamo sul nostro amato pinguino salvano solo la parte raster ?

    Grazie. Ciao

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger cliccano Mi Piace per questo: