Conservare i dati per i posteri

Se avete una azienda od una attività professionale, quasi certamente avete il problema di conservare una certa quantità di documenti digitali per il periodo di tempo previsto da una delle nostre innumerevoli leggi. Tipicamente, si tratta di conservare qualche centinaio di documenti di testo (quasi sempre Microsoft Word in formato DOCX) ed uno o più database della contabilità per un periodo di tempo di 10 – 50 anni. Se avete questo problema, sapete già che non ha una soluzione semplice. Qui di seguito trovate qualche indicazione che può esservi d’aiuto.

Lo stato della discussione

Prima di procedere oltre, chiariamo un punto. La gente che si occupa di queste cose solitamente ricade in uno di questi due errori logici:

  1. Vi consiglia di usare un tape (un registratore a nastro) per i vostri backup perchè i tape sono più affidabili dei CD.

  2. Vi dice che non c’è soluzione perchè comunque la nostra tecnologia scomparirà dal mercato prima che abbiate bisogno di leggere i vostri dati e quindi qualunque tipo di backup, su qualunque supporto odierno sarebbe comunque privo di significato.

Entrambe queste tipologie di esperti dimostrano con i loro consigli di non aver assolutamente capito qual’è il problema in esame ma le ragioni del loro fallimento sono diametralmente opposte.

I primi sbagliano perchè il problema che dobbiamo affrontare non è quello dell’affidabilità dei supporti. Se anche un tape durasse in eterno, tra qualche anno sarebbe comunque impossibile trovare un drive per leggerlo, un computer a cui attaccare il drive (attraverso quale tipo di interfaccia?), sarebbe impossibile trovare il software necessario a leggere i dati e/o sarebbe impossibile far girare questo programma sui computer del 2059.

I secondi sbagliano perchè qui non ci viene chiesto di lasciare dietro di noi una “stele di rosetta” con le istruzioni per trattare le storie nucleari, cosa che richiederebbe una tecnologia in grado di resistere per decine di migliaia di anni. Non ci interessa superare la “barriera tecnologia” rappresentata dall’obsolescenza dell’informatica intesa come disciplina e la sua sostituzione con qualcosa che ora non possiamo nemmeno immaginare. Nel nostro caso, possiamo ancora dare per scontato che esisterà qualche tipo di computer quando dovremo recuperare i nostri dati, anche se sarà un computer molto diverso da quelli a cui siamo abituati.

Cosa conservare

Se vogliamo conservare dei dati in modo che servano effettivamente a qualcosa quando ne avremo bisogno, dobbiamo preoccuparci sin da adesso della loro leggibilità. Un documento è leggibile solo se esistono tutte queste condizioni:

  1. Esiste un programma in grado di caricare e visualizzare il documento (cioè un viewer od un editor).

  2. Esiste un ambiente operativo all’interno del quale quel viewer può essere caricato ed avviato (cioè un sistema operativo ospite).

  3. Esiste una macchina (reale o virtuale) sulla quale possano essere caricati il sistema operativo ospite, il viewer ed il documento.

Queste condizioni portano direttamente a delle conclusioni che non vi piaceranno. Le spiego in dettaglio qui di seguito.

L’esempio di MAME

La prima conclusione ovvia è che bisogna memorizzare insieme ai vostri dati sia il sistema operativo che usate (Windows, dico bene?) e le applicazioni che usate per creare i vostri documenti (MS Office?).

Solo a queste condizioni sarà possibile, in futuro, ricreare un ambiente di lavoro che vi permetta di leggere i vostri documenti.

L’uso di un formato standard, come ODF, è sicuramente una buona alternativa. Anzi: sarebbe ciò che dovrebbe essere già fatto per legge da almeno 5 anni (non lo sapevate?). Tuttavia anche l’adozione di un formato che adesso è standard ed è molto diffuso, come ODF, non dà nessuna garanzia sul fatto che tra 50 anni esisterà ancora un programma in grado di leggerlo.

L’unico modo di esserne sicuri consiste nel “portarsi dietro” anche il software. Un esempio eclatante della affidabilità di questo approcio ci viene da MAME. Questo emulatore di giochi ricrea lo stesso ambiente hardware su cui giravano i giochi “arcade” degli anni ’70 ed ’80 e permette di caricare e di eseguire i giochi. Il fatto che non esistano più da decenni i dispositivi hardware su cui originariamente giravano questi giochi non ci impedisce di continuare ad usarli.

L’Open Source obbligatorio

La seconda conclusione ovvia è che non potete usare nessun tipo di software commerciale per questo scopo semplicemente perchè non potete sapere se sarà possibile eseguire il programma tra 50 anni a causa della sua licenza. Windows Vista, con tutti i suoi catenacci, si lascerebbe installare su un PC sconosciuto tra 50 anni? Si lascerebbe eseguire? E che ne sarebbe di MS Office?

L’unico modo di essere sicuri di poter installare ed eseguire il vostro software sul vostro nuovo (e per ora sconosciuto) computer tra 50 anni consiste nell’usare sin da adesso solo software libero, come Linux ed OpenOffice.

La toolchain affidabile

A voler essere precisi, non potete usare nemmeno nessun tipo di programma “closed source”. Alcuni programmi sono liberi e gratuiti ma di essi non sono disponibili i sorgenti. Non c’è nessuna garanzia che sia possibile installare ed esguire questi programmi su un nuovo sistema tra 50 anni.

L’unico modo di esserne certi consiste nel portarsi appresso anche i sorgenti di questi programmi. Gentoo, ad esempio, può essere ricompilata su un nuovo computer da zero (anche su un computer virtuale, emulato su un altro computer).

L’unico elemento della toolchain che dipende veramente dall’hardware, infatti, è il compilatore C. Su Linux si usa GCC (GNU C Compiler). Tutto il resto del software (compresi gli altri compilatori di linguaggio) può essere ricostruito a partire dal compilatore C e dalle sue librerie di base. Questo infatti è ciò che permette di avere Debian su decine di piattaforme hardware diverse.

Quando, tra 50 anni, dovrete installare la vostra roba sul vostro nuovissimo computer, potrete sempre contare sul fatto che esista un compilatore C (od un traduttore dal C al loro nuovo linguaggio) che vi permetta di ricompilarlo. Molto probabilmente, esisterà anche una Virtual Machine in grado di emulare una architettura Intel su cui eseguirlo. Questo, infatti, è ciò che succede già oggi quando si cerca di recuperare del vecchio codice scritto per i computer degli anni ’70, ’80 e ’90 e leggere i loro archivi di dati. Si tratta di una metodologia già collaudata e che si sa essere affidabile per esperienza diretta. Rileggete la documentazione di MAME per convincervene.

Dove conservare

Riguardo a questo punto, i consulenti tecnici sono soliti recitare questi due mantra:

  1. Non si possono usare dei server remoti per ragioni di privacy e di affidabilità a lungo termine. Il personale dell’azienda potrebbe accedere ai vostri dati e/o l’azienda che ospita i vostri dati potrebbe chiudere.

  2. I supporti (magnetici, ottici, etc.) sono comunque destinati a deteriorarsi nel giro di 10 – 30 anni, per cui l’unica soluzione di lungo periodo sarebbe quella di svincolarsi completamente dai supporti digitali e conservare le copie cartacee di tutto quanto.

Questi mantra ci lasciano però senza nessuna soluzione realmente praticabile.

In realtà, io credo che la soluzione “giusta” sia quella di conservare i propri dati su un server remoto in formato cifrato (il cosiddetto “Offsite Storage”, vedi: http://en.wikipedia.org/wiki/Off-site_data_protection). Le ragioni che mi spingono a crederlo sono le seguenti.

  1. Cifrando i dati, il problema della confidenzialità è risolto. Il fatto di dover memorizzare da qualche altra parte (dal notaio?) le password e di doversi “portare appresso” il software crittografico usato (GNU Privacy Guard, per esempio), non altera in maniera significativa la complessità del processo.

  2. Il server remoto viene continuamente seguito, sorvegliato, aggiornato e custodito dall’azienda che lo possiede. La sua affidabilità è sicuramente maggiore di quello che potreste ottenere voi nei ritagli di tempo.

  3. Se l’azienda chiude o se succede qualcosa che può compromettere la continuità del servizio, l’azienda è tenuta per legge ad avvisarvi. A quel punto potete migrare la vostra roba altrove.

Si tratta, come ho detto, di una opinione del tutto personale ma, se questo può rassicuravi, è quello che i programmatori come me fanno da sempre: sbattono i loro sorgenti su un server remoto (che agisce anche da sistema di versioning) e lasciano che sia il gestore di quel sistema ad occuparsene.

Potete usare un sistema come Amazon S3 o come CVSDude. Quest’ultimo fa anche da sistema di controllo di versione e per sua natura è più adatto a gestire solo qualche centinaio di file che cambiano frequentemente. Amazon S3 è invece un deposito indifferenziato e generico che può contenere centinaia di Gb di materiale facendovi spendere una cifra più che ragionevole. Amazon S3 è a prova di impatto da meteorite: i suoi server sono sparsi in giro per il mondo e creano un servizio distribuito che è praticamente immortale. Finchè ci sarà corrente elettrica su questo pianeta, ci sarà una copia utilizzabile dei vostri backup su uno dei loro server. Se tutti i loro server moriranno… il restore dei dati non sarà comunque una vostra preoccupazione (e neanche una preoccupazione di nessun’altro essere umano).

Conclusioni

Se dovete conservare i vostri documenti digitali per decine d’anni, fate un backup “fatto bene”, cifratelo e sbattetelo su uno dei server di Amazon S3 insieme ai sorgenti del software che usate in ufficio (compreso il programma di cifra). Fate incidere le password su una pietra e consegnatela ad un notaio. Tra 50 anni, sarete comunque in grado di ricostruire la “pila” di programmi necessari per leggere i vostri dati sui computer che esisteranno a quel tempo.

Potete trovare diversi servizi di online storage adatti allo scopo qui:

http://en.wikipedia.org/wiki/Online_storage

Sistemi più specifici per il backup remoto sono reperibili qui:

http://en.wikipedia.org/wiki/Remote_backup_service

Non usate Windows e MS Office. Usate Linux ed OpenOffice.

Non usate i formati di MS Office (DOCX, XLSX, etc.). Usate l’ODF di OpenOffice.

Se dovete conservare i documenti di un deposito di scorie nucleari per 50.000 anni, questo approcio non funziona. Date un’occhiata a questi progetti:

http://it.wikipedia.org/wiki/Long_Now_Foundation

http://www.rosettaproject.org/

Ne trarrete sicuramente una utile ispirazione.

Alessandro Bottoni

alessandro.bottoni@infinito.it

Annunci
Comments
One Response to “Conservare i dati per i posteri”
  1. Sabino ha detto:

    Anni fa non si parlava di studi su sistemi di stoccaggio a base organica?

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: