Le Projet Gutenberg naît en juillet 1971 lorsque Michael Hart, alors étudiant à l’Université de l’Illinois (Etats-Unis), décide de convertir des oeuvres du domaine public au format électronique pour les mettre gratuitement à la disposition de tous. Le Projet Gutenberg est le premier site d’information sur un internet encore embryonnaire, qui débute véritablement en 1974 et prend son essor en 1983. Vient ensuite le web (sous-ensemble de l’internet), opérationnel en 1991, puis le premier navigateur, qui apparaît en novembre 1993. Lorsque l’utilisation du web se généralise, le Projet Gutenberg trouve un second souffle et un rayonnement international. Au fil des ans, des centaines d’oeuvres sont patiemment numérisées en mode texte par des volontaires de nombreux pays. D’abord essentiellement anglophones, les collections deviennent peu à peu multilingues.

Qu’ils aient été numérisés il y a vingt ans ou qu’ils soient numérisés maintenant, tous les textes électroniques sont au format ASCII (American standard code for information interchange), avec des lettres capitales pour les termes en italique, gras ou soulignés, afin que ces textes puissent être lus sans problème quels que soient le système d’exploitation et le logiciel utilisés. Libre à d’autres organismes de les convertir dans des formats différents s’ils le souhaitent.

Cinquante heures environ sont nécessaires pour scanner un livre, le corriger et le mettre en page. Un ouvrage de taille moyenne - par exemple un roman de Stendhal ou de Jules Verne - est en général composé de deux fichiers ASCII. Si certains livres anciens sont parfois saisis ligne après ligne, à cause du manque de clarté du texte original, les livres sont en général scannés en utilisant un logiciel OCR (optical character recognition), qui permet de convertir en fichier texte un fichier d’abord numérisé en mode image, afin de pouvoir corriger son contenu si nécessaire. Les livres numérisés sont ensuite relus et corrigés à deux reprises, parfois par deux personnes différentes.

"Nous considérons le texte électronique comme un nouveau médium, sans véritable relation avec le papier, explique Michael Hart en août 1998. Le seul point commun est que nous diffusons les mêmes oeuvres, mais je ne vois pas comment le papier peut concurrencer le texte électronique une fois que les gens y sont habitués, particulièrement dans les établissements d’enseignement. (…) Mon projet est de mettre 10.000 textes électroniques sur l’internet. Si je pouvais avoir des subventions importantes, j’aimerais aller jusqu’à un million et étendre aussi le nombre de nos usagers potentiels de 1,x% à 10% de la population mondiale, ce qui représenterait la diffusion de 1.000 fois un milliard de textes électroniques au lieu d’un milliard seulement. (…) J’introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible." Michael Hart se définit lui-même comme un fou de travail dédiant toute sa vie à son projet, qu’il voit comme étant à l’origine d’une révolution néo-industrielle.

Comment cette vaste entreprise a-t-elle débuté? Michael Hart numérise son premier texte le 4 juillet 1971. Le 4 juillet étant le jour de la fête nationale, il saisit le texte de la Déclaration de l’Indépendance des Etats-Unis (signée le 4 juillet 1776) sur le clavier de son ordinateur, et il envoie le fichier électronique correspondant à quelques collègues et amis.

Entre 1971 et 1979, il scanne un volume par an d’une série qu'il intitule History of Western Democracy. Entre 1980 et 1990, il poursuit ce travail avec quelques volontaires. Son équipe et lui scannent la Bible dans son entier et plusieurs oeuvres de Shakespeare. En 1990, dix textes sont prêts. Le dixième texte est The King James Bible. La moyenne mensuelle des textes scannés progresse ensuite régulièrement: un texte par mois en 1991, deux textes par mois en 1992, quatre textes par mois en 1993 et huit textes par mois en 1994. Fin 1994, les collections comprennent 100 textes. Le centième texte est l’oeuvre complète de Shakespeare, désormais scannée dans son entier.

Lorsque l’utilisation du web se généralise, il devient beaucoup plus facile de faire circuler les oeuvres et de recruter de nouveaux volontaires. La production augmente donc en proportion, avec 16 textes par mois en 1995, puis 32 textes par mois en 1996 et 1997. Fin 1997, les collections comprennent 1.000 textes. Le millième texte est La Divine Comédie de Dante, en italien. La production passe à 36 textes par mois en 1998 et 1999. Fin 1999, les collections se chiffrent à 2.000 textes. Le 2.000e texte est Don Quichotte de Cervantes, en espagnol.

Le nombre de textes scannés est toujours de 36 textes par mois en 2000. Il passe à 40 textes par mois pendant le premier semestre 2001, puis 50 textes par mois pendant le deuxième semestre. Le 3.000e texte, disponible courant 2000, est le troisième volume de A l’ombre des jeunes filles en fleurs, de Proust, en français. Le 4.000e texte, disponible courant 2001, est The French Immortals, version anglaise de la série publiée en 1905 par la Maison Mazarin pour rassembler des fictions d’écrivains couronnés par l’Académie française (Emile Souvestre, Pierre Loti, Hector Malot, Charles de Bernard, Alphonse Daudet, etc.). Le 5.000e texte, disponible en avril 2002, est la version anglaise des Carnets de Léonard de Vinci.

En 2002, les collections s’accroissent en moyenne de 100 titres par mois. Au printemps 2002, elles représentent le quart des oeuvres du domaine public disponibles sur le web, recensées de manière pratiquement exhaustive par The Internet Public Library (IPL). Un beau résultat pour trente ans de travail acharné basé en grande partie sur le volontariat, avec plus d'un millier de volontaires dans plusieurs pays. En octobre 2003, le catalogue comprend 10.000 titres dans plusieurs langues. Michael Hart espère franchir la barre du million de titres d'ici 2015.

= The Online Book Page