Disponible sur le site du Projet Gutenberg, le File Recode Service permet de convertir les fichiers d’un système d’encodage (ASCII, ISO-8859, Unicode, Big-5, etc.) à un autre. A l’avenir, un logiciel de conversion beaucoup plus puissant devrait permettre la conversion automatique dans bien d’autres formats (XML, HTML, PDF, TeX, RTF, BRF, etc.). Il sera également possible de choisir d’emblée la taille et la police des caractères, ainsi que le fonds d’écran. Une autre conversion très attendue est la conversion d’une langue à une autre par le biais d’un logiciel de traduction automatique. Une telle conversion pourrait être possible dans quelques années, quand ce type de logiciel aura gagné en qualité.
3.3. La correction partagée
La croissance rapide des collections depuis 2001 est due à l’activité de Distributed Proofreaders, site lancé en octobre 2000 par Charles Franks pour gérer la correction partagée entre les volontaires. A l’origine, il s’agit seulement d’intensifier la production de livres du Projet Gutenberg. Mais le succès est tel que le site devient la principale source des collections. En 2002, Distributed Proofreaders est officiellement affilié au Projet Gutenberg.
Les volontaires n’ont aucun quota à respecter. A titre indicatif, il est suggéré de relire une page par jour, si possible. Cela semble peu, mais une page multipliée par des centaines de volontaires représente un chiffre considérable. La progression est rapide. En 2003, une moyenne de 250 à 300 relecteurs quotidiens permet de produire entre 2.500 et 3.000 pages par jour, ce qui représente deux pages par minute. En 2004, la moyenne est de 300 à 400 relecteurs quotidiens produisant entre 4.000 et 7.000 pages par jour, à savoir quatre pages par minute. Distributed Proofreaders comptabilise un total de 3.000 livres en février 2004, 5.000 livres en octobre 2004, 7.000 livres en mai 2005, 8.000 livres en février 2006 et 10.000 livres en mars 2007, avec plusieurs milliers de volontaires dans le monde et une production de cinq livres par jour.
Le site a pour but de permettre à plusieurs correcteurs de travailler simultanément au même livre, sur des pages différentes. Le volontaire commence par s’inscrire. Il reçoit des directives détaillées. Ces directives concernent par exemple les parties en gras, en italique et soulignées, ou les notes, qui sont toutes traitées de la même manière. Un forum permet de poser des questions et de demander de l’aide si nécessaire. Quand le volontaire se connecte au site, il sélectionne le livre de son choix à partir d’une liste donnée. Une page du livre choisi apparaît simultanément en deux versions: d’une part l’image scannée, d’autre part le texte issu de cette image, produit par un logiciel OCR. Le relecteur compare les deux versions et corrige les différences. Un logiciel OCR étant fiable à 99%, cela représente une moyenne de dix erreurs à corriger par page. La page est ensuite sauvegardée. Le relecteur peut soit cesser le travail, soit opter pour la correction d’une autre page. Tous les livres sont relus et corrigés deux fois de suite et, la deuxième fois, uniquement par des correcteurs expérimentés. Les pages corrigées sont ensuite formatées selon des règles précises et assemblées par d’autres volontaires pour obtenir un livre numérique. Durant tout le processus, un livre donné est suivi par un responsable (project manager) qui s’assure du bon déroulement des opérations. Après la mise en forme suit la mise en ligne, avec indexation (titre, sous-titre, numéro de l’ebook et format) puis catalogage (dates de naissance et de décès de l’auteur, classification de la Library of Congress, etc.).
Les volontaires peuvent aussi travailler de manière indépendante, en s’adressant directement au Projet Gutenberg. Ils peuvent saisir leur livre préféré de bout en bout sur le traitement de texte de leur choix. Ils peuvent aussi scanner eux-mêmes un livre, le convertir en texte par le biais d’un logiciel OCR et faire les corrections nécessaires en comparant le résultat à l’original. Dans les deux cas, une deuxième relecture est faite par une autre personne. Toute participation est bienvenue, quelle que soit la méthode adoptée. Il est tout à fait possible de joindre des fichiers dans d'autres formats en complément du fichier ASCII.
Aussi bien pour Distributed Proofreaders (DP-INT) que pour Distributed Proofreaders Europe (DP Europe), de nouveaux volontaires sont bienvenus, y compris pour les livres en français. La tâche est immense. Comme indiqué sur les deux sites, «DP ne s’attend pas à un engagement inconditionnel de votre part. Corrigez des textes aussi souvent que vous le voulez, et le nombre de pages que vous voulez. Nous encourageons les gens à corriger une page par jour, mais vous êtes tout à fait libre de faire ce qui vous plaît. Nous espérons que vous vous joindrez à notre mission de préserver "la littérature mondiale dans un format gratuit et disponible pour tous".»
3.4. Des collections multilingues
Qu’en est-il exactement des langues? Dans un premier temps, le Projet Gutenberg est essentiellement anglophone, puisqu’il est basé aux Etats-Unis et qu’il sert en priorité la communauté anglophone nationale et internationale.
En octobre 1997, Michael Hart annonce son intention d’intensifier la production de livres dans d’autres langues. Début 1998, le catalogue comprend quelques oeuvres en allemand, en espagnol, en français (dix titres), en italien et en latin. En juillet 1999, Michael Hart écrit: «J’introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible.»