Le Projet Gutenberg propose toutefois certains livres dans d’autres formats, notamment dans les trois formats répandus que sont les formats HTML, XML et RTF. Des fichiers Unicode sont également présents. De plus, tout format proposé par tel ou tel volontaire (PDF, LIT, TeX et beaucoup d’autres) est généralement accepté, dans la mesure où un fichier ASCII est également présent.

Pour une conversion à grande échelle dans un format donné, le relais est passé à d’autres organismes. Par exemple Blackmask Online, qui puise dans les collections du Projet Gutenberg pour proposer des milliers de livres gratuits dans huit formats différents, tous issus du format Open eBook (OeB). Ou encore Manybooks.net, qui convertit les collections du Projet Gutenberg dans des formats lisibles sur PDA. Ou encore GutenMark, un outil permettant de reformater les livres aux formats HTML et LaTEX pour une lecture plus attractive ou de les reformater au format PDF pour une impression à la demande. Ou encore MobileBooks, qui propose 5.000 livres en Java pour lecture sur l’écran d’un téléphone portable. Ou encore Bookshare.org, la grande bibliothèque numérique destinée aux personnes aveugles et malvoyantes résidant aux Etats-Unis. Bookshare.org utilise les collections du Projet Gutenberg pour offrir les classiques du domaine public au format braille et au format DAISY, qui permet l’écoute du livre sur synthèse vocale.

En quoi consiste exactement le travail des volontaires, une fois reçue la confirmation que le livre est bien du domaine public? Il consiste à scanner le livre page après page, ce qui donne des fichiers numérisés en mode image, puis à utiliser un logiciel OCR (optical character recognition), qui permet de convertir chaque fichier image en un fichier texte. Il consiste ensuite à relire le contenu du fichier texte au regard de l’original (image scannée ou livre imprimé) en corrigeant les erreurs, à savoir dix erreurs par page en moyenne quand le logiciel OCR est de qualité.

Le livre est relu et corrigé à deux reprises par deux personnes différentes. Les livres anciens sont parfois saisis ligne après ligne si le texte original manque de clarté. Certains volontaires préfèrent également taper eux-mêmes des textes courts ou des oeuvres qu’ils aiment particulièrement. Mais les livres sont le plus souvent scannés et «OCRisés», puis relus et corrigés.

Contrairement à la numérisation en mode image (qui s’arrête à l’étape du scanner), la numérisation en mode texte permet la copie du texte, l’indexation, la recherche plein texte, l’analyse textuelle, une étude comparative entre plusieurs textes, etc. On peut aussi lancer une recherche à partir de la fonction «chercher» proposée par n’importe quel programme, sans logiciel de recherche intermédiaire.

Le Projet Gutenberg dispose d’un moteur de recherche pour l’ensemble de ses collections, grâce à un partenariat avec Google, avec mise à jour mensuelle. Tout comme une recherche sur les métadonnées (auteur, titre, descriptif, mots-clés) grâce à un partenariat avec Yahoo!, avec mise à jour hebdomadaire. Pour la recherche avancée (Advanced Search), la recherche multicritères (auteur, titre, sujet, langue, catégorie, classification, format, numéro) inclut désormais un critère supplémentaire de recherche plein texte (Full Text), à titre expérimental.

Les avantages de la numérisation en mode texte sont multiples. Les fichiers prennent peu de place et circulent d’autant plus facilement. Contrairement à d’autres formats, le téléchargement d’un livre au format texte ne requiert pas de bande passante large. Le fichier texte peut être copié à l’infini, et constituer la base de centaines de nouvelles versions numériques et imprimées, pour un coût pratiquement nul. A tout moment, on peut corriger les erreurs typographiques qui auraient pu subsister. Les lecteurs peuvent changer à volonté la taille et la police des caractères, ainsi que les marges ou le nombre de lignes par page. Le lecteur malvoyant peut grossir la taille des polices et le lecteur aveugle utiliser un logiciel de reconnaissance vocale. Tout ceci est nettement plus difficile, sinon impossible, avec nombre d’autres formats.

Si la correction par deux personnes différentes permet de mettre en ligne un texte fiable à 99,9%, le but n’est pas pour autant de créer des éditions faisant autorité, ou d’épiloguer sans fin avec un lecteur pointilleux sur le bien-fondé ou non d’un signe de ponctuation tel que deux points à la place d’un point virgule entre deux propositions.

Le Projet Gutenberg insiste régulièrement sur la nécessité de la relecture, qu’il juge essentielle. Utiliser directement des livres scannés puis convertis au format texte par un logiciel OCR, sans relecture, donne un résultat de bien moindre qualité, avec une fiabilité de 99% dans le meilleur des cas. L’étape de la relecture avec correction permet d’atteindre une fiabilité de 99,95%, un pourcentage élevé qui est aussi le standard de la Library of Congress.

Le Projet Gutenberg s’inscrit donc dans une perspective assez différente de la bibliothèque de l’Internet Archive (qui héberge également les collections du Projet Gutenberg, en tant que deuxième site de distribution et site de sauvegarde). Dans le cas de l’Internet Archive, les livres sont scannés puis «OCRisés», mais ils ne sont pas relus par des correcteurs s’attachant à traquer les erreurs. Plus rapide et moins fiable quant au résultat, la numérisation des livres sans relecture est aussi la méthode adoptée par Google, Microsoft et bien d’autres pour leurs propres bibliothèques numériques.