En décembre 2003, les collections approchent les 11.000 livres. Plusieurs formats sont désormais présents, à commencer par les formats HTML, XML et RTF, le format principal (et obligatoire) restant l’ASCII. Le tout représente 46.000 fichiers, soit une capacité totale de 110 gigaoctets. Le 13 février 2004, date de la conférence de Michael Hart au siège de l’UNESCO à Paris, les collections comprennent très exactement 11.340 livres dans 25 langues différentes. En mai 2004, les 12.581 livres disponibles représentent 100.000 fichiers dans vingt formats différents, soit une capacité totale de 135 gigaoctets, destinée à doubler chaque année avec l’ajout de plus de 300 livres par mois (348 livres en 2003 et 338 livres en 2004).
Parallèlement, le Project Gutenberg Consortia Center (PGCC), qui avait été lancé en 1997 pour rassembler des collections de livres numériques avec point d’accès unique, est officiellement affilié au Projet Gutenberg en 2003. Par ailleurs, à l’instigation du Projet Rastko, basé à Belgrade (Serbie), les activités du Projet Gutenberg Europe débutent en janvier 2004, avec la mise en ligne des cent premiers livres dans les mois qui suivent. La présence de plusieurs langues reflète la diversité linguistique prévalant en Europe. Cent langues sont prévues sur le long terme.
En janvier 2005, le Projet Gutenberg fête ses 15.000 livres, avec la mise en ligne de The Life of Reason de George Santayana (paru en 1906). En juin 2005, le nombre de livres s’élève à 16.000 et 42 langues sont représentées. Le 3 août 2005, outre l’anglais (14.590 livres), six langues disposent d’un nombre de livres significatif: le français (578 livres), l’allemand (349 livres), le finnois (225 livres), le hollandais (130 livres), l’espagnol (105 livres) et le chinois (69 livres).
Lancé en août 2001, le Project Gutenberg of Australia fête ses 500 livres en juillet 2005, tandis que le Project Gutenberg of Canada est en gestation, avec un suivi grâce à la liste PGCanada. Les choses sont en bonne voie pour un Projet Gutenberg au Portugal et aux Philippines.
En décembre 2006, le Projet Gutenberg franchit la barre des 20.000 livres, dont 10.000 produits par Distributed Proofreaders depuis octobre 2000. La moyenne est de 346 nouveaux livres par mois en 2006. Le nombre de nouveaux livres pour l’année 2006 s’élève à 4.146 alors qu’il était de 3 186 pour l’année 2005. S'il a fallu 32 ans pour numériser les 10.000 premiers livres, entre juillet 1971 et octobre 2003, il n’a fallu que trois ans et deux mois, d’octobre 2003 à décembre 2006, pour numériser les 10.000 livres suivants. Le Project Gutenberg of Australia approche les 1.500 livres (c'est chose faite en avril 2007). Le Projet Gutenberg Europe compte 500 livres.
La section Project Gutenberg PrePrints débute en janvier 2006 pour accueillir de nouveaux documents suffisamment intéressants pour être mis en ligne, mais ne pouvant être intégrés aux collections existantes sans traitement ultérieur par des volontaires, pour diverses raisons: collections incomplètes, qualité insuffisante, conversion souhaitée dans un autre format, etc. Cette section comprend 379 titres en décembre 2006.
Le site Project Gutenberg News débute en novembre 2006 à l’instigation de Mike Cook, le nouvel éditeur de la lettre d’information hebdomadaire et mensuelle. Le site offre par exemple les statistiques de production hebdomadaires, mensuelles et annuelles depuis 2001. La production hebdomadaire est de 24 livres en 2001, 47 livres en 2002, 79 livres en 2003, 78 livres en 2004, 58 livres en 2005 et 80 livres en 2006. La production mensuelle est de 104 livres en 2001, 203 livres en 2002, 348 livres en 2003, 338 livres en 2004, 251 livres en 2005 et 346 livres en 2006. La production annuelle est de 1.244 livres en 2001, 2.432 livres en 2002, 4.176 livres en 2003, 4.058 livres en 2004, 3.017 livres en 2005 et 4.146 livres en 2006.
3.2. La méthode adoptée
Qu’ils aient été numérisés il y a des années ou qu’ils soient numérisés maintenant, tous les livres sont numérisés en mode texte, en utilisant l’ASCII original. Présent dès les débuts de l’informatique et dénommé Plain Vanilla ASCII, cet ASCII sur sept bits traite 128 caractères, dont 97 caractères imprimables correspondant aux touches du clavier anglais ou américain (A-Z, a-z, chiffres, ponctuation et quelques symboles). Dans le cas de langues autres que l’anglais, on utilise des extensions de l’ASCII (appelées ISO-8859 ou ISO-Latin) prenant en compte les caractères accentués. Mais, même dans ce cas, le Projet Gutenberg propose systématiquement en complément une version ASCII sur sept bits sans accents. Sauf, bien entendu, dans le cas de langues non traduisibles en ASCII, comme le chinois, qui est encodé au format Big-5.
Dénommé à juste titre le plus petit dénominateur commun, l’ASCII sur sept bits est le seul format compatible avec 99% des machines et des logiciels, et pouvant être converti dans d’autres formats. Il sera toujours utilisé quand d’autres formats auront disparu, à commencer par les formats éphémères liés à quelques tablettes de lecture commercialisées entre 1999 et 2003 et déjà disparues du marché. Il est l’assurance que les collections ne deviendront jamais obsolètes, et survivront aux changements technologiques des prochaines décennies ou même des prochains siècles. Il n’existe pas d’autre standard aussi largement utilisé pour le moment, y compris l’Unicode, système d’encodage «universel» créé en 1991.