Dans le Projet Gutenberg original, 25 langues sont représentées en janvier 2004, 42 langues en juillet 2005, dont le sanscrit et les langues mayas, et 50 langues en décembre 2006. À cette date, les langues principales sont l’anglais, le français, l’allemand, le finnois, le hollandais, l’espagnol, l’italien, le chinois, le portugais et le tagalog.
Dès ses débuts en janvier 2004, le Projet Gutenberg Europe propose un site multilingue pour gérer la relecture partagée entre les volontaires, afin de prendre en compte les principales langues nationales. En avril 2004, grâce à des traducteurs volontaires, le site est disponible en douze langues. L'objectif à moyen terme est un site en soixante langues, et donc soixante équipes linguistiques, avec prise en compte de toutes les langues européennes. Le Projet Gutenberg Europe utilise l'Unicode et non l'ASCII, pour pouvoir traiter des livres dans un grand nombre de langues.
DES «NATIONS DE LANGUES»
Consultant en marketing internet chez Globalink, une société de produits et services de traduction, Randy Hobler écrit en septembre 1998: «Comme l’internet n’a pas de frontières nationales, les internautes s’organisent selon d’autres critères propres au médium. En termes de multilinguisme, vous avez des communautés virtuelles, par exemple ce que j’appelle les "nations de langues", tous ces internautes qu’on peut regrouper selon leur langue maternelle quel que soit leur lieu géographique. Ainsi la nation de la langue espagnole inclut non seulement les internautes d’Espagne et d’Amérique latine, mais aussi tous les Hispanophones vivant aux États-Unis, ou encore ceux qui parlent espagnol au Maroc.»
Si Randy donne l'exemple d'une «nation de langue» hispanophone répartie sur trois continents, la même remarque vaut pour la Francophonie, une communauté de langue française présente sur cinq continents, ou encore la Créolophonie, puisque le créole est parlé non seulement dans les Caraïbes mais aussi à Paris, Montréal et New York.
À ses débuts, l'internet est anglophone à pratiquement 100%, ce qui s'explique par le fait qu'il débute aux États-Unis en tant que réseau reliant les agences gouvernementales et les universités, suite à la création du protocole TCP/IP en 1974 par Vinton Cerf et Robert Kahn. Après la création du World Wide Web en 1990 par Tim Berners-Lee au Centre européen pour la recherche nucléaire (CERN) à Genève (Suisse) et le lancement en novembre 1993 du premier navigateur Mosaic, ancêtre de Netscape, l'internet se développe rapidement, d'abord aux États-Unis grâce aux investissements considérables du gouvernement, puis au Canada, puis dans le monde entier.
Après avoir été anglophone à pratiquement 100%, l’internet est encore anglophone à plus de 80% en 1998, un pourcentage qui s’explique par trois facteurs: (a) la création d’un grand nombre de sites web émanant des États-Unis, du Canada et du Royaume-Uni; (b) une proportion d'usagers particulièrement forte en Amérique du Nord par rapport au reste du monde, les ordinateurs étant bien meilleur marché qu'ailleurs, tout comme la connexion à l'internet sous forme de forfait mensuel à prix modique; (c) l’usage de l'anglais en tant que principale langue d’échange internationale.
Dans plusieurs pays d'Europe, par exemple, cette connexion est d'abord tarifée à la durée, avec un tarif de jour et un tarif de nuit moins élevé. Les usagers passent donc beaucoup moins de temps sur l'internet qu'ils ne le souhaiteraient, et choisissent souvent de surfer la nuit pour éviter les factures trop élevées. Fin 1998 et début 1999, des mouvements de grève sont lancés en France, en Italie et en Allemagne pour faire pression sur les sociétés prestataires afin qu'elles baissent leurs prix et qu'elles proposent des forfaits internet, avec gain de cause dans les mois qui suivent.
En 1997, Babel, initiative conjointe d'Alis Technologies et de l'Internet Society, mène la première étude sur la répartition des langues sur l'internet. Datée de juin 1997, le Palmarès des langues de la toile donne les pourcentages de 82,3% pour l'anglais, 4% pour l'allemand, 1,6% pour le japonais, 1,5% pour le français, 1,1% pour l'espagnol, 1,1% pour le suédois et 1% pour l'italien.
Dans un article publié le 21 juillet 1998 par ZDNN (ZDNetwork News), Martha Stone, journaliste, précise: «Cette année, le nombre de nouveaux sites non anglophones va probablement dépasser celui de nouveaux sites anglophones, et le monde cyber est en train de véritablement devenir une toile à l'échelle mondiale. (…) Selon Global Reach [une société promouvant la localisation des sites web], les groupes linguistiques se développant le plus vite sont les groupes non anglophones: on note une progression de 22,4% pour les sites web hispanophones, 12,3% pour les sites nippons, 14% pour les sites germanophones et 10% pour les sites francophones. On estime à 55,7 millions le nombre de personnes non anglophones ayant accès au web. (…) Alors que 6% seulement de la population mondiale est de langue maternelle anglaise (et 16% de langue maternelle espagnole), 80% des pages web sont en anglais.» Toujours selon Global Reach, 15% seulement des 500 millions d'habitants que compte l'Europe sont de langue maternelle anglaise, 28% maîtrisent bien l'anglais, et 32% consultent le web anglophone.