Appelée aussi bibliothèque électronique ou bibliothèque virtuelle, la bibliothèque numérique semble être le principal apport de l’internet au monde du livre, et réciproquement. Au fil des ans sont mis en ligne des centaines puis des milliers d’oeuvres du domaine public, documents littéraires et scientifiques, articles, travaux universitaires et de recherche, images et bandes sonores sont disponibles à l’écran. Nombre d'entre eux sont en accès libre.

5.1. Numérisation: mode texte et mode image

Les bibliothèques numériques sont souvent constituées à partir de collections imprimées. La première étape est donc la numérisation de ces dernières. Cette numérisation peut être effectuée soit en mode texte, soit en mode image.

Comme son nom l’indique, la numérisation en mode texte implique la saisie d’un texte. Elle consiste à scanner le livre, puis à contrôler le résultat à l’écran en relisant intégralement le texte scanné et en le corrigeant si nécessaire. Quand les documents originaux manquent de clarté, pour les livres anciens par exemple, ils sont saisis ligne après ligne, de la première page à la dernière. Suite au scannage ou à la saisie, le texte numérisé apparaît en continu à l’écran, et la présentation de la page originale n’est pas conservée. A cause du temps passé au traitement de chaque livre, ce mode de numérisation est assez long, et donc nettement plus coûteux que la numérisation en mode image. Dans de nombreux cas, il est toutefois très préférable, puisqu’il permet l’indexation, la recherche et l’analyse textuelles, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc. C’est la méthode utilisée par exemple par le Projet Gutenberg, fondé dès 1971, ou encore la Bibliothèque électronique de Lisieux, créée en 1996.

La numérisation en mode image correspond à la photographie du livre. La version informatique est le fac-similé numérique de la version imprimée. La présentation originale étant conservée, on peut feuilleter le texte page après page à l’écran. C’est la méthode employée pour les numérisations à grande échelle, par exemple pour la constitution de Gallica, le secteur numérique de la Bibliothèque nationale de France (BnF). Ne sont numérisés en mode texte que les tables des matières, les sommaires et les légendes des corpus iconographiques, ce afin de faciliter la recherche textuelle. Pourquoi ne pas tout numériser en mode texte? La BnF répond sur le site de Gallica: "Le mode image conserve l’aspect initial de l’original y compris ses éléments non textuels. Si le mode texte autorise des recherches riches et précises dans un document et permet une réduction significative du volume des fichiers manipulés, sa réalisation, soit par saisie soit par OCR (optical character recognition), implique des coûts de traitement environ dix fois supérieurs à la simple numérisation. Ces techniques, parfaitement envisageables pour des volumes limités, ne pouvaient ici être économiquement justifiables au vu des 50.000 documents (représentant presque 15 millions de pages) mis en ligne." En 2003, Gallica donne accès à tous les documents libres de droit du fonds numérisé de la BnF, à savoir 70.000 ouvrages et 80.000 images allant du Moyen-Age au début du 20e siècle.

Concepteur de Mot@mot, un logiciel de remise en page de fac-similés numériques, Pierre Schweitzer insiste sur l’utilité des deux modes de numérisation. "Le mode image permet d’avancer vite et à très faible coût, explique-t-il en janvier 2001. C’est important car la tâche de numérisation du domaine public est immense. Il faut tenir compte aussi des différentes éditions: la numérisation du patrimoine a pour but de faciliter l’accès aux oeuvres, il serait paradoxal qu’elle aboutisse à se focaliser sur une édition et à abandonner l’accès aux autres. Chacun des deux modes de numérisation s’applique de préférence à un type de document, ancien et fragile ou plus récent, libre de droit ou non (pour l’auteur ou pour l’édition), abondamment illustré ou pas. Les deux modes ont aussi des statuts assez différents: en mode texte ça peut être une nouvelle édition d’une oeuvre, en mode image c’est une sorte d’'édition d’édition', grâce à un de ses exemplaires (qui fonctionne alors comme une fonte d’imprimerie pour du papier). En pratique, le choix dépend bien sûr de la nature du fonds à numériser, des moyens et des buts à atteindre. Difficile de se passer d’une des deux façons de faire."

Si une bibliothèque numérique est d’abord une bibliothèque d’oeuvres numérisées, ce terme s’applique aussi par extension à une collection organisée de liens vers des oeuvres numérisées disponibles sur le web. C’est le cas de The Online Books Page, un répertoire d’œuvres anglophones en accès libre créé en 1993 par John Mark Ockerbloom. C’est également le cas de The Internet Public Library (IPL), qui se définit comme la première bibliothèque publique de l’internet sur l’internet, à savoir une bibliothèque sélectionnant, organisant et cataloguant les ressources disponibles sur le réseau, et n’existant elle-même que sur celui-ci. Créée en mars 1995, cette bibliothèque publique d’un genre nouveau devient vite une référence. D’autres bibliothèques numériques proposent à la fois des textes numérisés par l’équipe en place et un ensemble de liens vers des oeuvres disponibles ailleurs. C’est le cas d’Athena, bibliothèque numérique fondée en 1994 par Pierre Perroud et hébergée sur le site de l’Université de Genève.

5.2. Bibliothèques pionnières

Objectif poursuivi par des générations de bibliothécaires, la diffusion d’oeuvres du domaine public devient enfin possible à très vaste échelle, d’une part grâce à la numérisation des livres en mode texte, dans un format simple qui puisse être lu sur toutes les machines et par tous les systèmes, d’autre part grâce au fait que, via l’internet, ces fichiers puissent être téléchargés librement par tout lecteur potentiel.

= Le Projet Gutenberg