Hébergée par l’Université Carnegie Mellon (Pittsburgh, Pennsylvanie, Etats-Unis) et reliée au catalogue expérimental (ESS : experimental search system) de la Library of Congress, l’Universal Library insiste sur les trois avantages de la bibliothèque numérique: 1) elle occupe moins de place qu’une bibliothèque traditionnelle et son contenu peut être copié ou sauvegardé électroniquement; 2) elle est immédiatement accessible à quiconque sur l’internet; 3) comme toute recherche sur son contenu est automatisée, elle permet une réduction des coûts importante et une plus grande accessibilité des documents.

A titre historique, le site Library 2000 présente un condensé des recherches menées entre octobre 1995 et octobre 1997 par le MIT/LCS (Massachusetts Institute of Technology / Laboratory of Computer Science). Pragmatique, le projet Library 2000 étudie pendant deux ans les problèmes posés par le stockage en ligne d’une très grande quantité de documents. Il développe un prototype utilisant la technologie et les configurations de systèmes sensés économiquement viables en l’an 2000, prototype grâce auquel plusieurs grandes bibliothèques numériques sont mises en ligne à compter de l’automne 1997.

= Numérisation: mode texte ou image

Qui dit bibliothèque numérique dit numérisation. Pour pouvoir être consulté à l’écran, un livre peut être numérisé soit en mode texte soit en mode image.

La numérisation en mode texte implique la saisie d’un texte. Elle consiste à patiemment saisir le livre sur un clavier, page après page, solution souvent adoptée lors de la constitution des premières bibliothèques numériques, ou alors à scanner le livre et le convertir en texte grâce à un logiciel OCR (optical character recognition), puis à contrôler le résultat à l’écran en relisant intégralement le texte obtenu pour le comparer avec le texte scanné et le corriger si nécessaire. Quand les documents originaux manquent de clarté, pour les livres anciens par exemple, ils sont saisis ligne après ligne, de la première page à la dernière. Contrairement à la numérisation en mode image, la version informatique ne conserve pas la présentation originale du livre ou de la page. Le livre devient texte, à savoir un ensemble de caractères apparaissant en continu à l’écran. A cause du temps passé au traitement de chaque livre, ce mode de numérisation est assez long, et donc nettement plus coûteux que la numérisation en mode image. Dans de nombreux cas, il est toutefois très préférable, puisqu’il permet l’indexation, la recherche et l’analyse textuelles, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc. C’est la méthode utilisée par exemple par le Projet Gutenberg, fondé dès 1971, ou encore la Bibliothèque électronique de Lisieux, créée en 1996.

La numérisation en mode image correspond à la photographie du livre page après page. La version informatique est le fac-similé numérique de la version imprimée. La présentation originale étant conservée, on peut feuilleter le texte page après page à l’écran. C’est la méthode employée pour les numérisations à grande échelle, par exemple pour le programme de numérisation de la Bibliothèque nationale de France (BnF) et la constitution de sa bibliothèque numérique Gallica. La numérisation en mode texte est toutefois utilisée pour les tables des matières, les sommaires et les corpus de documents iconographiques, ce afin de faciliter la recherche textuelle. Pourquoi ne pas tout numériser en mode texte? La BnF répond sur le site de Gallica: «Le mode image conserve l’aspect initial de l’original y compris ses éléments non textuels. Si le mode texte autorise des recherches riches et précises dans un document et permet une réduction significative du volume des fichiers manipulés, sa réalisation, soit par saisie soit par OCR, implique des coûts de traitement environ dix fois supérieurs à la simple numérisation. Ces techniques, parfaitement envisageables pour des volumes limités, ne pouvaient ici être économiquement justifiables au vu des 50.000 documents (représentant presque 15 millions de pages) mis en ligne.»

Concepteur de Mot@mot, logiciel de remise en page de fac-similés numériques, Pierre Schweitzer insiste sur l’utilité des deux modes de numérisation. «Le mode image permet d’avancer vite et à très faible coût, explique-t-il en janvier 2001. C’est important car la tâche de numérisation du domaine public est immense. Il faut tenir compte aussi des différentes éditions: la numérisation du patrimoine a pour but de faciliter l’accès aux oeuvres, il serait paradoxal qu’elle aboutisse à se focaliser sur une édition et à abandonner l’accès aux autres. Chacun des deux modes de numérisation s’applique de préférence à un type de document, ancien et fragile ou plus récent, libre de droit ou non (pour l’auteur ou pour l’édition), abondamment illustré ou pas. Les deux modes ont aussi des statuts assez différents: en mode texte ça peut être une nouvelle édition d’une oeuvre, en mode image c’est une sorte d’"édition d’édition", grâce à un de ses exemplaires (qui fonctionne alors comme une fonte d’imprimerie pour du papier). En pratique, le choix dépend bien sûr de la nature du fonds à numériser, des moyens et des buts à atteindre. Difficile de se passer d’une des deux façons de faire.»

Si une bibliothèque numérique est d’abord une bibliothèque d’oeuvres numérisées, ce terme s’applique aussi par extension à une collection organisée de liens vers des oeuvres numérisées disponibles sur le web. C’est le cas de l’Online Books Page, un répertoire d’oeuvres anglophones en accès libre créé en 1993 par John Mark Ockerbloom. C’est également le cas de l’Internet Public Library (IPL), fondée en 1995 pour répertorier les ressources disponibles sur l’internet. D’autres bibliothèques numériques proposent à la fois des textes numérisés par l’équipe en place et un ensemble de liens vers des oeuvres disponibles ailleurs. C’est le cas d’Athena, bibliothèque numérique fondée en 1994 par Pierre Perroud et hébergée sur le site de l’Université de Genève.

= ABU et Athena

L’ABU est la première bibliothèque numérique francophone du réseau. Fondée en avril 1993 par l’Association des bibliophiles universels (ABU) dans la lignée du Projet Gutenberg, elle est hébergée par le Centre d’études et de recherche informatique (CEDRIC) du Conservatoire des arts et métiers (CNAM) de Paris. En janvier 2002, les collections comptent 288 textes et 101 auteurs. Il ne semble pas que d'autres textes aient été ajoutés depuis.