1998: LES BIBLIOTHEQUES EMMENAGENT SUR LE WEB

= [Résumé]

A partir de 1998, nombre de bibliothèques «traditionnelles» créent un site web, qui devient leur vitrine «virtuelle» et permet de proposer leur catalogue en ligne, des informations pratiques et un choix de sites pour éviter à leurs lecteurs de se perdre sur la toile. Elles créent aussi une bibliothèque numérique pour faire connaître leurs collections à un large public. Qu'elles soient des bibliothèques de textes, des bibliothèques d'images (fixes ou animées) ou des bibliothèques sonores, ou qu'elles associent les trois supports, ces bibliothèques numériques se développent rapidement et permettent d'avoir accès à des documents jusque-là difficiles - sinon presque impossibles - à consulter parce qu'appartenant à des fonds anciens, des fonds régionaux ou des fonds spécialisés.

= Bibliothèques traditionnelles

La première bibliothèque «traditionnelle» présente sur le web est la Bibliothèque municipale d’Helsinki (Finlande), qui inaugure son site en février 1994. Des bibliothèques mettent sur pied des «cyberespaces» à destination de leurs lecteurs. D’autres bibliothèques font connaître les joyaux de leurs collections par le biais du web. Des bibliothèques nationales unissent leurs efforts pour créer un portail commun.

Face à un web encyclopédique et des bibliothèques numériques de plus en plus nombreuses, les jours des bibliothèques traditionnelles sont-ils comptés? La bibliothèque numérique menace-t-elle vraiment l’existence de la bibliothèque traditionnelle? Telles sont les questions qu'on se pose en 1998. A cette date, plusieurs grandes bibliothèques expliquent sur leur site que, à côté d’un secteur numérique en pleine expansion, la communication physique des documents reste essentielle. Ces commentaires disparaissent ensuite. Au début des années 2000, toute bibliothèque traditionnelle quelque peu dynamique dispose de collections numériques, soit à usage interne, soit en accès libre sur le web.

La raison d’être des bibliothèques nationales est de préserver un patrimoine accumulé au fil des siècles: manuscrits, incunables, livres imprimés, journaux, périodiques, gravures, affiches, partitions musicales, images, photos, films, etc. Ceci n’est pas près de changer. Si le fait de disposer de supports numériques favorise la communication, il faut bien un endroit pour stocker les documents physiques originaux, à commencer par les Bibles de Gutenberg.

De plus, les bibliothèques nationales archivent aussi les documents électroniques et les pages web. A la Bibliothèque nationale de France (BnF) par exemple, il a été décidé de collecter et d’archiver les sites dont le nom de domaine se termine en .fr, ou encore les sites dédiés aux campagnes électorales, d’abord pour les présidentielles de 2002, puis pour les législatives de 2004, et enfin pour les présidentielles et législatives de 2007, en copiant et sauvegardant les sites institutionnels, les sites et blogs officiels des candidats, les sites d’analyses, les sites des médias traditionnels, les sites d’associations et de syndicats, etc.

Les bibliothèques publiques ne semblent pas près de disparaître non plus. Malgré la curiosité suscitée par le livre numérique, les lecteurs assurent régulièrement lors de sondages divers qu’ils ne sont pas prêts à lire Zola ou Proust à l’écran. Question de génération peut-être. Les enfants ayant appris à lire directement à l’écran ne verront sans doute aucun problème à lire des livres en ligne sur des supports électroniques en tous genres.

Si les bibliothèques nationales et les bibliothèques publiques restent toujours utiles, la situation est différente pour les bibliothèques spécialisées. Dans nombre de domaines où l’information la plus récente est primordiale, on s’interroge maintenant sur la nécessité d’aligner des documents imprimés sur des rayonnages, alors qu’il est tellement plus pratique de rassembler, stocker, archiver, organiser, cataloguer et diffuser des documents électroniques, et de les imprimer seulement à la demande.

Fondateur de la bibliothèque numérique Athena, Pierre Perroud insiste sur la complémentarité du texte électronique et du livre imprimé. Selon lui, «les textes électroniques représentent un encouragement à la lecture et une participation conviviale à la diffusion de la culture», notamment pour l’étude et la recherche textuelle. Ces textes «sont un bon complément du livre imprimé - celui-ci restant irremplaçable lorsqu’il s’agit de lire». Mais le livre imprimé reste «un compagnon mystérieusement sacré vers lequel convergent de profonds symboles: on le serre dans la main, on le porte contre soi, on le regarde avec admiration; sa petitesse nous rassure autant que son contenu nous impressionne; sa fragilité renferme une densité qui nous fascine; comme l’homme il craint l’eau et le feu, mais il a le pouvoir de mettre la pensée de celui-là à l’abri du Temps.» (extraits de la revue Informatique-Informations, Genève, février 1997)

= Bibliothèques numériques

Objectif poursuivi par des générations de bibliothécaires, la diffusion du livre devient enfin possible à vaste échelle, puisque celui-ci peut désormais être converti en fichier électronique et transiter via l’internet pour toucher un public qui n'a pas toujours accès à une bibliothèque traditionnelle.

Si certaines bibliothèques numériques naissent directement sur le web, la plupart émanent de bibliothèques traditionnelles. En 1996, la Bibliothèque municipale de Lisieux (Normandie) lance la Bibliothèque électronique de Lisieux, qui offre les versions numériques d'oeuvres littéraires courtes choisies dans les collections municipales. En 1997, la Bibliothèque nationale de France (BnF) crée Gallica qui, dans un premier temps, propose des images et textes du 19e siècle francophone. Une sélection de 3.000 livres est complétée par un échantillon de la future iconothèque numérique. En 1998, la Bibliothèque municipale de Lyon met les enluminures de 200 manuscrits et incunables à la disposition de tous sur son site web. Trois exemples parmi tant d’autres.

Les bibliothèques numériques permettent à un large public d’avoir accès à des documents difficiles à consulter parce qu’appartenant à des fonds anciens, locaux, régionaux ou spécialisés, peu accessibles pour des raisons diverses: souci de conservation des documents rares et fragiles, heures d’ouverture réduites, nombreux formulaires à remplir, longs délais de communication, pénurie de personnel, qui sont autant de barrières à franchir et demandent souvent au lecteur une patience à toute épreuve et une détermination hors du commun pour arriver jusqu’au document.

Grâce à la bibliothèque numérique, la bibliothèque traditionnelle peut enfin rendre compatibles deux objectifs qui jusque-là ne l’étaient guère, à savoir la conservation des documents et la communication de ceux-ci. D’une part le document ne quitte son rayonnage qu’une seule fois pour être scanné, d’autre part le grand public y a enfin accès. Si le lecteur souhaite consulter le document original, il pourra se lancer dans le parcours évoqué plus haut, mais en connaissance de cause, grâce au feuilletage préalable à l’écran.

Selon la British Library, pionnière dans ce domaine, la bibliothèque numérique peut être définie comme une entité résultant de l’utilisation des technologies numériques pour acquérir, stocker, préserver et diffuser des documents. Ces documents sont soit publiés directement sous forme numérique, soit numérisés à partir d’un document imprimé, audiovisuel ou autre. Une collection numérique devient une bibliothèque numérique si elle répond aux quatre critères suivants: 1) elle peut être créée et/ou produite dans un certain nombre d’endroits différents, mais elle est accessible en tant qu’entité unique; 2) elle doit être organisée et indexée pour un accès facile au serveur du lieu; 3) elle doit être stockée et gérée de manière à avoir une existence assez longue après sa création; 4) elle doit trouver un équilibre entre le respect du droit d’auteur et les exigences universitaires.

Hébergée par l’Université Carnegie Mellon (Pittsburgh, Pennsylvanie, Etats-Unis), l’Universal Library insiste sur les trois avantages de la bibliothèque numérique: 1) elle occupe moins de place qu’une bibliothèque traditionnelle et son contenu peut être copié ou sauvegardé électroniquement; 2) elle est immédiatement accessible à quiconque sur l’internet; 3) comme toute recherche sur son contenu est automatisée, elle permet une réduction significative des coûts de fonctionnement et une meilleure accessibilité des documents.

A titre historique, le site Library 2000 présente un condensé des recherches menées entre octobre 1995 et octobre 1997 par le MIT/LCS (Massachusetts Institute of Technology / Laboratory of Computer Science). Pragmatique, le projet Library 2000 a consisté à étudier pendant deux ans les problèmes posés par le stockage en ligne d’une très grande quantité de documents, puis à développer un prototype sensé économiquement viable en l’an 2000, prototype grâce auquel plusieurs grandes bibliothèques numériques sont mises en ligne à compter de novembre 1997.

En ce qui concerne les images, les problèmes de bande passante s’estompent. Après avoir proposé avec enthousiasme des images en pleine page très agréables à l’oeil mais excessivement longues à apparaître à l’écran, nombreux sont les sites qui optent ensuite pour des images de format réduit, avec possibilité de cliquer ou non sur ces images pour obtenir un format plus grand. Cette présentation reste souvent la norme ensuite, même avec la généralisation de l’internet à débit rapide. Le passage du petit format ou grand format est désormais rapide sinon immédiat, à la grande satisfaction des iconographes, photographes et autres amateurs d’images.

= Numérisation: mode texte ou image

Qui dit bibliothèque numérique dit numérisation. Pour pouvoir être consulté à l’écran, un livre peut être numérisé soit en mode texte soit en mode image.

La numérisation en mode texte implique la saisie d’un texte. Elle consiste à patiemment saisir le livre sur un clavier, page après page, solution souvent adoptée lors de la constitution des premières bibliothèques numériques, ou alors quand les documents originaux manquent de clarté, pour les livres anciens par exemple. Les années passant, la numérisation en mode texte consiste surtout à scanner le livre en mode image, puis à le convertir en texte grâce à un logiciel OCR (optical character recognition), avec relecture éventuelle à l’écran pour corriger le texte obtenu puisqu'un bon logiciel OCR serait fiable à 90%.

La version informatique du livre ne conserve pas la présentation originale du livre ou de la page. Le livre devient texte, à savoir un ensemble de caractères apparaissant en continu à l’écran. A cause du temps passé au traitement de chaque livre, ce mode de numérisation est assez long, et donc nettement plus coûteux que la numérisation en mode image. Dans de nombreux cas, il est toutefois très préférable, puisqu’il permet l’indexation, la recherche et l’analyse textuelles, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc. C’est la méthode utilisée par exemple par le Projet Gutenberg, fondé dès 1971, ou encore la Bibliothèque électronique de Lisieux, créée en 1996.

La numérisation en mode image correspond à la photographie du livre page après page. La version informatique est le fac-similé numérique de la version imprimée. La présentation originale étant conservée, on peut feuilleter le texte page après page à l’écran. C’est la méthode employée pour les numérisations à grande échelle, par exemple pour le programme de numérisation de la Bibliothèque nationale de France (BnF) et la constitution de sa bibliothèque numérique Gallica. La numérisation en mode texte est toutefois utilisée pour les tables des matières, les sommaires et les corpus de documents iconographiques, afin de faciliter la recherche textuelle.

Pourquoi ne pas tout numériser en mode texte? La BnF répond en 2000 sur le site de Gallica: «Le mode image conserve l’aspect initial de l’original y compris ses éléments non textuels. Si le mode texte autorise des recherches riches et précises dans un document et permet une réduction significative du volume des fichiers manipulés, sa réalisation, soit par saisie soit par OCR, implique des coûts de traitement environ dix fois supérieurs à la simple numérisation. Ces techniques, parfaitement envisageables pour des volumes limités, ne pouvaient ici être économiquement justifiables au vu des 50.000 documents (représentant presque 15 millions de pages) mis en ligne.»

Concepteur de Mot@mot, logiciel de remise en page de fac-similés numériques, Pierre Schweitzer insiste sur l’utilité des deux modes de numérisation. «Le mode image permet d’avancer vite et à très faible coût, explique-t-il en janvier 2001. C’est important car la tâche de numérisation du domaine public est immense. Il faut tenir compte aussi des différentes éditions: la numérisation du patrimoine a pour but de faciliter l’accès aux oeuvres, il serait paradoxal qu’elle aboutisse à se focaliser sur une édition et à abandonner l’accès aux autres. Chacun des deux modes de numérisation s’applique de préférence à un type de document, ancien et fragile ou plus récent, libre de droit ou non (pour l’auteur ou pour l’édition), abondamment illustré ou pas. Les deux modes ont aussi des statuts assez différents: en mode texte ça peut être une nouvelle édition d’une oeuvre, en mode image c’est une sorte d’"édition d’édition", grâce à un de ses exemplaires (qui fonctionne alors comme une fonte d’imprimerie pour du papier). En pratique, le choix dépend bien sûr de la nature du fonds à numériser, des moyens et des buts à atteindre. Difficile de se passer d’une des deux façons de faire.»

= Gallica

Secteur numérique de la Bibliothèque nationale de France (BnF), Gallica est inauguré en octobre 1997 avec des images et textes du 19e siècle francophone, «siècle de l’édition et de la presse moderne, siècle du roman mais aussi des grandes synthèses historiques et philosophiques, siècle scientifique et technique». A l’époque, le serveur stocke 2.500 livres numérisés en mode image complétés par les 250 livres numérisés en mode texte de la base Frantext de l’INaLF (Institut national de la langue française). Classés par discipline, ces livres sont complétés par une chronologie du 19e siècle et des synthèses sur les grands courants en histoire, sciences politiques, droit, économie, littérature, philosophie, sciences et histoire des sciences. Le site propose aussi un échantillon de la future iconothèque numérique, à savoir le fonds du photographe Eugène Atget, une sélection de documents sur l’écrivain Pierre Loti, une collection d’images de l’Ecole nationale des ponts et chaussées ayant trait aux grands travaux liés à la révolution industrielle en France, et enfin un choix de livres illustrés de la Bibliothèque du Musée de l’homme.

Fin 1997, Gallica se considère moins comme une banque de données numérisées que comme un «laboratoire dont l’objet est d’évaluer les conditions d’accès et de consultation à distance des documents numériques». Le but est d’expérimenter la navigation dans ces collections, en permettant aussi bien le libre parcours du chercheur ou du curieux que des recherches textuelles pointues.

Début 1998, Gallica annonce 100.000 volumes et 300.000 images pour la fin 1999, avec un accroissement rapide des collections ensuite. Sur les 100.000 volumes prévus, qui représenteront 30 millions de pages numérisées, plus du tiers concerne le 19e siècle. Quant aux 300.000 images fixes, la moitié appartient aux départements spécialisés de la BnF (Estampes et photographie, Manuscrits, Arts du spectacle, Monnaies et médailles, etc.). L’autre moitié provient de collections d’établissements publics (musées et bibliothèques, Documentation française, Ecole nationale des ponts et chaussées, Institut Pasteur, Observatoire de Paris, etc.) ou privés (agences de presse dont Magnum, l’Agence France-Presse, Sygma, Rapho, etc.).

Par ailleurs, à la même date, le site bilingue français-anglais de la BnF est à la fois solidement ancré dans le passé et résolument ouvert sur l’avenir, comme en témoigne le menu principal de la page d’accueil, avec ses neuf rubriques: (1) nouveau (à savoir les nouvelles manifestations culturelles); (2) connaître la BnF; (3) les actualités culturelles; (4) les expositions virtuelles (quatre expositions en septembre 1998: les splendeurs persanes, le roi Charles V et son temps, naissance de la culture française, tous les savoirs du monde); (5) des informations pratiques; (6) l’accès aux catalogues de la BnF; (7) l’information professionnelle (conservation, dépôt légal, produits bibliographiques, etc.); (8) la bibliothèque en réseau (Francophonie, coopération nationale, coopération internationale, etc.); (9) les autres serveurs (bibliothèques nationales, bibliothèques françaises, universités, etc.). Bien en vue sur la page d’accueil, un logo permet d’accéder à Gallica.

En mai 1998, la BnF revoit ses espérances à la baisse et modifie quelque peu ses orientations premières. Jérôme Strazzulla, journaliste au Figaro, explique dans l'édition du 3 juin 1998 que la BnF est «passée d’une espérance universaliste, encyclopédique, à la nécessité de choix éditoriaux pointus». Dans le même article, le président de la BnF, Jean-Pierre Angremy, rapporte la décision du comité éditorial de Gallica: «Nous avons décidé d’abandonner l’idée d’un vaste corpus encyclopédique de cent mille livres, auquel on pourrait sans cesse reprocher des trous. Nous nous orientons aujourd’hui vers des corpus thématiques, aussi complets que possibles, mais plus restreints. (…) Nous cherchons à répondre, en priorité, aux demandes des chercheurs et des lecteurs.» Le premier corpus aura trait aux voyages en France, avec mise en ligne prévue en 2000. Ce corpus rassemblera des textes, estampes et photographies du 16e siècle à 1920. Les corpus envisagés ensuite auront les thèmes suivants: Paris, les voyages en Afrique des origines à 1920, les utopies, et les mémoires des Académies des sciences de province.

En 2003, Gallica rassemble 70.000 ouvrages et 80.000 images allant du Moyen-Age au début du 20e siècle, tous documents libres de droits. Mais, de l’avis de nombreux usagers, les fichiers sont très lourds puisque les livres sont numérisés en mode image, et l’accès en est très long. Chose tout aussi problématique, la numérisation en mode image n’autorise pas la recherche textuelle alors que Gallica se trouve être la plus grande bibliothèque numérique francophone du réseau en nombre de titres disponibles en ligne. Seule une petite collection de livres (1.117 livres en février 2004) est numérisée en mode texte, celle de la base Frantext de l'ATILF (Analyse et traitement informatique de la langue française, le laboratoire ayant succédé à l'INaLF), intégrée dans Gallica.

En février 2005, Gallica compte 76.000 ouvrages. A la même date, la BnF annonce la mise en ligne prochaine (entre 2006 et 2009) de la presse française parue entre 1826 et 1944, à savoir 22 titres représentant 3,5 millions de pages. Début 2006, les premiers journaux disponibles en ligne sont les quotidiens Le Figaro (fondé en 1826), La Croix (fondée en 1883), L'Humanité (fondée en 1904) et Le Temps (fondé en 1861 et disparu en 1942).

En décembre 2006, les collections comprennent 90.000 ouvrages numérisés (fascicules de presse compris), 80.000 images et des dizaines d'heures de ressources sonores. Gallica débute la conversion en mode texte des livres numérisés en mode image afin de favoriser l'accès à leur contenu et leur indexation par les moteurs de recherche.

En novembre 2007, la BnF annonce la numérisation de 300.000 ouvrages supplémentaires d'ici 2010, à savoir 45 millions de pages qui seront accessibles sur son nouveau site Gallica2, simultanément en mode image et en mode texte.