# La numérisation en mode image
La numérisation en mode image consiste à scanner le livre, et correspond donc à la photographie du livre page après page. La présentation originale étant conservée, on peut feuilleter le livre à l’écran. La version informatique est le fac-similé numérique de la version imprimée.
C’est la méthode employée à la fin des années 1990 pour les programmes de numérisation à grande échelle, par exemple celui de la Bibliothèque nationale de France (BnF) pour alimenter sa bibliothèque numérique Gallica. Ne sont numérisés en mode texte que les tables des matières, les sommaires et les corpus de documents iconographiques, afin de faciliter la recherche textuelle.
Pourquoi ne pas tout numériser en mode texte? La BnF répond en 2000 sur le site de Gallica: «Le mode image conserve l’aspect initial de l’original y compris ses éléments non textuels. Si le mode texte autorise des recherches riches et précises dans un document et permet une réduction significative du volume des fichiers manipulés, sa réalisation, soit par saisie soit par OCR, implique des coûts de traitement environ dix fois supérieurs à la simple numérisation. Ces techniques, parfaitement envisageables pour des volumes limités, ne pouvaient ici être économiquement justifiables au vu des 50.000 documents (représentant presque 15 millions de pages) mis en ligne.»
Dans les années qui suivent, Gallica convertira toutefois nombre de ses livres du mode image au mode texte pour permettre les recherches textuelles.
# Chaque mode de numérisation a son utilité
Concepteur de Mot@mot, logiciel de remise en page des fac-similés numériques, Pierre Schweitzer insiste sur l’utilité des deux modes de numérisation. Il explique en janvier 2001: «Le mode image permet d’avancer vite et à très faible coût. C’est important car la tâche de numérisation du domaine public est immense. Il faut tenir compte aussi des différentes éditions: la numérisation du patrimoine a pour but de faciliter l’accès aux oeuvres, il serait paradoxal qu’elle aboutisse à se focaliser sur une édition et à abandonner l’accès aux autres. Chacun des deux modes de numérisation s’applique de préférence à un type de document, ancien et fragile ou plus récent, libre de droit ou non (pour l’auteur ou pour l’édition), abondamment illustré ou pas. Les deux modes ont aussi des statuts assez différents: en mode texte ça peut être une nouvelle édition d’une oeuvre, en mode image c’est une sorte d’"édition d’édition", grâce à un de ses exemplaires (qui fonctionne alors comme une fonte d’imprimerie pour du papier). En pratique, le choix dépend bien sûr de la nature du fonds à numériser, des moyens et des buts à atteindre. Difficile de se passer d’une des deux façons de faire.»
1998 > L'ENCYCLOPÉDIE DE DIDEROT EN LIGNE
[Résumé] Projet commun du Centre national de la recherche scientifique (CNRS, France) et de l'Université de Chicago (Illinois, États-Unis), le Projet ARTFL (American and French Research on the Treasury of the French Language) met en ligne en 1998 la base de données du premier volume (1751) de l'Encyclopédie de Diderot. Cette mise en ligne expérimentale est le prélude à une base de données exhaustive comprenant l'Encyclopédie (1751-1772) dans son entier, à savoir 17 volumes de texte et 11 volumes de planches. Destinée à rassembler puis divulguer les connaissances de l'époque, l'Encyclopédie porte la marque des courants intellectuels et sociaux du Siècle des Lumières. C'est grâce à elle que se propagent les idées nouvelles qui inspireront la Révolution française de 1789. L’ARTFL travaille également à d’autres projets, par exemple à une base de données exhaustive du «Dictionnaire de l’Académie française», dont les différentes éditions s’échelonnent entre 1694 et 1935.
***