1998 > DES LIVRES NUMÉRISÉS EN QUANTITÉ

[Résumé] En 1998, qui dit livre numérique dit numérisation, la majorité des livres existant seulement en version imprimée. Pour pouvoir être consulté à l'écran, un livre peut être numérisé soit en mode image soit en mode texte, les deux modes de numérisation étant complémentaires. La numérisation en mode image consiste à scanner le livre, et correspond donc à la photographie du livre page après page. La présentation originale étant conservée, on peut feuilleter le livre à l’écran. La version informatique est le fac-similé numérique de la version imprimée. Si elle est plus économique, cette méthode ne permet pas la recherche textuelle. La numérisation en mode texte consiste à scanner le livre en mode image, puis à le convertir en mode texte grâce à un logiciel OCR (Optical Character Recognition). La version informatique du livre ne conserve pas la présentation originale du livre ou de la page mais elle permet la recherche textuelle.

***

En 1998, qui dit livre numérique dit numérisation, la majorité des livres existant seulement en version imprimée.

Pour pouvoir être consulté à l'écran, un livre peut être numérisé soit en mode texte soit en mode image, les deux modes de numérisation étant complémentaires.

# La numérisation en mode texte

Les premiers temps, la numérisation en mode texte consiste à patiemment saisir le livre sur un clavier, page après page, solution souvent adoptée lors de la constitution des premières bibliothèques numériques, ou alors quand les documents originaux manquent de clarté, pour les livres anciens par exemple.

Les années passant, la numérisation en mode texte consiste surtout à scanner le livre en mode image, puis à le convertir en texte grâce à un logiciel OCR (Optical Character Recognition), avec relecture éventuelle à l’écran pour corriger le texte obtenu puisqu'un bon logiciel OCR serait fiable à 99%.

La version informatique du livre ne conserve pas la présentation originale du livre ou de la page. Le livre devient texte, à savoir un ensemble de caractères apparaissant en continu à l’écran. À cause du temps passé au traitement de chaque livre, ce mode de numérisation est assez long, et donc nettement plus coûteux que la numérisation en mode image. Dans de nombreux cas, il est toutefois préférable, puisqu’il permet l’indexation, la recherche textuelle, l’analyse textuelle, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc.

C’est la méthode utilisée par exemple par le Projet Gutenberg, fondé dès 1971 et qui propose aujourd'hui la plus grande collection numérique au format texte, avec des livres relus et corrigés à deux reprises pour être fiables à 99,95% par rapport à la version imprimée.