1998 > CANDIDAD DE LIBROS DIGITALIZADOS
[Resumen] En 1998, se dice que el libro digital quiere decir digitalización, ya que la mayoría de los libros existe sólo en su versión impresa. Para que un libro pueda ser consultado en pantalla, sólo hace falta digitalizarlo en modo imagen o en modo texto. Los dos modos son complementarios. Digitalizar en modo imagen consiste en escanear el libro, y equivale a fotografiar el libro página a página. Como se conserva la presentación original, luego es posible “hojear” el texto en pantalla. La versión informática es el facsímil digital de la versión impresa. Este modo es más barato, pero no permite la búsqueda textual. Digitalizar en modo texto implica la necesidad de escanear el libro en modo imagen y luego convertirlo en modo texto con un software OCR (Optical Character Recognition). La versión informática del libro no conserva la presentación original del libro o de la página, pero, lo que resulta muy importante, sí permite la búsqueda textual.
***
En 1998, se dice que el libro digital quiere decir digitalización, ya que la mayoría de los libros existe sólo en su versión impresa.
Para que un libro pueda ser consultado en pantalla, sólo hace falta digitalizarlo en modo imagen o en modo texto. Los dos modos son complementarios.
# La digitalización en modo texto
Durante los primeros años, la digitalización en modo texto consiste en digitar el libro, con paciencia, en el teclado, página a página. Ésta es la solución que se suele adoptar al constituirse las primeras bibliotecas digitales, o bien cuando los documentos originales carecen de claridad, por ejemplo en el caso de los libros antiguos.
Con los años, la digitalización en modo texto consiste en escanear el libro en modo imagen, y luego en convertirlo en modo texto con un software OCR (Optical Character Recognition). Se supone que un buen software OCR tiene una fiabilidad de un 99%, y después basta con una relectura en la pantalla para corregir el texto.
En este caso, la versión informática del libro no conserva el diseño original de los libros, ni tampoco el de las páginas. El libro se convierte en texto; es decir, en un conjunto de caracteres que aparecen con continuidad en la pantalla. Por el tiempo que se necesita para procesar cada libro, este modo de digitalización resulta más largo y, por lo tanto, más costoso que la digitalización en modo imagen. Pero en muchos casos es preferible, ya que permite la indexación, la búsqueda y el análisis textual, así como los estudios comparativos entre varios textos o varias versiones del mismo texto.
Éste es el método utilizado, por ejemplo, por el Proyecto Gutenberg, fundado en 1971, que propone hoy en día la biblioteca digital más larga en formato texto, con libros corregidos dos veces pare ser fiables a 99,95% en comparación con sus versiones impresas.