Hospedada por la Universidad Carnegie Mellon (Estados Unidos), la Universal Library realza las tres ventajas de la biblioteca digital: 1) ocupa menos espacio que una biblioteca tradicional y su contenido puede ser copiado o guardado electrónicamente; 2) cualquier persona puede acceder inmediatamente a su contenido en el internet; 3) el hecho de que cualquier búsqueda de contenido esté automatizada permite a la vez reducir significativamente los costes de funcionamiento e incrementar la accesibilidad de los documentos.
A título histórico, el sitio web Library 2000 presenta un compendio de las investigaciones realizadas entre octubre de 1995 y octubre de 1997 por el MIT/LCS (Massachusetts Institute of Technology / Laboratory of Computer Science). Library 2000 es un proyecto pragmático, que se propone estudiar durante dos años los problemas planteados por el almacenamiento en línea de una inmensa cantidad de documentos. Desarrolla un prototipo que podría ser económicamente viable en el año 2000. Gracias a este prototipo se ponen en línea varias bibliotecas digitales de grandes dimensiones a partir de noviembre de 1997.
Para las imágenes, los problemas con el ancho de banda van desapareciendo. Primero las bibliotecas optaron a menudo por imágenes de página entera, muy agradables visualmente, pero que tardaban demasiado en aparecer en pantalla. Deciden entonces presentar imágenes en formato reducido, con posibilidad de hacer clic en ellas para obtener un formato más grande. Esta presentación es la que se ha establecido luego como norma, incluso después de que se generalizara el internet de banda ancha. Ahora el paso de un formato pequeño a un formato grande resulta muy rápido – o incluso inmediato –, a gran satisfacción de los iconógrafos, de los fotógrafos y demás consumidores de imágenes.
= Digitalización: modo texto o modo gráfico
No sé puede hablar de biblioteca digital sin hablar de digitalización. Para que un libro pueda ser consultado en pantalla, primero hace falta digitalizarlo, en modo texto o en modo imagen.
La digitalización en modo texto implica la necesidad de dactilografiar el texto. Consiste en digitar el libro con paciencia en el teclado, página a página. Ésta era la solución que se solía adoptar al constituirse las primeras bibliotecas digitales, o bien cuando los documentos originales carecían de claridad, por ejemplo en el caso de los libros antiguos. Han pasado varios años, y para digitalizar en modo texto ya casi basta con escanear el libro en modo imagen, y luego en convertirlo en texto gracias a un software OCR (optical character recognition). Se supone que un buen software OCR tiene una fiabilidad de un 90%, luego basta con una relectura en pantalla para corregir el texto.
En este caso, la versión informática del libro no conserva el diseño original de este libro, ni tampoco el de la página. El libro se convierte en texto, es decir en un conjunto de caracteres que aparecen de continuo en la pantalla. A causa de la cantidad de tiempo que se necesita para procesar cada libro, este modo de digitalización resulta bastante largo, y por lo tanto es más costoso que la digitalización en modo imagen. A pesar de todo, es muy preferible el modo texto, ya que permite la indexación, la búsqueda y el análisis textual, así como estudios comparativos entre varios textos o varias versiones del mismo texto. Éste es el método utilizado por ejemplo por el Proyecto Gutenberg, fundado en 1971, y también por la Biblioteca electrónica de Lisieux (Normandía, Francia), creada en 1996.
Digitalizar en modo imagen equivale a fotografiar el libro página a página. La versión informática no es sino un facsímil digital de la versión impresa. Como se conserva la presentación original, luego es posible "hojear" el texto en pantalla, página a página. Éste es el método empleado para digitalizaciones a gran escala, por ejemplo para la biblioteca digital Gallica de la Biblioteca nacional de Francia (BnF). Sin embargo, para la tabla de contenidos, los sumarios y los corpus de documentos iconográficos se utiliza la digitalización en modo texto, a fin de facilitar la búsqueda textual.
¿Por qué no se digitaliza todo en modo texto? La BnF contesta esta pregunta en 2000 en el sitio web de Gallica: "El modo imagen permite conservar el aspecto inicial del documento original, e incluso los elementos no textuales. En cuanto al modo texto, permite efectuar búsquedas más amplias y precisas en un documento, y reducir substancialmente el volumen de los archivos tratados, pero supone un coste de procesamiento más o menos diez veces superior al de una simple digitalización en modo imagen, bien se trate de teclear el texto o de utilizar un software OCR. Se pueden utilizar estas técnicas si el volumen es limitado, pero no podría justificarse a nivel económico tratándose de los 50.000 documentos (o sea casi 15 millones de páginas) que se han puesto en línea."
Pierre Schweitzer, el diseñador del software Mot@mot – que sirve para reorganizar el diseño de los facsímiles digitales – insiste sobre la utilidad de ambos modos de digitalización. "El modo imagen permite digitalizar deprisa y con costes muy reducidos, explica en enero de 2001. Esto es importante porque la tarea de digitalización del domino público es inmensa. Hay que tomar en cuenta también las diferentes ediciones: si se digitaliza el patrimonio, es para facilitar el acceso a las obras. Por lo tanto sería paradójico focalizarse en una sola edición, dejando de lado el acceso a las otras ediciones. Cada uno de los dos modos de digitalización conviene a un tipo de documentos, antiguo/frágil o reciente, libre o no de derechos (para el autor o para la edición), parca o abundantemente ilustrado. Los dos métodos también tienen estatutos bastante distintos: en modo texto puede tratarse de la nueva edición de una obra, mientras que en modo imagen se trata más bien de una 'edición de otra edición'. En la práctica, la elección depende del tipo de fondo que se quiere digitalizar, del presupuesto disponible y de los objetivos que hay que alcanzar. Sería difícil prescindir de una de las dos técnicas."