1998: LAS BIBLIOTECAS SE INSTALAN EN LA WEB

= [Resumen]

A partir de 1998, muchas bibliotecas "tradicionales" crean su propio sitio web, que se convierte en "escaparate virtual" y les permite proponer su catálogo, información práctica y una selección de otros sitios web para evitar a sus lectores la molestia de perderse en la red. Estas bibliotecas proponen también bibliotecas digitales para dar a conocer sus colecciones a un público amplio: colecciones de textos, colecciones de imágenes (fijas o animadas) y colecciones sonoras. Las bibliotecas digitales se desarrollan rápidamente y proporcionan acceso facil a documentos que hasta entonces eran difíciles o casi imposibles de consultar, por pertenecer a fondos antiguos, a fondos regionales o a fondos especializados.

= Bibliotecas tradicionales

La primera biblioteca "tradicional" presente en el internet es la Biblioteca municipal de Helsinki (Finlandia) que inaugura su sitio web en febrero de 1994. Varias bibliotecas elaboran "ciberespacios" para sus lectores. Otras dan a conocer las joyas de sus colecciones por medio de la web. Algunas bibliotecas nacionales unen fuerzas para crear un portal común.

Frente a una web enciclopédica y a la proliferación de las bibliotecas digitales, ¿tendrán las bibliotecas tradicionales los días contados? ¿Será la biblioteca digital una verdadera amenaza para la existencia de la biblioteca tradicional? Éstas son las preguntas que se plantean en 1998. En esta fecha, varias grandes bibliotecas explican en su sitio web que a pesar de que el sector digital esté en plena expansión, la comunicación física de los documentos sigue siendo esencial. A continuación estos comentarios desaparecen. A principios de los años 2000, casi todas las bibliotecas tradicionales disponen de colecciones digitales, sea para uso interno, sea en libre acceso en la web. Se digitalizan los documentos para evitar tener que manipularlos después, y de este modo cualquier usuario puede acceder fácilmente a ellos.

La razón de ser de las bibliotecas nacionales es preservar un patrimonio acumulado a lo largo de los siglos: manuscritos, incunables, libros impresos, diarios, periódicos, grabados, carteles, partituras musicales, imágenes, fotos, películas, etc. Esto no va a cambiar pronto, a pesar de que la tecnología digital ocupe un lugar cada vez más importante en el mundo del libro y de los demás soportes. Aunque esta omnipresencia de los soportes digitales favorezca la comunicación, sigue siendo necesario encontrar un lugar donde almacenar los documentos físicos originales, empezando por las Biblias de Gutenberg.

Las bibliotecas nacionales archivan también los documentos electrónicos y los sitios web. En la Biblioteca nacional de Francia (BnF) por ejemplo, han decidido recoger y archivar los sitios web cuyo nombre de dominio termine con ".fr", y también los sitios dedicados a las campañas electorales, primero para las elecciones presidenciales de 2002, luego para las legislativas de 2004, y finalmente para las presidenciales y las legislativas de 2007, recogiendo y archivando los sitios institucionales, los sitios y blogs oficiales de los candidatos, los sitios de los medios de comunicación, los sitios de asociaciones y de sindicatos, etc.

Las bibliotecas públicas tampoco parecen estar en peligro de desaparecer. A pesar de la curiosidad suscitada por el libro digital, los lectores aseguran con frecuencia en diversos sondeos que no están dispuestos a leer a Zola o a Proust en pantalla. Una cuestión de generación, quizás. Tal vez los niños que hayan aprendido a leer directamente en la pantalla no tengan ningún problema a la hora de leer libros online en soportes electrónicos de todo tipo.

Si bien las bibliotecas nacionales y las bibliotecas públicas siguen siendo útiles, la situación de las bibliotecas especializadas es diferente. En muchos campos del saber, en los que prevalece la información más reciente, se plantean actualmente preguntas sobre la necesidad de colocar documentos impresos en unos estantes, cuando es mucho más práctico reunir, almacenar, archivar, organizar, catalogar y difundir documentos electrónicos, e imprimirlos sólo a petición de los usuarios.

Pierre Perroud, fundador de la biblioteca digital Athena, insiste en la complementariedad del texto electrónico y del libro impreso. En su opinión, "los textos electrónicos representan una incitación a la lectura y una participación atrayente a la difusión de la cultura", especialmente respecto al estudio y a la búsqueda textual. Estos textos "son un buen complemento del libro impreso – aunque este último sea irremplazable si se trata de leerlo". Aunque esté convencido de la utilidad del texto electrónico, sigue pensando que el libro impreso aún es "un compañero misteriosamente sagrado hacia el cual convergen símbolos profundos: uno puede apretarlo en su mano, estrecharlo contra su pecho, mirarlo con admiración; su pequeñez nos tranquiliza tanto como nos impresiona su contenido; su fragilidad esconde una densidad que nos tiene fascinados; como el hombre, teme el agua y el fuego, pero es capaz de mantener al pensamiento humano a salvo del Tiempo." (fragmento de la revista Informatique-Informations, Ginebra, febrero de 1997)

= Bibliotecas digitales

La difusión del libro, un objetivo perseguido por varias generaciones de bibliotecarios, por fin se hace posible a gran escala, ya que hoy en día éste puede ser convertido en archivo electrónico y transitar vía el internet para alcanzar a un público que no siempre tiene acceso a una biblioteca tradicional.

Si bien algunas bibliotecas digitales nacen directamente en la web, la mayoría emana de bibliotecas tradicionales. En 1996, la Biblioteca municipal de Lisieux (Normandía, Francia) lanza la Biblioteca electrónica de Lisieux, que ofrece las versiones digitales de obras literarias cortas elegidas entre las colecciones municipales. En 1997, la Biblioteca nacional de Francia (BnF) crea el sitio web Gallica, que propone, en una primera fase, imágenes y textos del siglo XIX en lengua francesa, con una selección de 3.000 libros y una muestra de la futura iconoteca digital. En 1998, la Biblioteca municipal de Lyon pone las iluminaciones y miniaturas de 200 manuscritos e incunables a disposición de todos en su sitio web. Y estos no son más que tres ejemplos entre otros tantos.

Las bibliotecas digitales permiten a un amplio público tener acceso a documentos difíciles de consultar en fondos antiguos, locales, regionales o especializados, poco accesibles por diversos motivos: afán de conservar documentos raros y frágiles, horarios, formularios múltiples para rellenar, plazos de comunicación largos, penuria de personal.

Gracias a la biblioteca digital, la biblioteca tradicional por fin puede reconciliar dos objetivos que hasta ahora no eran compatibles, a saber la conservación de los documentos y la comunicación de los mismos. De esta manera nadie saca el documento del estante más que en una sola ocasión: para escanearlo, y además el público por fin puede acceder a su contenido. Si el lector desea aún consultar el documento original, quedará libre de hacerlo, pero sabrá de antemano si el contenido le interesa o no, gracias al "hojeo" previo en pantalla.

Según la British Library, pionera en este campo, la biblioteca digital puede definirse como una entidad que emana del uso de las tecnologías digitales para adquirir, almacenar, preservar y difundir documentos. O bien se publican estos documentos directamente bajo forma digital, o bien se digitalizan a partir de un documento impreso, audiovisual o generado a partir de otro soporte. Se considera que una colección digital constituye una biblioteca digital cuando cumpla con los cuatro criterios siguientes: 1) puede ser creada y/o producida en distintos lugares, pero se accede a ella en calidad de entidad única; 2) debe estar organizada e indexada de tal manera que el acceso al servidor resulte lo más fácil posible; 3) se debe almacenar y administrar de manera que pueda perdurar bastante tiempo tras su creación; 4) debe encontrar un equilibrio entre el respeto de los derechos de autor y las exigencias universitarias.

Hospedada por la Universidad Carnegie Mellon (Estados Unidos), la Universal Library realza las tres ventajas de la biblioteca digital: 1) ocupa menos espacio que una biblioteca tradicional y su contenido puede ser copiado o guardado electrónicamente; 2) cualquier persona puede acceder inmediatamente a su contenido en el internet; 3) el hecho de que cualquier búsqueda de contenido esté automatizada permite a la vez reducir significativamente los costes de funcionamiento e incrementar la accesibilidad de los documentos.

A título histórico, el sitio web Library 2000 presenta un compendio de las investigaciones realizadas entre octubre de 1995 y octubre de 1997 por el MIT/LCS (Massachusetts Institute of Technology / Laboratory of Computer Science). Library 2000 es un proyecto pragmático, que se propone estudiar durante dos años los problemas planteados por el almacenamiento en línea de una inmensa cantidad de documentos. Desarrolla un prototipo que podría ser económicamente viable en el año 2000. Gracias a este prototipo se ponen en línea varias bibliotecas digitales de grandes dimensiones a partir de noviembre de 1997.

Para las imágenes, los problemas con el ancho de banda van desapareciendo. Primero las bibliotecas optaron a menudo por imágenes de página entera, muy agradables visualmente, pero que tardaban demasiado en aparecer en pantalla. Deciden entonces presentar imágenes en formato reducido, con posibilidad de hacer clic en ellas para obtener un formato más grande. Esta presentación es la que se ha establecido luego como norma, incluso después de que se generalizara el internet de banda ancha. Ahora el paso de un formato pequeño a un formato grande resulta muy rápido – o incluso inmediato –, a gran satisfacción de los iconógrafos, de los fotógrafos y demás consumidores de imágenes.

= Digitalización: modo texto o modo gráfico

No sé puede hablar de biblioteca digital sin hablar de digitalización. Para que un libro pueda ser consultado en pantalla, primero hace falta digitalizarlo, en modo texto o en modo imagen.

La digitalización en modo texto implica la necesidad de dactilografiar el texto. Consiste en digitar el libro con paciencia en el teclado, página a página. Ésta era la solución que se solía adoptar al constituirse las primeras bibliotecas digitales, o bien cuando los documentos originales carecían de claridad, por ejemplo en el caso de los libros antiguos. Han pasado varios años, y para digitalizar en modo texto ya casi basta con escanear el libro en modo imagen, y luego en convertirlo en texto gracias a un software OCR (optical character recognition). Se supone que un buen software OCR tiene una fiabilidad de un 90%, luego basta con una relectura en pantalla para corregir el texto.

En este caso, la versión informática del libro no conserva el diseño original de este libro, ni tampoco el de la página. El libro se convierte en texto, es decir en un conjunto de caracteres que aparecen de continuo en la pantalla. A causa de la cantidad de tiempo que se necesita para procesar cada libro, este modo de digitalización resulta bastante largo, y por lo tanto es más costoso que la digitalización en modo imagen. A pesar de todo, es muy preferible el modo texto, ya que permite la indexación, la búsqueda y el análisis textual, así como estudios comparativos entre varios textos o varias versiones del mismo texto. Éste es el método utilizado por ejemplo por el Proyecto Gutenberg, fundado en 1971, y también por la Biblioteca electrónica de Lisieux (Normandía, Francia), creada en 1996.

Digitalizar en modo imagen equivale a fotografiar el libro página a página. La versión informática no es sino un facsímil digital de la versión impresa. Como se conserva la presentación original, luego es posible "hojear" el texto en pantalla, página a página. Éste es el método empleado para digitalizaciones a gran escala, por ejemplo para la biblioteca digital Gallica de la Biblioteca nacional de Francia (BnF). Sin embargo, para la tabla de contenidos, los sumarios y los corpus de documentos iconográficos se utiliza la digitalización en modo texto, a fin de facilitar la búsqueda textual.

¿Por qué no se digitaliza todo en modo texto? La BnF contesta esta pregunta en 2000 en el sitio web de Gallica: "El modo imagen permite conservar el aspecto inicial del documento original, e incluso los elementos no textuales. En cuanto al modo texto, permite efectuar búsquedas más amplias y precisas en un documento, y reducir substancialmente el volumen de los archivos tratados, pero supone un coste de procesamiento más o menos diez veces superior al de una simple digitalización en modo imagen, bien se trate de teclear el texto o de utilizar un software OCR. Se pueden utilizar estas técnicas si el volumen es limitado, pero no podría justificarse a nivel económico tratándose de los 50.000 documentos (o sea casi 15 millones de páginas) que se han puesto en línea."

Pierre Schweitzer, el diseñador del software Mot@mot – que sirve para reorganizar el diseño de los facsímiles digitales – insiste sobre la utilidad de ambos modos de digitalización. "El modo imagen permite digitalizar deprisa y con costes muy reducidos, explica en enero de 2001. Esto es importante porque la tarea de digitalización del domino público es inmensa. Hay que tomar en cuenta también las diferentes ediciones: si se digitaliza el patrimonio, es para facilitar el acceso a las obras. Por lo tanto sería paradójico focalizarse en una sola edición, dejando de lado el acceso a las otras ediciones. Cada uno de los dos modos de digitalización conviene a un tipo de documentos, antiguo/frágil o reciente, libre o no de derechos (para el autor o para la edición), parca o abundantemente ilustrado. Los dos métodos también tienen estatutos bastante distintos: en modo texto puede tratarse de la nueva edición de una obra, mientras que en modo imagen se trata más bien de una 'edición de otra edición'. En la práctica, la elección depende del tipo de fondo que se quiere digitalizar, del presupuesto disponible y de los objetivos que hay que alcanzar. Sería difícil prescindir de una de las dos técnicas."

# Gallica

Gallica, la biblioteca digital de la Biblioteca nacional de Francia (BnF: Bibliothèque nationale de France), se inauguró en octubre de 1997 con la digitalización de imágenes y textos del siglo XIX francófono, "el siglo de la edición y de la prensa moderna, el siglo de la novela y también el de las grandes síntesis históricas y filosóficas, un siglo científico y técnico".

Al principio del proyecto, el servidor almacenaba por una parte 2.500 libros digitalizados en modo imagen, y por otra los 250 libros en modo texto de la base Frantext del Instituto nacional de la lengua francesa (INaLF: Institut national de la langue française). Clasificados por disciplina, estos libros se acompañan de una cronología del siglo XIX y de algunas síntesis sobre las grandes corrientes en historia, ciencias políticas, derecho, economía, literatura, filosofía, ciencias e historia de las ciencias.

El sitio web propone también una muestra de la futura iconoteca digital, es decir el fondo del fotógrafo Eugène Atget, una selección de documentos sobre el escritor Pierre Loti, una colección de imágenes de la Escuela nacional de ingeniería civil (Ecole nationale des Ponts et Chaussées) que representan las grandes obras vinculadas con la revolución industrial en Francia, y por último una selección de libros ilustrados sacados de la Biblioteca del Museo del Hombre (Musée de l’Homme) de París, un museo de antropología.

A finales de 1997, Gallica se considera más un "laboratorio que se propone evaluar las condiciones de acceso y de consulta a distancia de los documentos digitales" que un simple banco de datos digitalizados. El objetivo es experimentar la navegación en estas colecciones, permitiendo a cualquier usuario saciar su curiosidad libremente, o realizar búsquedas textuales especializadas.

A inicios de 1998, Gallica anuncia 100.000 volúmenes y 300.000 imágenes para finales de 1999, y una amplificación rápida de las colecciones a continuación. De los 100.000 volúmenes previstos – o sea un total de 30 millones de páginas digitalizadas – más de un tercio concierne el siglo XIX. En cuanto a las 300.000 imágenes fijas, la mitad pertenece a departamentos especializados de la BnF (Estampas y fotografía, Manuscritos, Artes del espectáculo, Monedas y medallas, etc.). La otra mitad proviene de las colecciones de establecimientos públicos - varios museos y bibliotecas, la Documentation française (una editorial pública), la Escuela nacional de ingeniería civil (Ecole nationale des Ponts et Chaussées), el Instituto Pasteur, el Observatorio de París, etc. - y de establecimientos privados - agencias de prensa entre las cuales Magnum, Agence France-Presse, Sygma, Rapho, etc.

En mayo de 1998, la BnF revisa a la baja sus expectativas para Gallica y modifica un poco sus primeras orientaciones. Jérôme Strazzulla, periodista del diario Le Figaro, explica en la edición del 3 de junio de 1998 que la BnF "ha pasado de un proyecto universalista y enciclopédico, a la necesidad de elegir orientaciones precisas". En el mismo artículo, el presidente de la BnF, Jean-Pierre Angremy, comunica la decisión del comité editorial de Gallica: "Hemos decidido abandonar la idea de un vasto corpus enciclopédico de cien mil libros, al que siempre se le podría reprochar algunas omisiones. Ahora nos orientamos hacia corpus temáticos, lo más completos posible, pero más restringidos. (…) Lo que buscamos es satisfacer en prioridad las solicitudes de los investigadores y lectores."

El primer corpus, cuya puesta en línea está prevista para el año 2000, tendrá que ver con el tema de los viajes por Francia. Reunirá textos, estampas y fotografías del siglo XVI hasta 1920. A continuación, los corpus se organizarán en torno a los temas siguientes: París, los viajes a África desde los orígenes hasta 1920, las utopías, y las memorias de las Academias de ciencias de ciudades francesas.

En 2003, Gallica reúne 70.000 obras y 80.000 imágenes que cubren desde la Edad Media hasta el principio del siglo XX, incluyendo sólo documentos libres de derechos. Sin embargo, muchos usuarios opinan que los archivos son muy pesados ya que los libros se han digitalizado en modo imagen, y resulta muy largo acceder a su contenido. Otro problema importante es que la digitalización en modo imagen no permite realizar búsquedas textuales, a pesar de que Gallica sea la biblioteca digital francófona más amplia de la red en cuanto a la cantidad de títulos disponibles en línea. Sólo una pequeña colección de libros (1.117 libros en febrero de 2004) se ha digitalizado en modo texto, los de la base Frantext.

En febrero de 2005, Gallica cuenta con 76.000 obras. En la misma fecha, la BnF anuncia que pronto se pondrá en línea (entre 2006 y 2009) la prensa francesa publicada entre 1826 y 1944, o sea 22 títulos, con un total de 3,5 millones de páginas. A principios de 2006, los primeros periódicos disponibles en línea son los diarios Le Figaro (fundado en 1826), La Croix (fundada en 1883), L'Humanité (fundada en 1904) y Le Temps (fundado en 1861 y desaparecido en 1942).

En diciembre de 2006, las colecciones abarcan 90.000 obras digitalizadas (incluso fascículos de prensa), 80.000 imágenes y decenas de horas de recursos sonoros. Gallica empieza la conversión en modo texto de los libros - que primero habían sido digitalizados en modo imagen - con el fin de facilitar el acceso a su contenido así como su indexación en los buscadores.

En noviembre de 2007, Gallica anuncia que se han de digitalizar 300.000 obras adicionales de aquí a 2010. Éstas estarán accesibles en su nuevo sitio web Gallica2, en modo imagen y en modo texto a la vez, lo que en total representa 45 millones de páginas.