Si bien algunas bibliotecas digitales nacen directamente en la web, la mayoría emana de bibliotecas tradicionales.
# El modo texto o el modo imagen
No se puede hablar de biblioteca digital sin hablar de digitalización. Para que un libro pueda ser consultado en pantalla, primero hace falta digitalizarlo, en modo texto o en modo imagen.
La digitalización en modo texto implica la necesidad de dactilografiar el texto. Consiste en digitar el libro con paciencia, en el teclado, página a página. Ésta era la solución que se solía adoptar al constituirse las primeras bibliotecas digitales, o bien cuando los documentos originales carecían de claridad, por ejemplo en el caso de los libros antiguos. Han pasado varios años, y para digitalizar en modo texto ya casi basta con escanear el libro en modo imagen, y luego en convertirlo en texto gracias a un software OCR (Optical Character Recognition). Se supone que un buen software OCR tiene una fiabilidad de un 99%, luego basta con una relectura en pantalla para corregir el texto.
En este caso, la versión informática del libro no conserva el diseño original de este libro, ni tampoco el de la página. El libro se convierte en texto, es decir en un conjunto de caracteres que aparecen con continuidad en la pantalla. A causa de la cantidad de tiempo que se necesita para procesar cada libro, este modo de digitalización resulta bastante largo, y por lo tanto es más costoso que la digitalización en modo imagen. A pesar de todo, es muy preferible el modo texto, ya que permite la indexación, la búsqueda y el análisis textual, así como los estudios comparativos entre varios textos o varias versiones del mismo texto. Éste es el método utilizado por ejemplo por el Proyecto Gutenberg, fundado en 1971.
Digitalizar en modo imagen equivale a fotografiar el libro página a página. La versión informática no es sino un facsímile digital de la versión impresa. Como se conserva la presentación original, luego es posible "hojear" el texto en pantalla, página a página. Éste es el método empleado para digitalizaciones a gran escala, por ejemplo para la biblioteca digital Gallica de la Biblioteca nacional de Francia (BnF: Bibliothèque nationale de France). Sin embargo, para el índice, los sumarios y los corpus de documentos iconográficos, se utiliza la digitalización en modo texto, a fin de facilitar la búsqueda textual.
¿Por qué no se digitaliza todo en modo texto? La BnF contesta a esta pregunta en 2000 en el sitio web de Gallica: "El modo imagen permite conservar el aspecto inicial del documento original, e incluso los elementos no textuales. En cuanto al modo texto, permite efectuar búsquedas más amplias y precisas en un documento, y reducir substancialmente el volumen de los archivos tratados, pero supone un coste de procesamiento más o menos diez veces superior al de una simple digitalización en modo imagen, ya se trate de teclear el texto o de utilizar un software OCR. Se pueden utilizar estas técnicas si el volumen es limitado, pero no podría justificarse a nivel económico tratándose de los 50.000 documentos (o sea casi 15 millones de páginas) que se han puesto en línea."
Pierre Schweitzer, el diseñador del software Mot@mot que sirve para reorganizar el diseño de los facsímiles digitales insiste sobre la utilidad de ambos modos de digitalización. "El modo imagen permite digitalizar deprisa y con costes muy reducidos", explica en enero de 2001. "Esto es importante porque la tarea de digitalización del domino público es inmensa. Hay que tomar en cuenta también las diferentes ediciones: si se digitaliza el patrimonio, es para facilitar el acceso a las obras. Por lo tanto, sería paradójico focalizarse en una sola edición, dejando de lado el acceso a las otras ediciones. Cada uno de los dos modos de digitalización conviene a un tipo de documentos, antiguo/frágil o reciente, libre o no de derechos (para el autor o para la edición), parca o abundantemente ilustrado. Los dos métodos también tienen estatutos bastante distintos: en modo texto puede tratarse de la nueva edición de una obra, mientras que en modo imagen se trata más bien de una 'edición de otra edición'. En la práctica, la elección depende del tipo de fondo que se quiere digitalizar, del presupuesto disponible y de los objetivos que hay que alcanzar. Sería difícil prescindir de una de las dos técnicas."
= Un ejemplo: Gallica
Gallica, la biblioteca digital de la Biblioteca nacional de Francia (BnF: Bibliothèque nationale de France), se inauguró en octubre de 1997 con la digitalización de imágenes y textos del siglo 19 francófono, "el siglo de la edición y de la prensa moderna, el siglo de la novela y también el de las grandes síntesis históricas y filosóficas, un siglo científico y técnico".