Début 1998, Gallica annonce 100.000 volumes et 300.000 images pour la fin 1999, avec un accroissement rapide des collections ensuite. Sur les 100.000 volumes prévus, qui représenteraient 30 millions de pages numérisées, plus du tiers concernerait le 19e siècle. Quant aux 300.000 images fixes, la moitié viendrait des départements spécialisés de la BnF (Estampes et photographie, Manuscrits, Arts du spectacle, Monnaies et médailles, etc.), et l'autre moitié de collections d’établissements publics (musées et bibliothèques, Documentation française, École nationale des ponts et chaussées, Institut Pasteur, Observatoire de Paris, etc.) ou privés (agences de presse dont Magnum, l’Agence France- Presse, Sygma, Rapho, etc.).
En mai 1998, la BnF revoit ses espérances à la baisse et modifie quelque peu ses orientations premières. Jérôme Strazzulla, journaliste au quotidien Le Figaro, explique dans un article du 3 juin 1998 que la BnF est «passée d’une espérance universaliste, encyclopédique, à la nécessité de choix éditoriaux pointus».
Dans le même article, le président de la BnF, Jean-Pierre Angremy, rapporte la décision du comité éditorial de Gallica: «Nous avons décidé d’abandonner l’idée d’un vaste corpus encyclopédique de cent mille livres, auquel on pourrait sans cesse reprocher des trous. Nous nous orientons aujourd’hui vers des corpus thématiques, aussi complets que possibles, mais plus restreints. (…) Nous cherchons à répondre, en priorité, aux demandes des chercheurs et des lecteurs.»
Le premier corpus aura trait aux voyages en France, à savoir des textes, estampes et photographies du 16e siècle à 1920, avec mise en ligne prévue en 2000. Les corpus envisagés ensuite concerneront Paris, les voyages en Afrique des origines à 1920, les utopies et enfin les mémoires des Académies des sciences de province.
# Une consultation plus aisée
Professeur à l’École pratique des hautes études (EPHE, Paris-Sorbonne) et adepte depuis toujours de la lecture sur PDA (puis sur smartphone), Marie-Joseph Pierre raconte en novembre 2002: «Cela m’a pas mal servi pour mon travail, ou pour mes activités associatives. Je fais par exemple partie d’une petite société poétique locale, et nous faisons prochainement un récital poétique. J’ai voulu rechercher des textes de Victor Hugo, que j’ai maintenant pu lire et même charger à partir du site de la Bibliothèque nationale de France: c’est vraiment extra.»
En 2003, Gallica rassemble 70.000 ouvrages et 80.000 images allant du Moyen-Âge au début du 20e siècle, tous documents libres de droits. Mais, de l’avis de nombreux usagers, les fichiers des livres sont très lourds puisqu'ils sont numérisés en mode image, et l’accès en est très long.
Chose tout aussi problématique, la numérisation en mode image n’autorise pas la recherche textuelle alors que Gallica se trouve être la plus grande bibliothèque numérique francophone en nombre de titres disponibles en ligne. La recherche textuelle est toutefois possible dans les tables des matières, les sommaires et les légendes des corpus iconographiques, qui sont numérisés en mode texte. Mais seule une petite collection de livres (1.117 livres en février 2004) est intégralement numérisée en mode texte, celle de la base Frantext, intégrée à Gallica.
Tous problèmes auxquels la BnF remédie au fil des mois, avec une navigation plus aisée et la conversion progressive des livres du mode image au mode texte grâce à un logiciel OCR, avec possibilité donc de recherche textuelle.
En février 2005, Gallica compte 76.000 ouvrages. À la même date, la BnF annonce la mise en ligne prochaine (entre 2006 et 2009) de la presse française parue entre 1826 et 1944, à savoir 22 titres représentant 3,5 millions de pages.