= Payant versus gratuit

Bases de données payantes à destination des organismes et des particuliers qui en ont les moyens, ou bases de données gratuites à la disposition de tous? Au début des années 2000, les outils dont on dispose pour créer et gérer des bases textuelles à moindres frais permettent de pencher vers la deuxième solution, tout au moins lorsqu’il existe une véritable volonté dans ce sens.

Emilie Devriendt, élève professeur à l’Ecole normale supérieure (ENS) de Paris, écrit en juin 2001: «L’avenir me semble prometteur en matière de publications de ressources en ligne, même si, en France tout au moins, bon nombre de résistances, inhérentes aux systèmes universitaire et éditorial, ne risquent pas de céder du jour au lendemain (dans dix, vingt ans, peut-être ?). Ce qui me donne confiance, malgré tout, c’est la conviction de la nécessité pratique d’internet. J’ai du mal à croire qu’à terme, un chercheur puisse se passer de cette gigantesque bibliothèque, de ce formidable outil. Ce qui ne veut pas dire que les nouvelles pratiques de recherche liées à internet ne doivent pas être réfléchies, mesurées à l’aune de méthodologies plus traditionnelles, bien au contraire. Il y a une histoire de l’"outillage", du travail intellectuel, où internet devrait avoir sa place.»

Professeur au département d’études françaises de l’Université de Toronto, Russon Wooldridge est le créateur de ressources littéraires librement accessibles en ligne. En 2001, sa tâche se trouve facilitée par TACTweb (TACT: text analysis computing tools). Développé par John Bradley, informaticien au King’s College London (Royaume-Uni), et par Geoffrey Rockwell, professeur à la McMaster University (Canada), TACTweb est un logiciel de recherche de données textuelles en ligne. En mai 2001, Russon Wooldridge explique: «La dernière version de TACTweb permet dorénavant de construire des bases interactives importantes comme les dictionnaires de la Renaissance (Estienne et Nicot ; base RenDico), les deux principales éditions du Dictionnaire de l’Académie française (1694 et 1835), les collections de la Bibliothèque électronique de Lisieux (base LexoTor), les oeuvres complètes de Maupassant, ou encore les théâtres complets de Corneille, Molière, Racine, Marivaux et Beaumarchais (base théâtre 17e-18e). À la différence de grosses bases comme Frantext ou ARTFL nécessitant l’intervention d’informaticiens professionnels, d’équipes de gestion et de logiciels coûteux, TACTweb, qui est un gratuiciel que l’on peut décharger en ligne et installer soi-même, peut être géré par le chercheur individuel créateur de ressources textuelles en ligne.»

Autre exemple, le projet HyperNietzsche, lancé en 2000 sous la direction de Paolo d’Iorio, chargé de recherches à l’Institut des textes et manuscrits modernes (ITEM) du CNRS. Ce projet expérimental «vise à créer une infrastructure de travail collectif en réseau, lit-on sur le site web. Cette infrastructure sera d’abord appliquée et testée sur l’oeuvre de Nietzsche, pour être ensuite généralisable à d’autres auteurs, à l’étude d’une période historique ou d’un fonds d’archive, ou à l’analyse d’un problème philosophique. Il ne s’agit donc pas seulement d’un projet de numérisation et de mise en réseau d’un ensemble de textes et d’études sur Nietzsche, ni d’une édition électronique conçue comme un produit confectionné et offert à la consultation, mais plutôt d’un instrument de travail permettant à une communauté savante délocalisée de travailler de façon coopérative et cumulative et de publier les résultats de son travail en réseau, à l’échelle de la planète. Il ne s’agit pas seulement d’une bibliothèque de textes électroniques en ligne, plus ou moins bien indexée, accompagnée d’un moteur de recherche par mots-clés ou en texte intégral. C’est un véritable système hypertextuel qui permet tout d’abord de disposer les textes et les manuscrits de Nietzsche selon des ordonnancements chronologiques, génétiques ou thématiques, et surtout d’activer un ensemble de liens hypertextuels qui relient les sources primaires aux essais critiques produits par les chercheurs.» Le texte intégral consacré à la présentation du projet est disponible pendant deux ans en accès libre sur le site des PUF (Presses universitaires de France). Son équivalent imprimé est publié en octobre 2000 dans la série «Ecritures électroniques» de la collection «Que sais-je?».

En février 2003, Emilie Devriendt fait à nouveau le point: «Dans ce domaine que l’on appelle parfois l’informatique littéraire, deux aspects du texte électronique m’intéressent plus particulièrement, dans une perspective d’enseignement ou de recherche: la publication de ressources textuelles, par exemple littéraires, sur le web au format texte ou au format image (exemple: Gallica ou la Bibliothèque électronique de Lisieux); la publication de bases de données textuelles interactives, c’est à dire d’outils de recherche et d’analyse linguistique appliqués à des textes électroniques donnés (exemple: la Nefbase du Net des études françaises ou, si l’on veut citer une banque de données payante, Frantext). Aujourd’hui ce type de ressources est relativement bien développé (même si aucune "explosion" ne semble avoir eu lieu si l’on compare la situation actuelle à celle d’il y a deux ou trois ans). En revanche, on ne peut véritablement mesurer les usages qui en sont faits.»

8.3. Catalogues collectifs

= Premiers pas

Par le passé, on a pu reprocher aux catalogues de bibliothèques d’être austères, peu conviviaux, et surtout de donner les références du document mais en aucun cas l’accès au contenu. Depuis qu’ils sont disponibles sur l’internet, les catalogues sont moins austères et plus conviviaux. Et surtout - rêve de tous qui commence à devenir réalité - ils permettent l’accès aux documents eux-mêmes : textes et images dans un premier temps, extraits sonores et vidéos dans un deuxième temps. En 1998, les 2.500 oeuvres de l’Universal Library sont accessibles par le biais d’un système expérimental (ESS: experimental search system) intégré ensuite au catalogue en ligne de la Library of Congress.

L’avenir des catalogues en réseau tient à l’harmonisation du format MARC (machine readable cataloguing) par le biais de l’UNIMARC (universal machine readable cataloguing). Créé en 1977 par l’IFLA (International Federation of Library Associations), le format UNIMARC est un format universel permettant le stockage et l’échange de notices bibliographiques au moyen d’une codification des différentes parties de la notice (auteur, titre, éditeur, etc.) pour traitement informatique. Ce format favorise les échanges de données entre la vingtaine de formats MARC existants, qui correspondent chacun à une pratique nationale de catalogage (INTERMARC en France, UKMARC au Royaume-Uni, USMARC aux Etats-Unis, CAN/MARC au Canada, etc.). Les notices dans le format MARC d’origine sont d’abord converties au format UNIMARC avant d’être converties à nouveau dans le format MARC de destination. UNIMARC peut aussi être utilisé comme standard pour le développement de nouveaux formats MARC.