= Quelques exemples
Le web favorise la création et la consultation de bases textuelles. Le laboratoire ATILF (Analyse et traitement informatique de la langue française) gère plusieurs bases textuelles payantes, par exemple Frantext, un corpus à dominante littéraire de textes français (16e-20e), ou encore l’Encyclopédie de Diderot, réalisée en collaboration avec le programme ARTFL (American and French Research on the Treasury of the French Language) de l’Université de Chicago. En accès libre, la section «Dictionnaires» de l’ATILF est une collection de dictionnaires informatisés comprenant les dictionnaires de Robert Estienne (1552), Jean Nicot (1606) et Pierre Bayle (1740), plusieurs éditions des dictionnaires de l’Académie française (1694, 1798, 1835, 1932-1935, 1992) et enfin le Trésor de la langue française informatisé (TLFi, 1971-1994).
Débutée en 1995 par l’Institut national de la langue française (INaLF, remplacé par le laboratoire ATILF en janvier 2001), la base Frantext, en accès payant, comprend en janvier 1998 180 millions de mots-occurrences résultant du traitement informatique de 3.500 unités textuelles en arts, sciences et techniques, une collection représentative couvrant cinq siècles (16e-20e). 82 centres de recherche et bibliothèques universitaires d'Europe, d'Australie, du Japon et du Canada y sont abonnés, ce qui représente 1.250 postes de travail, avec une cinquantaine d’interrogations de la base par jour.
L’ARTFL est un projet commun du CNRS (Centre national de la recherche scientifique, France) et de l’Université de Chicago (Illinois, Etats-Unis). L’ARTFL propose notamment une version en ligne exhaustive de la première édition (1751-1772) de l’Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts de Diderot et d’Alembert. 72.000 articles rédigés par plus de 140 collaborateurs (dont Voltaire, Rousseau, Marmontel, d’Holbach, Turgot, etc.) font de cette encyclopédie un monumental ouvrage de référence, avec 17 volumes de texte, 11 volumes de planches, 18.000 pages et 20,8 millions de mots. Destinée à rassembler puis divulguer les connaissances de l’époque, elle porte la marque des courants intellectuels et sociaux du Siècle des Lumières, dont elle aide à propager les idées.
En 1998, la base de données correspondant au premier volume est accessible sur le web en démonstration libre, à titre expérimental. La recherche est possible par mot, portion de texte, auteur ou catégorie, ou en combinant ces critères entre eux. On dispose de renvois d’un article à l’autre, et de liens permettant d’aller d’une planche au texte, ou d’aller du texte au fac-similé des pages originales. Il reste encore à corriger les erreurs typographiques et les erreurs d’identification dues à l’automatisation complète des procédures de saisie. Il reste aussi à compléter la recherche textuelle par la recherche d’images, envisagée par mot, portion de texte (légende) et catégorie. C'est chose faite dans les années qui suivent.
L’ARTFL propose également les versions en ligne du Dictionnaire de l’Académie française (1694-1935), de l’édition illustrée du Dictionnaire historique et critique de Philippe Bayle (1740), du Thresor de la langue française de Jean Nicot (1606), etc.
Autre exemple, très différent, et dû cette fois à une initiative individuelle: le site Rubriques à Bac. Créé en 1998 par Gérard Fourestier, diplômé en science politique et professeur de français à Nice, le site regroupe des bases de données à destination des lycéens et des étudiants. ELLIT (Eléments de littérature) propose des centaines d’articles sur la littérature française du 12e siècle à nos jours, ainsi qu’un répertoire d’auteurs. RELINTER (Relations internationales) recense 2.000 liens sur le monde contemporain depuis 1945. Ces deux bases de données sont accessibles par souscription, avec version de démonstration en accès libre. Lancé en juin 2001 dans le prolongement d’ELLIT, la base de données Bac-L (baccalauréat section lettres) est en accès libre.
En octobre 2000, Gérard Fourestier raconte: «Rubriques à Bac a été créé pour répondre au besoin de trouver sur le net, en un lieu unique, l’essentiel, suffisamment détaillé et abordable par le grand public, dans le but: a) de se forger avant tout une culture tout en préparant à des examens probatoires à des études de lettres - c’est la raison d’ELLIT (Eléments de littérature), base de données en littérature française; b) de comprendre le monde dans lequel nous vivons en en connaissant les tenants et les aboutissants, d’où RELINTER (Relations internationales). J’ai développé ces deux matières car elles correspondent à des études que j’ai, entre autres, faites en leur temps, et parce qu’il se trouve que, depuis une dizaine d’années, j’exerce des fonctions de professeur dans l’enseignement public (18 établissements de la 6e aux terminales de toutes sections et de tous types d’établissements). (…)
Mon activité liée à internet consiste tout d’abord à en sélectionner les outils, puis à savoir les manier pour la mise en ligne de mes travaux et, comme tout a un coût et doit avoir une certaine rentabilité, organiser le commercial qui permette de dégager les recettes indispensables ; sans parler du butinage indispensable pour la recherche d’informations qui seront ensuite traitées. (…) Mon initiative à propos d’internet n’est pas directement liée à mes fonctions de professeur. J’ai simplement voulu répondre à un besoin plus général et non pas étroitement scolaire, voire universitaire. Débarrassé des contraintes du programme, puisque j’agis en mon nom et pour mon compte et non "es-qualité", mais tout en donnant la matière grise qui me paraît indispensable pour mieux faire une tête qu’à la bien remplir, je laisse à d’autres le soin de ne préparer qu’à l’examen.»
Les recettes de Rubriques à Bac sont consacrées à la réalisation de projets éducatifs en Afrique. Par la suite, Gérard Fourestier aimerait développer des bases de données dans d’autres domaines, par exemple l’analyse sociétale, l’analyse sémantique ou l’écologie.