8. UNE VASTE ENCYCLOPEDIE

[8.1. Outils de référence / Dictionnaires et encyclopédies / Dictionnaires de langues / Annuaires et portails // 8.2. Bases textuelles / Quelques exemples / Payant versus gratuit // 8.3. Catalogues collectifs / Premiers pas / WorldCat et RedLightGreen // 8.4. Chronologie]

Au fil des ans, le web devient une vaste encyclopédie. On y trouve des dictionnaires et des encyclopédies de renom, d'abord issus d’ouvrages imprimés puis nés directement sur le web, ainsi que des dictionnaires de langues, des annuaires, des portails, des bases textuelles, des catalogues collectifs, etc. Si certains organismes facturent l’utilisation de leurs services, d’autres tiennent à ce que les leurs soient en accès libre, pour favoriser la diffusion libre du savoir. Des services payants passent en gratuit, à commencer par le grand catalogue collectif mondial WorldCat.

8.1. Outils de référence

= Dictionnaires et encyclopédies

Un des premiers dictionnaires en accès libre est le Dictionnaire universel francophone en ligne, qui répertorie 45.000 mots et 116.000 définitions tout en présentant «sur un pied d’égalité, le français dit "standard" et les mots et expressions en français tel qu’on le parle sur les cinq continents». Issu de la collaboration entre Hachette et l’AUPELF-UREF (devenu depuis l’AUF - Agence universitaire de la Francophonie), il correspond à la partie «noms communs» du dictionnaire imprimé disponible chez Hachette. L’équivalent pour la langue anglaise est le site Merriam-Webster OnLine, qui donne librement accès au Collegiate Dictionary et au Collegiate Thesaurus.

En décembre 1999 apparaissent sur le web plusieurs encyclopédies de renom, parallèlement à leur version imprimée ou CD-Rom. La première encyclopédie francophone en accès libre est WebEncyclo, publiée par les éditions Atlas. La recherche est possible par mots-clés, thèmes, médias (cartes, liens internet, photos, illustrations) et idées. Un appel à contribution incite les spécialistes d’un sujet donné à envoyer des articles, qui sont regroupés dans la section «WebEncyclo contributif». Après avoir été libre, l’accès est ensuite soumis à une inscription préalable gratuite.

Mis en ligne à la même date, Britannica.com propose en accès libre l’équivalent numérique des 32 volumes de la 15e édition de l’Encyclopaedia Britannica, parallèlement à la version imprimée et à la version sur CD-Rom, toutes deux payantes. Le site web offre une sélection d’articles issus de 70 magazines, un guide des meilleurs sites, un choix de livres, etc., le tout étant accessible à partir d’un moteur de recherche unique. En septembre 2000, le site fait partie des cent sites les plus visités au monde. En juillet 2001, la consultation devient payante sur la base d’un abonnement mensuel ou annuel.

Décembre 1999 est aussi la date de mise en ligne de l’Encyclopaedia Universalis, avec 28.000 articles signés par 4.000 auteurs. Si la consultation est payante sur la base d’un abonnement annuel, de nombreux articles sont en accès libre.

La mise en ligne d’encyclopédies de renom se poursuit en 2000 et 2001.

En mars 2000, les 20 volumes de l’Oxford English Dictionary sont mis en ligne par l’Oxford University Press (OUP). La consultation du site est payante. Le dictionnaire bénéficie d’une mise à jour trimestrielle d’environ 1.000 entrées nouvelles ou révisées. Deux ans après cette première expérience, en mars 2002, l’OUP met en ligne l’Oxford Reference Online, une vaste encyclopédie conçue directement pour le web et consultable elle aussi sur abonnement payant. Avec 60.000 pages et un million d’entrées, elle représente l’équivalent d’une centaine d’ouvrages de référence.

A la même date, le Quid, encyclopédie en un volume actualisée une fois par an depuis 1963, décide de mettre une partie de son contenu en accès libre sur le web. En septembre 2000, après avoir été payante, la consultation de l’encyclopédie Encarta de Microsoft devient libre.

Issu du terme hawaïen «wiki» (qui signifie : vite, rapide), un wiki est un site web permettant à plusieurs utilisateurs de collaborer en ligne sur un même projet. A tout moment, ces utilisateurs peuvent contribuer à la rédaction du contenu, modifier ce contenu et l'enrichir en permanence. Le wiki est utilisé par exemple pour créer et gérer des dictionnaires, des encyclopédies ou encore des sites d'information sur un sujet donné. Le programme présent derrière l'interface d'un wiki est plus ou moins élaboré. Un programme simple gère du texte et des hyperliens. Un programme élaboré permet d'inclure des images, des graphiques, des tableaux, etc. L’encyclopédie wiki la plus connue est Wikipedia.

Créée en janvier 2001 à l’initiative de Jimmy Wales et de Larry Sanger, Wikipedia est une encyclopédie gratuite écrite collectivement et dont le contenu est librement réutilisable. Elle est immédiatement très populaire. Sans publicité et financée par des dons, cette encyclopédie coopérative est rédigée par des milliers de volontaires (appelés Wikipédiens), avec possibilité de corriger et de compléter les articles. Les articles restent la propriété de leurs auteurs, et leur libre utilisation est régie par la licence GFDL (GNU free documentation license). En décembre 2004, Wikipedia compte 1,3 million d'articles rédigés par 13.000 contributeurs dans 100 langues. En décembre 2006, elle compte 6 millions d'articles dans 250 langues, et elle est l'un de dix sites les plus visités du web. En avril 2007, un CD payant est édité pour la première fois avec une sélection de 2.000 articles de la version anglophone. En mai 2007, la version francophone fête ses 500.000 articles (et un CD en 2008). A la même date, Wikipedia compte 7 millions d'articles dans 192 langues, dont 1,8 million en anglais, 589.000 en allemand, 260.000 en portugais et 236.000 en espagnol.

Fondée en juin 2003, la Wikimedia Foundation gère non seulement Wikipedia mais aussi Wiktionary, un dictionnaire et thésaurus multilingue lancé en décembre 2002, puis Wikibooks (livres et manuels en cours de rédaction) lancé en juin 2003, auxquels s'ajoutent ensuite Wikiquote (répertoire de citations), Wikisource (textes appartenant au domaine public), Wikimedia Commons (sources multimédias), Wikispecies (répertoire d'espèces animales et végétales), Wikinews (site d'actualités) et enfin Wikiversity (matériel d'enseignement), lancé en août 2006. La fin 2007 voit le lancement d'un moteur de recherche dénommé Wiki Search, qui utilise le réseau de contributeurs de Wikipedia pour classer les sites en fonction de leur qualité.

Une nouvelle étape s’ouvre avec les débuts de Citizendium (qui se veut l’abrégé de: The Citizens’ Compendium), une grande encyclopédie collaborative en ligne conçue en novembre 2006 et lancée en mars 2007 (version bêta) par Larry Sanger, co-fondateur de Wikipedia, mais qui quitte ensuite l’équipe de Wikipedia suite à des problèmes de qualité de contenu. Citizendium est basé sur le même modèle que Wikipedia (collaborative et gratuite) tout en évitant ses travers (vandalisme et manque de rigueur). Les auteurs signent les articles de leur vrai nom et les articles sont édités par des experts («editors») titulaires d'une licence universitaire et âgés d'au moins 25 ans. De plus, des «constables» sont chargés de la bonne marche du projet et du respect du règlement. Le jour de son lancement (25 mars 2007), Citizendium comprend 820 auteurs et 180 experts.

Dans Why Make Room for Experts in Web 2.0?, une communication datée d’octobre 2006, Larry Sanger voit dans Citizendium l’émergence d’un nouveau modèle de collaboration massive de dizaines de milliers d’intellectuels et scientifiques, non seulement pour les encyclopédies, mais aussi pour les manuels d’enseignement, les ouvrages de référence, le multimédia et les applications en 3D. Cette collaboration est basée sur le partage des connaissances, dans la lignée du web 2.0, un concept lancé en 2004 pour caractériser les notions de communauté et de partage et qui se manifeste d’abord par une floraison de wikis, de blogs et de sites sociaux. D’après Larry Sanger, il importe maintenant de créer des structures permettant des collaborations scientifiques et Citizendium pourrait servir de prototype dans ce domaine.

Un appel qui semble déjà se concrétiser avec l’Encyclopedia of Life, nouveau «compendium» dont le projet débute en mai 2007. Cette vaste encyclopédie collaborative en ligne rassemblera les connaissances sur toutes les espèces animales et végétales connues (1,8 million), y compris les espèces en voie d’extinction, avec l’ajout de nouvelles espèces au fur et à mesure de leur identification (il en existerait de 8 à 10 millions). Il s’agira d’une encyclopédie multimédia permettant de ressembler textes, photos, cartes, bandes sonores et vidéos, avec une page web par espèce, et permettant aussi d’offrir un portail unique à des millions de documents épars, en ligne et hors ligne. Outil d’apprentissage et d’enseignement pour une meilleure connaissance de notre planète, cette encyclopédie sera à destination de tous: scientifiques, enseignants, étudiants, scolaires, médias, décideurs et grand public.

Ce projet collaboratif est mené par plusieurs grandes institutions (Field Museum of Natural History, Harvard University, Marine Biological Laboratory, Missouri Botanical Garden, Smithsonian Institution, Biodiversity Heritage Library). Son directeur honoraire est Edward Wilson, professeur émérite à l’Université de Harvard, qui, dans un essai daté de 2002, est le premier à émettre le voeu d’une telle encyclopédie. Cinq ans après, en 2007, c'est chose désormais possible grâce aux avancées technologiques de ces dernières années, notamment les outils logiciels permettant l’agrégation de contenu, le mash-up (à savoir le fait de rassembler un contenu donné à partir de très nombreuses sources différentes), les wikis de grande taille et la gestion de contenu à vaste échelle. Consortium des dix plus grandes bibliothèques des sciences de la vie (d’autres suivront), la Biodiversity Heritage Library a d’ores et déjà débuté la numérisation de 2 millions de documents, dont les dates de publication s’étalent sur 200 ans. En mai 2007, date du lancement officiel du projet, on compte déjà 1,25 million de pages traitées dans les centres de numérisation de Londres, Boston et Washington DC, et disponibles sur le site de l’Internet Archive.

Le financement initial est assuré par la MacArthur Foundation (10 millions de dollars) et la Sloan Foundation (2,5 millions de dollars). 100 millions de dollars US sont nécessaires pour un financement sur dix ans, avant que l'encyclopédie ne puisse s'autofinancer. La réalisation des pages web débute courant 2007. L’encyclopédie fait ses débuts à la mi-2008. Opérationnelle d'ici trois à cinq ans, elle devrait être complète - c'est-à-dire à jour - dans dix ans.

Dans la lignée du Human Genome Project (Séquencage du génome humain), publié pour la première fois en février 2001 et appartenant d'emblée au domaine public, l’Encyclopedia of Life permettra non seulement de rassembler toutes les connaissances disponibles à ce jour sur les espèces animales et végétales, mais elle sera aussi un «macroscope» permettant de déceler les grandes tendances à partir d’un stock considérable d’informations, à la différence du microscope qui permet l’étude du détail. En plus de sa flexibilité et de sa diversité, elle permettra à chacun de contribuer au contenu sous une forme s’apparentant au wiki, ce contenu étant ensuite validé ou non par des scientifiques. La version initiale sera d’abord en anglais avant d’être traduite en plusieurs langues par de futurs organismes partenaires.

= Dictionnaires de langues

Des dictionnaires de langues sont en accès libre dès les débuts du web. Souvent sommaires et de qualité inégale, ils sont répertoriés dans Travlang, un site consacré aux voyages et aux langues créé en 1994 par Michael M. Martin.

Fondé en 1979 à Modène (Italie) par Rodrigo Vergara, Logos est une société de traduction offrant des services dans 35 langues en 1997, avec un réseau de 300 traducteurs dans le monde. Initiative peu courante à l’époque, Logos décide de mettre tous ses outils professionnels en accès libre sur le web. Dans un entretien publié dans le quotidien Le Monde du 7 décembre 1997, Rodrigo Vergara relate: «Nous voulions que nos traducteurs aient tous accès aux mêmes outils de traduction. Nous les avons donc mis à leur disposition sur internet, et tant qu’à faire nous avons ouvert le site au public. Cela nous a rendus très populaires, nous a fait beaucoup de publicité. L’opération a drainé vers nous de nombreux clients, mais aussi nous a permis d’étoffer notre réseau de traducteurs grâce aux contacts établis à la suite de cette initiative.»

Les outils de traduction disponibles sur le web comprennent un dictionnaire multilingue de 7,5 millions d’entrées (Logos Dictionary), une base de données de 553 glossaires (Linguistic Resources), des tables de conjugaison en 17 langues (Conjugation of Verbs), et enfin la Wordtheque, une base de données multilingue de 328 millions de termes issus de traductions de romans et de documents techniques. La recherche dans la Wordtheque est possible par langue, mot, auteur ou titre. En 2007, la Wordtheque, devenue la Logos Library, comprend 710 millions de termes. Conjugation of Verbs, devenu l’Universal Conjugator, propose des tableaux de conjugaison dans 36 langues. Linguistic Resources offre un point d’accès unique pour 1 215 glossaires.

Au début des années 2000, des dictionnaires bilingues et multilingues de qualité sont progressivement mis en ligne par des organismes de renom, par exemple la base Eurodicautom de la Commission européenne, ou encore Le Signet et le Grand dictionnaire terminologique (GDT) de l’Office québécois de la langue française (OQLF), tous trois en accès libre et gratuit.

Géré par le service de traduction de la Commission européenne, Eurodicautom est un dictionnaire multilingue de termes économiques, scientifiques, techniques et juridiques, avec une moyenne de 120.000 consultations quotidiennes. Il permet de combiner entre elles les onze langues officielles de l’Union européenne (allemand, anglais, danois, espagnol, finnois, français, grec, hollandais, italien, portugais, suédois), ainsi que le latin. Fin 2003, Eurodicautom annonce son intégration dans une base terminologique plus vaste regroupant les bases de plusieurs institutions de l’Union européenne. Cette nouvelle base traiterait non plus douze langues, mais une vingtaine, puisque l’Union européenne s’élargit à l’Est et passe de 15 à 25 membres en mai 2004, pour atteindre 27 membres en janvier 2007. Cette base terminologique voit le jour en mars 2007, sous le nom de IATE (Inter-Active Terminology for Europe), avec 1,4 million d’entrées dans 24 langues.

Géré par l’Office québécois de la langue française (OQLF), Le Signet propose 10.000 fiches bilingues français-anglais dans le domaine des technologies de l’information. Quant au Grand dictionnaire terminologique (GDT), il est mis en ligne en septembre 2000. Il s’agit d’un vaste dictionnaire bilingue français-anglais de 3 millions de termes du vocabulaire industriel, scientifique et commercial, qui représente l’équivalent de 3.000 ouvrages de référence imprimés. Sa mise en ligne est le résultat d’un partenariat entre l’OQLF, auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques. Evénement célébré par de nombreux linguistes, cette mise en ligne est un succès. Dès le premier mois, le GDT est consulté par 1,3 million de personnes, avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars 2003. Sa gestion est désormais assurée par l’OQLF lui-même, et non plus par une société prestataire.

Par ailleurs, des moteurs spécifiques permettent la recherche simultanée dans plusieurs centaines de dictionnaires. Pour ne prendre qu’un exemple, le site OneLook, créé par Robert Ware, puise dans près de 9 millions de termes provenant de 936 dictionnaires généralistes et spécialisés (chiffres d’avril 2007).

Des équipes de linguistes gèrent aussi des répertoires de dictionnaires, par exemple Dictionnaires électroniques et yourDictionary.com.

Maintenu par la section française des services linguistiques centraux de la Chancellerie fédérale suisse, Dictionnaires électroniques est un excellent répertoire de dictionnaires monolingues (français, allemand, italien, anglais, espagnol), bilingues et multilingues en accès libre sur le web. Ce répertoire est complété par des listes d’abréviations et d'acronymes et par des répertoires géographiques, essentiellement des atlas. Marcel Grangier, responsable de la section française des services linguistiques, précise en janvier 2000: «Les Dictionnaires électroniques ne sont qu’une partie de l’ensemble, et d’autres secteurs documentaires ont trait à l’administration, au droit, à la langue française, etc., sans parler des informations générales. (…) Conçu d’abord comme un service intranet, notre site web se veut en premier lieu au service des traducteurs opérant en Suisse, qui souvent travaillent sur la même matière que les traducteurs de l’Administration fédérale, mais également, par certaines rubriques, au service de n’importe quel autre traducteur où qu’il se trouve. (…) Travailler sans internet est devenu tout simplement impossible. Au-delà de tous les outils et commodités utilisés (messagerie électronique, consultation de la presse électronique, activités de services au profit de la profession des traducteurs), internet reste pour nous une source indispensable et inépuisable d’informations dans ce que j’appellerais le "secteur non structuré" de la toile. Pour illustrer le propos, lorsqu’aucun site comportant de l’information organisée ne fournit de réponse à un problème de traduction, les moteurs de recherche permettent dans la plupart des cas de retrouver le chaînon manquant quelque part sur le réseau.»

Réputé lui aussi pour sa qualité, yourDictionary.com est cofondé par Robert Beard en 1999, dans le prolongement de son ancien site - A Web of Online Dictionaries - créé dès 1995. En septembre 2003, yourDictionary.com répertorie plus de 1.800 dictionnaires dans 250 langues, ainsi que de nombreux outils linguistiques: vocabulaires, grammaires, glossaires, méthodes de langues, etc. En avril 2007, le répertoire comprend 2.500 dictionnaires et grammaires dans 300 langues. Soucieux de servir toutes les langues sans exception, le site propose une section spécifique - Endangered Language Repository - consacrée aux langues menacées d’extinction.

Publiée par SIL International (SIL: Summer Institute of Linguistics), l’encyclopédie Ethnologue : Languages of the World existe à la fois en version web (gratuite), sur CD-Rom (payant) et en version imprimée (payante). Barbara Grimes, sa directrice de publication entre 1971 et 2000 (8e-14e éditions), relate en janvier 2000: «Il s’agit d’un catalogue des langues dans le monde, avec des informations sur les endroits où elles sont parlées, une estimation du nombre de personnes qui les parlent, la famille linguistique à laquelle elles appartiennent, les autres termes utilisés pour ces langues, les noms de dialectes, d’autres informations socio-linguistiques et démographiques, les dates des Bibles publiées, un index des noms de langues, un index des familles linguistiques et des cartes géographiques relatives aux langues.» En avril 2007, cette encyclopédie répertorie 6.912 langues selon plusieurs critères (pays, nom de la langue, code de la langue attribué par le SIL, famille de langues), avec moteur de recherche.

= Annuaires et portails

Le premier annuaire internet francophone est lancé par l’UREC (Unité réseaux du CNRS). Créé dès janvier 1994, cet annuaire recense d’abord les sites académiques avant d’offrir un contenu plus généraliste. Il permet aux usagers francophones de se familiariser avec le web sans se noyer dans la masse d’informations mondiale. Trois ans plus tard, la gestion de l’annuaire devient difficile du fait du nombre exponentiel de sites web, notamment de sites commerciaux. De plus, d'autres annuaires voient le jour dans l'intervalle, dont certains débutés avec l’aide de l’UREC. En juillet 1997, considérant que sa mission est accomplie, l’UREC arrête la mise à jour de cet annuaire généraliste. L’annuaire retourne à sa vocation première, à savoir un annuaire spécialisé consacré à l’enseignement supérieur et la recherche.

Patrick Rebollar est professeur de littérature française et d’informatique dans des universités japonaises. Dès 1987, il utilise l’ordinateur pour ses activités d’enseignement et de recherche. En 1994, il voit apparaître l’internet «dans le champ culturel et linguistique francophone». En 1996, il débute un site web de recherches et activités littéraires. Son site inclut une Chronologie littéraire 1848-1914 organisée par année. Une série de liens mène au texte intégral des oeuvres publiées cette année-là, avec des notes historiques, politiques, sociales, scientifiques, techniques et médicales, et des informations sur le monde littéraire de l’époque.

En juillet 1998, Patrick Rebollar raconte: «Pour la Chronologie littéraire, cela a commencé dans les premières semaines de 1997, en préparant un cours sur le roman fin de siècle (19e). Je rassemblai alors de la documentation et m’aperçus d’une part que les diverses chronologies trouvées apportaient des informations complémentaires les unes des autres, et d’autre part que les quelques documents littéraires alors présents sur le web n’étaient pas présentés de façon chronologique, mais toujours alphabétique. Je fis donc un document unique qui contenait toutes les années de 1848 à 1914, et l’augmentais progressivement. Jusqu’à une taille gênante pour le chargement, et je décidai alors, fin 1997, de le scinder en faisant un document pour chaque année. Dès le début, je l’ai utilisé avec mes étudiants, sur papier ou sur écran. Je sais qu’ils continuent de s’en servir, bien qu’ils ne suivent plus mon cours. J’ai reçu pas mal de courrier pour saluer mon entreprise, plus de courrier que pour les autres activités web que j’ai développées.»

Une autre activité web de Patrick Rebollar est la gestion de ses Signets, un répertoire très complet des sites francophones littéraires: littérature et recherche (normes et règles, bibliothèques et éditeurs, bibliographies), revues littéraires, linguistique, dictionnaires, lexiques, recherche littéraire, documents littéraires par thème et par auteur (Malraux, Sarraute, Camus, Gracq, Robbe-Grillet, etc.), oeuvres littéraires, poésie, bandes dessinées, etc. Quelle est l’origine de ces Signets? Patrick Rebollar relate en juillet 1998: «Animant des formations d’enseignants à l’Institut franco-japonais de Tokyo, je voyais d’un mauvais œil d’imprimer régulièrement des adresses pour demander aux gens de les recopier. J’ai donc commencé par des petits documents rassemblant les quelques adresses web à utiliser dans chaque cours (avec Word), puis me suis dit que cela simplifierait tout si je mettais en ligne mes propres signets, vers la fin 1996. Quelques mois plus tard, je décidai de créer les sections finales de nouveaux signets afin de visualiser des adresses qui sinon étaient fondues dans les catégories. Cahin-caha, je renouvelle chaque mois.»

Une Autre Terre, portail de science-fiction, débute en novembre 1996. Fabrice Lhomme, son créateur, raconte en juin 1998: «J’ai commencé en présentant quelques bibliographies très incomplètes à l’époque et quelques critiques. Rapidement, j’ai mis en place les forums à l’aide d’un logiciel "maison" qui sert également sur d’autres actuellement. (…) Ensuite, le phénomène le plus marquant que je puisse noter, c’est la participation de plusieurs personnes au développement du serveur alors que jusque-là j’avais tout fait par moi-même. Le graphisme a été refait par un généreux contributeur et je reçois régulièrement des critiques réalisées par d’autres personnes. Pour ce qui est des nouvelles, la rubrique a eu du mal à démarrer mais une fois qu’il y en a eu un certain nombre, j’ai commencé à en recevoir régulièrement (effet d’entraînement). Actuellement, j’ai toutes les raisons d’être satisfait car mon site reçoit plus de 2.000 visiteurs différents chaque mois et toutes les rubriques ont une bonne audience. Le forum des visiteurs est très actif, ce qui me ravit. Concernant les perspectives d’avenir, j’envisage pour très bientôt d’ouvrir une nouvelle rubrique proposant des livres d’occasion à vendre avec l’ambition de proposer un gros catalogue. Eventuellement, j’ouvrirai aussi une rubrique présentant des biographies car je reçois pas mal de demandes de visiteurs en ce sens. (…) Si l’activité de vente de livres d’occasion se montre prometteuse, il est possible que j’en fasse une activité professionnelle sous la forme d’une micro-entreprise.»

Le Club des poètes est un site de poésie francophone qui souhaite la «bienvenue en territoire de poésie de la France au Chili, de Villon jusqu’à de jeunes poètes contemporains, en passant par toutes les grandes voix de la poésie de tous les temps et de tous les pays». Son webmestre, Blaise Rosnay, relate les débuts du site en juin 1998: «Le site du Club des Poètes a été créé en 1996, il s’est enrichi de nombreuses rubriques au cours des années et il est mis à jour deux fois par semaine. L’internet nous permet de communiquer rapidement avec les poètes du monde entier, de nous transmettre des articles et poèmes pour notre revue, ainsi que de garder un contact constant avec les adhérents de notre association. Par ailleurs, nous avons organisé des travaux en commun, en particulier dans le domaine de la traduction. Nos projets pour notre site sont d’y mettre encore et toujours plus de poésie. Ajouter encore des enregistrements sonores de poésie dite, ainsi que des vidéos de spectacles.»

Poésie française propose pour sa part un choix de poèmes allant de la Renaissance au début du 20e siècle. Claire Le Parco, de la société Webnet, raconte à la même date: «Nous avons créé ce site lors de la création de notre société, spécialisée dans la réalisation de sites internet et intranet. Nous sommes des informaticiens qui aimons la poésie, et nous avions envie de montrer que poésie et internet pouvaient faire bon ménage!»

Isabelle Aveline est d’abord libraire puis journaliste avant de se lancer dans la conception de sites internet et intranet. En juin 1996, elle fonde Zazieweb, un site indépendant conçu pour tous les amoureux du livre, professionnels et amateurs. Selon ses propres mots, «le site Zazieweb débarque sur la toile dans un no man’s land littéraire». Le succès est immédiat. A l'époque, Zazieweb se présente comme une revue en ligne permettant de suivre l’actualité du livre sur le réseau, avec un graphisme d’Olivier Cornu. On y trouve un éditorial, une rubrique d’actualité, un agenda, une revue de presse, un annuaire des sites et un self-service multimédia.

Puis le site évolue. Sur une nouvelle mouture du site, Isabelle Aveline explique: «Zazieweb est un site World Wide Web professionnel et grand public indépendant, spécifiquement dédié aux libraires, éditeurs… et grand public de culture "livre". Conçu comme une librairie virtuelle, un espace de documentation, d’orientation et de ressources pour un public de culture "papier" s’intéressant à internet, il se situe aux frontières de l’écrit et de l’édition électronique. L’originalité du traitement des rubriques par rapport à un média papier étant évidemment de "mailler" l’information avec un site sur internet. C’est donc un site "passerelle" vers internet pour un public curieux et désorienté, avide de connaître ce qui se passe "de l’autre côté de l’écran".»

Quelques années plus tard, Zazieweb est un portail offrant de multiples services. Un annuaire recense 5.000 sites littéraires. Zazieweb offre aussi «des espaces d’échanges et de rencontres pour lecteurs communicants et actifs», avec la possibilité pour chacun de poster des nouvelles et des commentaires. Y participe une communauté active de plus de 10.000 membres appelés e-lecteurs. «Qu’est-ce qu’un e-lecteur? Un e-lecteur est un lecteur actif et communicant qui souhaite échanger, discuter, polémiquer avec d’autres lecteurs. Des espaces et services lui sont dédiés sur Zazieweb, sur le mode interactif du web ! Zazieweb se présente comme une interface média qui reconstruit, réinvente les relations entre les gens, entre les textes, entre toutes ces articulations possibles qui existent entre les personnes et les livres.»

8.2. Bases textuelles

= Quelques exemples

Le web favorise la création et la consultation de bases textuelles. Le laboratoire ATILF (Analyse et traitement informatique de la langue française) gère plusieurs bases textuelles payantes, par exemple Frantext, un corpus à dominante littéraire de textes français (16e-20e), ou encore l’Encyclopédie de Diderot, réalisée en collaboration avec le programme ARTFL (American and French Research on the Treasury of the French Language) de l’Université de Chicago. En accès libre, la section «Dictionnaires» de l’ATILF est une collection de dictionnaires informatisés comprenant les dictionnaires de Robert Estienne (1552), Jean Nicot (1606) et Pierre Bayle (1740), plusieurs éditions des dictionnaires de l’Académie française (1694, 1798, 1835, 1932-1935, 1992) et enfin le Trésor de la langue française informatisé (TLFi, 1971-1994).

Débutée en 1995 par l’Institut national de la langue française (INaLF, remplacé par le laboratoire ATILF en janvier 2001), la base Frantext, en accès payant, comprend en janvier 1998 180 millions de mots-occurrences résultant du traitement informatique de 3.500 unités textuelles en arts, sciences et techniques, une collection représentative couvrant cinq siècles (16e-20e). 82 centres de recherche et bibliothèques universitaires d'Europe, d'Australie, du Japon et du Canada y sont abonnés, ce qui représente 1.250 postes de travail, avec une cinquantaine d’interrogations de la base par jour.

L’ARTFL est un projet commun du CNRS (Centre national de la recherche scientifique, France) et de l’Université de Chicago (Illinois, Etats-Unis). L’ARTFL propose notamment une version en ligne exhaustive de la première édition (1751-1772) de l’Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts de Diderot et d’Alembert. 72.000 articles rédigés par plus de 140 collaborateurs (dont Voltaire, Rousseau, Marmontel, d’Holbach, Turgot, etc.) font de cette encyclopédie un monumental ouvrage de référence, avec 17 volumes de texte, 11 volumes de planches, 18.000 pages et 20,8 millions de mots. Destinée à rassembler puis divulguer les connaissances de l’époque, elle porte la marque des courants intellectuels et sociaux du Siècle des Lumières, dont elle aide à propager les idées.

En 1998, la base de données correspondant au premier volume est accessible sur le web en démonstration libre, à titre expérimental. La recherche est possible par mot, portion de texte, auteur ou catégorie, ou en combinant ces critères entre eux. On dispose de renvois d’un article à l’autre, et de liens permettant d’aller d’une planche au texte, ou d’aller du texte au fac-similé des pages originales. Il reste encore à corriger les erreurs typographiques et les erreurs d’identification dues à l’automatisation complète des procédures de saisie. Il reste aussi à compléter la recherche textuelle par la recherche d’images, envisagée par mot, portion de texte (légende) et catégorie. C'est chose faite dans les années qui suivent.

L’ARTFL propose également les versions en ligne du Dictionnaire de l’Académie française (1694-1935), de l’édition illustrée du Dictionnaire historique et critique de Philippe Bayle (1740), du Thresor de la langue française de Jean Nicot (1606), etc.

Autre exemple, très différent, et dû cette fois à une initiative individuelle: le site Rubriques à Bac. Créé en 1998 par Gérard Fourestier, diplômé en science politique et professeur de français à Nice, le site regroupe des bases de données à destination des lycéens et des étudiants. ELLIT (Eléments de littérature) propose des centaines d’articles sur la littérature française du 12e siècle à nos jours, ainsi qu’un répertoire d’auteurs. RELINTER (Relations internationales) recense 2.000 liens sur le monde contemporain depuis 1945. Ces deux bases de données sont accessibles par souscription, avec version de démonstration en accès libre. Lancé en juin 2001 dans le prolongement d’ELLIT, la base de données Bac-L (baccalauréat section lettres) est en accès libre.

En octobre 2000, Gérard Fourestier raconte: «Rubriques à Bac a été créé pour répondre au besoin de trouver sur le net, en un lieu unique, l’essentiel, suffisamment détaillé et abordable par le grand public, dans le but: a) de se forger avant tout une culture tout en préparant à des examens probatoires à des études de lettres - c’est la raison d’ELLIT (Eléments de littérature), base de données en littérature française; b) de comprendre le monde dans lequel nous vivons en en connaissant les tenants et les aboutissants, d’où RELINTER (Relations internationales). J’ai développé ces deux matières car elles correspondent à des études que j’ai, entre autres, faites en leur temps, et parce qu’il se trouve que, depuis une dizaine d’années, j’exerce des fonctions de professeur dans l’enseignement public (18 établissements de la 6e aux terminales de toutes sections et de tous types d’établissements). (…)

Mon activité liée à internet consiste tout d’abord à en sélectionner les outils, puis à savoir les manier pour la mise en ligne de mes travaux et, comme tout a un coût et doit avoir une certaine rentabilité, organiser le commercial qui permette de dégager les recettes indispensables ; sans parler du butinage indispensable pour la recherche d’informations qui seront ensuite traitées. (…) Mon initiative à propos d’internet n’est pas directement liée à mes fonctions de professeur. J’ai simplement voulu répondre à un besoin plus général et non pas étroitement scolaire, voire universitaire. Débarrassé des contraintes du programme, puisque j’agis en mon nom et pour mon compte et non "es-qualité", mais tout en donnant la matière grise qui me paraît indispensable pour mieux faire une tête qu’à la bien remplir, je laisse à d’autres le soin de ne préparer qu’à l’examen.»

Les recettes de Rubriques à Bac sont consacrées à la réalisation de projets éducatifs en Afrique. Par la suite, Gérard Fourestier aimerait développer des bases de données dans d’autres domaines, par exemple l’analyse sociétale, l’analyse sémantique ou l’écologie.

= Payant versus gratuit

Bases de données payantes à destination des organismes et des particuliers qui en ont les moyens, ou bases de données gratuites à la disposition de tous? Au début des années 2000, les outils dont on dispose pour créer et gérer des bases textuelles à moindres frais permettent de pencher vers la deuxième solution, tout au moins lorsqu’il existe une véritable volonté dans ce sens.

Emilie Devriendt, élève professeur à l’Ecole normale supérieure (ENS) de Paris, écrit en juin 2001: «L’avenir me semble prometteur en matière de publications de ressources en ligne, même si, en France tout au moins, bon nombre de résistances, inhérentes aux systèmes universitaire et éditorial, ne risquent pas de céder du jour au lendemain (dans dix, vingt ans, peut-être ?). Ce qui me donne confiance, malgré tout, c’est la conviction de la nécessité pratique d’internet. J’ai du mal à croire qu’à terme, un chercheur puisse se passer de cette gigantesque bibliothèque, de ce formidable outil. Ce qui ne veut pas dire que les nouvelles pratiques de recherche liées à internet ne doivent pas être réfléchies, mesurées à l’aune de méthodologies plus traditionnelles, bien au contraire. Il y a une histoire de l’"outillage", du travail intellectuel, où internet devrait avoir sa place.»

Professeur au département d’études françaises de l’Université de Toronto, Russon Wooldridge est le créateur de ressources littéraires librement accessibles en ligne. En 2001, sa tâche se trouve facilitée par TACTweb (TACT: text analysis computing tools). Développé par John Bradley, informaticien au King’s College London (Royaume-Uni), et par Geoffrey Rockwell, professeur à la McMaster University (Canada), TACTweb est un logiciel de recherche de données textuelles en ligne. En mai 2001, Russon Wooldridge explique: «La dernière version de TACTweb permet dorénavant de construire des bases interactives importantes comme les dictionnaires de la Renaissance (Estienne et Nicot ; base RenDico), les deux principales éditions du Dictionnaire de l’Académie française (1694 et 1835), les collections de la Bibliothèque électronique de Lisieux (base LexoTor), les oeuvres complètes de Maupassant, ou encore les théâtres complets de Corneille, Molière, Racine, Marivaux et Beaumarchais (base théâtre 17e-18e). À la différence de grosses bases comme Frantext ou ARTFL nécessitant l’intervention d’informaticiens professionnels, d’équipes de gestion et de logiciels coûteux, TACTweb, qui est un gratuiciel que l’on peut décharger en ligne et installer soi-même, peut être géré par le chercheur individuel créateur de ressources textuelles en ligne.»

Autre exemple, le projet HyperNietzsche, lancé en 2000 sous la direction de Paolo d’Iorio, chargé de recherches à l’Institut des textes et manuscrits modernes (ITEM) du CNRS. Ce projet expérimental «vise à créer une infrastructure de travail collectif en réseau, lit-on sur le site web. Cette infrastructure sera d’abord appliquée et testée sur l’oeuvre de Nietzsche, pour être ensuite généralisable à d’autres auteurs, à l’étude d’une période historique ou d’un fonds d’archive, ou à l’analyse d’un problème philosophique. Il ne s’agit donc pas seulement d’un projet de numérisation et de mise en réseau d’un ensemble de textes et d’études sur Nietzsche, ni d’une édition électronique conçue comme un produit confectionné et offert à la consultation, mais plutôt d’un instrument de travail permettant à une communauté savante délocalisée de travailler de façon coopérative et cumulative et de publier les résultats de son travail en réseau, à l’échelle de la planète. Il ne s’agit pas seulement d’une bibliothèque de textes électroniques en ligne, plus ou moins bien indexée, accompagnée d’un moteur de recherche par mots-clés ou en texte intégral. C’est un véritable système hypertextuel qui permet tout d’abord de disposer les textes et les manuscrits de Nietzsche selon des ordonnancements chronologiques, génétiques ou thématiques, et surtout d’activer un ensemble de liens hypertextuels qui relient les sources primaires aux essais critiques produits par les chercheurs.» Le texte intégral consacré à la présentation du projet est disponible pendant deux ans en accès libre sur le site des PUF (Presses universitaires de France). Son équivalent imprimé est publié en octobre 2000 dans la série «Ecritures électroniques» de la collection «Que sais-je?».

En février 2003, Emilie Devriendt fait à nouveau le point: «Dans ce domaine que l’on appelle parfois l’informatique littéraire, deux aspects du texte électronique m’intéressent plus particulièrement, dans une perspective d’enseignement ou de recherche: la publication de ressources textuelles, par exemple littéraires, sur le web au format texte ou au format image (exemple: Gallica ou la Bibliothèque électronique de Lisieux); la publication de bases de données textuelles interactives, c’est à dire d’outils de recherche et d’analyse linguistique appliqués à des textes électroniques donnés (exemple: la Nefbase du Net des études françaises ou, si l’on veut citer une banque de données payante, Frantext). Aujourd’hui ce type de ressources est relativement bien développé (même si aucune "explosion" ne semble avoir eu lieu si l’on compare la situation actuelle à celle d’il y a deux ou trois ans). En revanche, on ne peut véritablement mesurer les usages qui en sont faits.»

8.3. Catalogues collectifs

= Premiers pas

Par le passé, on a pu reprocher aux catalogues de bibliothèques d’être austères, peu conviviaux, et surtout de donner les références du document mais en aucun cas l’accès au contenu. Depuis qu’ils sont disponibles sur l’internet, les catalogues sont moins austères et plus conviviaux. Et surtout - rêve de tous qui commence à devenir réalité - ils permettent l’accès aux documents eux-mêmes : textes et images dans un premier temps, extraits sonores et vidéos dans un deuxième temps. En 1998, les 2.500 oeuvres de l’Universal Library sont accessibles par le biais d’un système expérimental (ESS: experimental search system) intégré ensuite au catalogue en ligne de la Library of Congress.

L’avenir des catalogues en réseau tient à l’harmonisation du format MARC (machine readable cataloguing) par le biais de l’UNIMARC (universal machine readable cataloguing). Créé en 1977 par l’IFLA (International Federation of Library Associations), le format UNIMARC est un format universel permettant le stockage et l’échange de notices bibliographiques au moyen d’une codification des différentes parties de la notice (auteur, titre, éditeur, etc.) pour traitement informatique. Ce format favorise les échanges de données entre la vingtaine de formats MARC existants, qui correspondent chacun à une pratique nationale de catalogage (INTERMARC en France, UKMARC au Royaume-Uni, USMARC aux Etats-Unis, CAN/MARC au Canada, etc.). Les notices dans le format MARC d’origine sont d’abord converties au format UNIMARC avant d’être converties à nouveau dans le format MARC de destination. UNIMARC peut aussi être utilisé comme standard pour le développement de nouveaux formats MARC.

Dans le monde anglophone, la British Library (qui utilise UKMARC), la Library of Congress (qui utilise USMARC) et la Bibliothèque nationale du Canada (qui utilise CAN/MARC) décident d’harmoniser leurs formats MARC nationaux. Un programme de trois ans (décembre 1995 - décembre 1998) permet de mettre au point un format MARC commun aux trois bibliothèques.

Parallèlement, en 1996, dans le cadre de son Programme des bibliothèques, la Commission européenne promeut l’utilisation du format UNIMARC comme format commun d’échange entre tous les formats MARC utilisés dans les pays de l'Union européenne. Le groupe de travail correspondant étudie aussi les problèmes posés par les différentes polices de caractères, ainsi que la manière d’harmoniser le format bibliographique, tout comme le format du document lui-même pour les documents disponibles en ligne.

A la fin des années 1990, de plus en plus de catalogues sont disponibles sur le web, moyennant une interface spécifique. L’usager a souvent le choix entre deux types de recherche, simple et avancée, et il peut sélectionner plusieurs critères complémentaires tels que le nombre de notices souhaitées ou bien le mode de classement. A réception du résultat, il dispose de plusieurs pages de notices abrégées ou complètes. Les notices sélectionnées peuvent être copiées, imprimées, sauvegardées ou bien envoyées par courriel. Des liens hypertextes permettent de passer facilement d’une requête à l’autre.

Ces catalogues utilisent le protocole Z39.50, un standard de communication permettant de chercher et récupérer des informations bibliographiques dans des bases de données en ligne. Ce protocole est d'abord utilisé par le WAIS (wide area information servers), un système de recherche créé au début des années 1990 pour consulter les index de bases de données situées sur des serveurs consultables à distance, avant l'apparition des moteurs de recherche sur le web. La version du Z39.50 en cours (norme ISO 23950: 1998) est utilisée par les grands catalogues de bibliothèques disponibles sur le web, notamment par celui de la Library of Congress. Ce protocole est également promu par la Commission européenne pour favoriser son utilisation dans les pays de l’Union européenne.

Tous deux en accès libre, les catalogues de la British Library et de la Library of Congress sont d’excellents outils bibliographiques à l’échelon mondial. En mai 1997, la British Library lance son OPAC 97 (OPAC: online public access catalogue), un catalogue en ligne permettant l’accès aux catalogues de ses principales collections à Londres et à Boston Spa, soit 150 millions de documents rassemblés depuis 250 ans. Catalogue expérimental, l’OPAC 97 est ensuite remplacé par sa version définitive, le BLPC (British Library public catalogue). Quant au catalogue de la Library of Congress, avec menus en anglais et en espagnol, il s’agit du plus important catalogue en ligne au monde, avec un grand nombre de notices en français.

Les catalogues collectifs visent à faire connaître les ressources disponibles à l’échelon local, régional, national et international. C'est le cas par exemple du Catalogue collectif de France (CCFr), mis en chantier en juillet 1997, qui permet de «trouver des informations détaillées sur les bibliothèques françaises, leurs collections et leurs fonds (anciens, locaux ou spécifiques), connaître précisément les services qu’elles rendent et interroger leur catalogue en ligne». A terme, annonce-t-on en 1998, il permettra aussi de «localiser des ouvrages (documents imprimés, audio, vidéo, multimédia) dans les principales bibliothèques et demander le prêt ou la reproduction» de documents qui seront remis à l’usager dans la bibliothèque de son choix. C’est chose faite en novembre 2002. En juillet 2001, la gestion du CCFr est confiée à la Bibliothèque nationale de France (BnF). Le CCFr regroupe les catalogues de la BnF et des bibliothèques universitaires, ainsi que les catalogues des fonds anciens (avant 1811) et locaux des bibliothèques municipales et spécialisées. En décembre 2006, le CCFr permet de localiser 15 millions de documents dans 160 bibliothèques françaises.

= WorldCat et RedLightGreen

L’internet facilite la gestion de catalogues collectifs mondiaux. Le but premier de ces catalogues est d’éviter de cataloguer à nouveau un document déjà catalogué par une bibliothèque partenaire. Si le catalogueur trouve la notice du livre qu’il est censé cataloguer, il la copie pour l’inclure dans le catalogue de sa propre bibliothèque. S’il ne trouve pas la notice, il la crée, et cette notice est aussitôt disponible pour les catalogueurs officiant dans d'autres bibliothèques. Ce pari osé est tenté par deux associations, l’OCLC (Online Computer Library Center) dès 1971 et le RLG (Research Libraries Group) dès 1980. Quelque trente ans plus tard, l’OCLC et le RLG gèrent de gigantesques bases bibliographiques alimentées par leurs adhérents, permettant ainsi aux bibliothécaires d’unir leurs forces par-delà les frontières.

Fondée en 1967 dans l’Ohio (Etats-Unis), l’OCLC gère l’OCLC Online Union Catalog, débuté en 1971 pour desservir les bibliothèques universitaires de l’Etat de l’Ohio. Ce catalogue collectif s’étend ensuite à tout le pays, puis au monde entier. Désormais appelé WorldCat, et disponible sur abonnement payant, il comprend en 1998 38 millions de notices en 370 langues, avec translittération pour les caractères non romains des langues JACKPHY (japonais, arabe, chinois, coréen, persan, hébreu et yiddish). L’accroissement annuel est de 2 millions de notices. WorldCat utilise huit formats bibliographiques correspondant aux catégories suivantes: livres, périodiques, documents visuels, cartes et plans, documents mixtes, enregistrements sonores, partitions, documents informatiques. En 2005, 61 millions de notices bibliographiques produites par 9.000 bibliothèques et centres de documentation sont disponibles dans 400 langues. En 2006, 73 millions de notices provenant de 10.000 bibliothèques dans 112 pays permettent de localiser un milliard de documents. Une notice type contient la description du document ainsi que des informations sur son contenu: table des matières, résumé, couverture, illustrations et courte biographie de l’auteur.

Devenue la plus grande base mondiale de données bibliographiques, WorldCat migre progressivement sur le web, d’abord en rendant la consultation des notices possible par le biais de plusieurs moteurs de recherche (Yahoo!, Google et bien d’autres), puis en lançant en août 2006 une version web (bêta) de WorldCat en accès libre, avec en sus un accès direct aux documents électroniques des bibliothèques membres: livres du domaine public, articles, photos, livres audio, musique et vidéos.

Fondé en 1980 en Californie, avec une antenne à New York, le RLG (Research Library Group, qui devient ensuite le Research Libraries Group) se donne pour but d’améliorer l’accès à l’information dans le domaine de l’enseignement et de la recherche. Le RLG débute son propre catalogue sous le nom de RLIN (Research Libraries Information Network). Contrairement à WorldCat qui n'accepte qu'une notice par document, RLIN accepte plusieurs notices pour un même document. En 1998, RLIN comprend 82 millions de notices dans 365 langues, avec des notices translittérées pour les documents publiés dans les langues JACKPHY et en cyrillique. Des centaines de dépôts d’archives, bibliothèques de musées, bibliothèques universitaires, bibliothèques publiques, bibliothèques de droit, bibliothèques techniques, bibliothèques d’entreprise et bibliothèques d’art utilisent RLIN pour le catalogage, le prêt inter-bibliothèques et le contrôle des archives et des manuscrits. Une des spécialités de RLIN est l’histoire de l’art. Alimentée par 65 bibliothèques spécialisées, une section spécifique comprend 100.000 notices de catalogues d’expositions et 168.500 notices de documents iconographiques (photographies, diapositives, dessins, estampes et affiches). Cette section inclut aussi les 110.000 notices de la base bibliographique Scipio, consacrée aux catalogues de ventes.

En 2003, RLIN change de nom pour devenir le RLG Union Catalog, qui comprend désormais 126 millions de notices bibliographiques correspondant à 42 millions de documents (livres, cartes, manuscrits, films, bandes sonores, etc.). Au printemps 2004, une version web du catalogue est disponible en accès libre sous le nom de RedLightGreen, suite à une phase pilote lancée à l’automne 2003. La mise en ligne de RedLightGreen inaugure une ère nouvelle. C’est en effet la première fois qu’un catalogue collectif mondial est en accès libre. Destiné en premier lieu aux étudiants du premier cycle universitaire, RedLightGreen propose 130 millions de notices, avec des liens vers des informations spécifiques aux bibliothèques d’un campus donné (cote, version en ligne si celle-ci existe, etc.). Après trois ans d’activité, en novembre 2006, les usagers sont invités à utiliser WorldCat, dont la version web (bêta) est en accès libre depuis août 2006. A la même date, le RLG est intégré à OCLC.

8.4. Chronologie

* Cette chronologie ne prétend pas à l’exhaustivité.

1967: Fondation d’OCLC (Online Computer Library Center).

1971: Débuts de l’OCLC Online Union Catalog, qui deviendra WorldCat.

1977: Lancement de l’UNIMARC, format universel de catalogage.

1980: Débuts du RLG (Research Libraries Group) et de son catalogue RLIN (Research Libraries Information Network).

1994: Travlang, répertoire de dictionnaires de langues créé par Michael Martin.

1994 (janvier): Annuaire de l’UREC (Unité réseaux du CNRS).

1995: Frantext, base textuelle de l’Institut national de la langue française (INaLF).

1995: A Web of Online Dictionaries, créé par Robert Beard.

1996: Adoption de l’UNIMARC par la Communauté européenne.

1996: Site de recherches et activités littéraires de Patrick Rebollar.

1996: Une Autre Terre, portail de science-fiction, créé par Fabrice Lhomme.

1996 (juin): Zazieweb, site d’actualité littéraire créé par Isabelle Aveline.

1997 (mai): OPAC (online public access catalogue) de la British Library.

1997 (juillet): Débuts du Catalogue collectif de France (CCFr).

1997 (décembre): Outils linguistiques de la société de traduction Logos.

1998: Rubriques à Bac, site créé par Gérard Fourestier.

1998: ESS (experimental search system) de la Library of Congress.

1999: yourDictionary.com, portail cofondé par Robert Beard.

1999 (décembre): WebEncyclo, première encyclopédie francophone en accès libre.

1999 (décembre): Britannica.com, première encyclopédie anglophone en accès libre.

1999 (décembre): Mise en ligne de l’Encyclopaedia Universalis.

2000: Mise en ligne du Quid.

2000: HyperNietzsche, lancé sous la direction de Paolo d’Iorio.

2000 (mars): Mise en ligne de l’Oxford English Dictionary.

2000 (septembre): L’encyclopédie Encarta de Microsoft en accès libre.

2000 (septembre): Mise en ligne du Grand dictionnaire terminologique (GDT) par l'Office québécois de la langue française (OQLF).

2001 (janvier): Laboratoire ATILF (Analyse et traitement informatique de la langue française).

2001 (janvier): Wikipedia, grande encyclopédie coopérative fondée par Jimmy Wales et Larry Sanger.

2003: RLIN devient le RLG Union Catalog, puis le RedLightGreen.

2004 (printemps): RedLightGreen, premier catalogue collectif mondial en accès libre.

2006 (août): Le catalogue collectif mondial WorldCat en accès libre en version bêta.

2006 (novembre): Disparition de RedLightGreen, et fusion du RLG avec l’OCLC.

2007 (mars): Citizendium, grande encyclopédie collaborative en ligne fondée par Larry Sanger.

2007 (mai): Encyclopedia of Life, grande encyclopédie collaborative des sciences de la vie fondée par un consortium.