DICTIONNAIRES DE LANGUES EN LIGNE

= [Citation]

Robert Beard, professeur de langues et créateur du site "A Web of Online Dictionaries" (Un web de dictionnaires en ligne, intégré plus tard au portail yourDictionary.com), écrit en septembre 1998: "On a d'abord craint que le web représente un danger pour le multilinguisme, étant donné que le HTML et d'autres langages de programmation sont basés sur l'anglais et qu'on trouve tout simplement plus de sites web en anglais que dans toute autre langue. Cependant, les sites web que je gère montrent que le multilinguisme est très présent et que le web peut en fait permettre de préserver des langues menacées de disparition. Je propose maintenant des liens vers des dictionnaires dans 150 langues différentes et des grammaires dans 65 langues différentes."

= Dictionnaires imprimés en ligne

Le premier dictionnaire de langue française en accès libre est le "Dictionnaire universel francophone" en ligne, qui répertorie 45.000 mots et 116.000 définitions tout en présentant "sur un pied d’égalité, le français dit 'standard' et les mots et expressions en français tel qu’on le parle sur les cinq continents". Issu de la collaboration entre Hachette et l’AUPELF-UREF (devenu depuis l’AUF: Agence universitaire de la francophonie), il correspond à la partie "noms communs" du dictionnaire imprimé disponible chez Hachette. L’équivalent pour la langue anglaise est le site Merriam-Webster OnLine, qui donne librement accès au Collegiate Dictionary et au Collegiate Thesaurus.

En mars 2000, les 20 volumes de l’Oxford English Dictionary (OED) sont mis en ligne par l’Oxford University Press (OUP). La consultation du site est payante. Le dictionnaire bénéficie d’une mise à jour trimestrielle d’environ 1.000 entrées nouvelles ou révisées. Deux ans après cette première expérience, en mars 2002, l’Oxford University Press met en ligne l’Oxford Reference Online (ORO), une vaste encyclopédie conçue directement pour le web et consultable elle aussi sur abonnement payant. Avec 60.000 pages et un million d’entrées, elle représente l’équivalent d’une centaine d’ouvrages de référence.

= Répertoires de dictionnaires

"Dictionnaires électroniques" est un excellent répertoire établi par la section française des Services linguistiques centraux (SLC-f) de l'Administration fédérale suisse. Cette liste très complète de dictionnaires monolingues (allemand, anglais, espagnol, français, italien), bilingues et multilingues est complétée par des répertoires d'abréviations et acronymes et des répertoires géographiques, essentiellement des atlas.

Marcel Grangier, responsable de la section française des Services linguistiques centraux, écrit en janvier 1999: "Le multilinguisme sur internet peut être considéré comme une fatalité heureuse et surtout irréversible. C'est dans cette optique qu'il convient de creuser la tombe des rabat-joie dont le seul discours est de se plaindre d'une suprématie de l'anglais. Cette suprématie n'est pas un mal en soi, dans la mesure où elle résulte de réalités essentiellement statistiques (plus de PC par habitant, plus de locuteurs de cette langue, etc.). La riposte n'est pas de 'lutter contre l'anglais' et encore moins de s'en tenir à des jérémiades, mais de multiplier les sites en d'autres langues. Notons qu'en qualité de service de traduction, nous préconisons également le multilinguisme des sites eux-mêmes. (…)

Travailler sans internet est devenu tout simplement impossible: au-delà de tous les outils et commodités utilisés (messagerie électronique, consultation de la presse électronique, activités de services au profit de la profession des traducteurs), internet reste pour nous une source indispensable et inépuisable d'informations dans ce que j'appellerais le 'secteur non structuré' de la toile. Pour illustrer le propos, lorsqu'aucun site comportant de l'information organisée ne fournit de réponse à un problème de traduction, les moteurs de recherche permettent dans la plus grande partie des cas de retrouver le chaînon manquant quelque part sur le réseau."

Comment voit-il l'avenir? "La multiplication des langues présentes sur internet est inévitable, et ne peut que bénéficier aux échanges multiculturels. Pour que ces échanges prennent place dans un environnement optimal, il convient encore de développer les outils qui amélioreront la compatibilité. La gestion complète des diacritiques ne constitue qu'un exemple de ce qui peut encore être entrepris."

Quelques années plus tard, le répertoire "Dictionnaires électroniques" rejoint le site de la Conférence des Services de traduction des États européens (CST).

= yourDictionary.com

Robert Beard, professeur de langues à la Bucknell University (États- Unis), crée d'abord en 1995 A Web of Online Dictionaries (Un web de dictionnaires en ligne), qui est un répertoire de dictionnaires en ligne (800 liens en automne 1998) dans de nombreuses langues, auquel s'ajoutent d'autres sections: dictionnaires multilingues, dictionnaires anglophones spécialisés, thésauri et vocabulaires, grammaires en ligne, et enfin outils linguistiques pour non spécialistes.

Robert Beard écrit en septembre 1998: "On a d'abord craint que le web représente un danger pour le multilinguisme, étant donné que l'HTML et d'autres langages de programmation sont basés sur l'anglais et qu'on trouve tout simplement plus de sites web en anglais que dans toute autre langue. Cependant, les sites web que je gère montrent que le multilinguisme est très présent et que le web peut en fait permettre de préserver des langues menacées de disparition. Je propose maintenant des liens vers des dictionnaires dans 150 langues différentes et des grammaires dans 65 langues différentes. De plus, ceux qui développent les logiciels de navigation manifestent une attention nouvelle pour la diversité des langues dans le monde, ce qui favorisera la présence d'un nombre encore plus grand de sites web dans différentes langues. (…)

En tant que professeur de langues, je pense que le web présente une pléthore de nouvelles ressources disponibles dans la langue étudiée, de nouveaux instruments d'apprentissage (exercices interactifs Java et Shockwave) et de test, qui sont à la disposition des étudiants quand ceux-ci en ont le temps ou l'envie, 24 heures par jour et 7 jours par semaine. Aussi bien pour mes collègues que pour moi, et bien sûr pour notre établissement, l'internet nous permet aussi de publier pratiquement sans limitation."

Comment voit-il l'avenir? "L'internet nous offrira tout le matériel pédagogique dont nous pouvons rêver, y compris des notes de lecture, exercices, tests, évaluations et exercices interactifs plus efficaces que par le passé, parce que reposant davantage sur la notion de communication. Le web sera une encyclopédie du monde faite par le monde pour le monde. Il n'y aura plus d'informations ni de connaissances utiles qui ne soient pas diponibles, si bien que l'obstacle principal à la compréhension internationale et interpersonnelle et au développement personnel et institutionnel sera levé. Il faudrait une imagination plus débordante que la mienne pour prédire l'effet de ce développement sur l'humanité."

Robert Beard co-fonde ensuite le portail yourDictionary.com, qui intègre son site précédent, avec mise en ligne de la nouvelle mouture en février 2000. Il écrit en janvier 2000: "Nos nouvelles idées sont nombreuses. Nous projetons de travailler avec le 'Endangered Language Fund' [Fonds pour les langues menacées] aux États-Unis et en Grande- Bretagne pour rassembler des fonds pour cette fondation et nous publierons les résultats sur notre site. Nous aurons des groupes de discussion et des bulletins d'information sur les langues. Il y aura des jeux de langue destinés à se distraire et à apprendre les bases de la linguistique. La page 'Linguistic Fun' [qui propose des éléments de linguistique pour les non initiés] deviendra un journal en ligne avec des extraits courts, intéressants et même amusants dans différentes langues, choisis par des experts du monde entier. (…) Si l'anglais domine encore le web, on voit s'accentuer le développement de sites monolingues et non anglophones du fait des solutions variées apportées aux problèmes de caractères."

En septembre 2003, yourDictionary.com, devenu un portail de référence, répertorie plus de 1.800 dictionnaires dans 250 langues, ainsi que de nombreux outils linguistiques: vocabulaires, grammaires, glossaires, méthodes de langues, etc. En avril 2007, le répertoire comprend 2.500 dictionnaires et grammaires dans 300 langues.

Soucieux de servir toutes les langues sans exception, le portail propose l'Endangered Language Repository, une section spécifique consacrée aux langues menacées. "Les langues menacées sont essentiellement des langues non écrites, écrit Robert Beard en janvier 2000. Un tiers seulement des quelque 6.000 langues existant dans le monde sont à la fois écrites et parlées. Je ne pense pourtant pas que le web va contribuer à la perte de l’identité des langues et j’ai même le sentiment que, à long terme, il va renforcer cette identité. Par exemple, de plus en plus d’Indiens d’Amérique contactent des linguistes pour leur demander d’écrire la grammaire de leur langue et de les aider à élaborer des dictionnaires. Pour eux, le web est un instrument à la fois accessible et très précieux d’expression culturelle."

= Grand dictionnaire terminologique

Le Grand dictionnaire terminologique (GDT) est une initiative majeure de l'Office québécois de la langue française (OQLF). C'est en effet la première fois qu'un organisme propose une base terminologique aussi importante en accès libre sur le web, en septembre 2000. Le GDT est précédé par Le Signet, une base terminologique relative aux technologies de l'information, dont les 10.000 fiches bilingues français-anglais sont ensuite intégrées au GDT.

Le GDT est un dictionnaire bilingue français-anglais de 3 millions de termes appartenant au vocabulaire industriel, scientifique et commercial. Sa mise en ligne est le résultat d'un partenariat entre l'OQLF, auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques. Evénement célébré par de très nombreux linguistes, cette mise en ligne est un succès. Dès le premier mois, le GDT est consulté par 1,3 million de personnes, avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars 2003. Sa gestion est désormais assurée par l'OQLF lui-même, et non plus par une société prestataire.

= Bases terminologiques

Des bases terminologiques spécialisées sont mises en ligne par des organisations internationales, entre autres.

ILOTERM est une base terminologique quadrilingue (allemand, anglais, espagnol, français) gérée par l'Unité de terminologie et de référence du Service des documents officiels (OFFDOC) de l'Organisation internationale du Travail (OIT). Comme indiqué sur le site web en 1998, "sa principale finalité est d'apporter des solutions, conformes à l'usage courant, à des problèmes terminologiques dans le domaine du travail et des questions sociales. Les termes figurent en anglais avec leurs équivalents en français, espagnol et/ou allemand. La base de données contient également (dans une à quatre langues) des articles concernant la structure et les programmes de l'OIT, les noms officiels d'institutions internationales, d'organismes nationaux et d'organisations nationales d'employeurs et de travailleurs, ainsi que les titres de réunions et d'instruments internationaux."

La base TERMITE (ITU Telecommunication Terminology Database) est gérée par la Section de traduction de l'Union internationale des télécommunications (UIT). Il s'agit d'une base terminologique quadrilingue (environ 60.000 entrées en anglais, espagnol, français et russe). Comme indiqué sur le site web en 1998, "TERMITE contient tous les termes qui apparaissent dans tous les glossaires de l'UIT imprimés depuis 1980, ainsi que des termes plus récents en rapport avec les différentes activités de l'Union (en tout quelque 59.000 entrées). Normalement les collaborateurs qui s'occupent de l'amélioration et de la mise à jour de cette base de données sont des traducteurs ou des éditeurs techniques. TERMITE est surtout visité par les traducteurs internes mais aussi par des utilisateurs externes, travaillant dans le domaine des télécommunications."

La base WHOTERM (WHO Terminology Information System) est gérée par l'Organisation mondiale de la santé (OMS). Cette base terminologique trilingue (anglais, espagnol, français) a été constituée à partir des documents de l'OMS (vocabulaire, expressions, concepts) afin d'"améliorer la rigueur et la cohérence des textes rédigés, préparés ou traduits. Elle permet également à tous ceux qui collaborent à des programmes techniques de l'OMS d'enrichir les terminologies nouvelles, de promouvoir leur normalisation et de garantir leur diffusion".

Eurodicautom est géré par le service de traduction de la Commission européenne. Cette base terminologique multilingue de termes économiques, scientifiques, techniques et juridiques permet de combiner entre elles les onze langues officielles de l’Union européenne (allemand, anglais, danois, espagnol, finnois, français, grec, hollandais, italien, portugais, suédois), ainsi que le latin, avec une moyenne de 120.000 consultations par jour.

Fin 2003, Eurodicautom annonce son intégration dans une base terminologique plus vaste regroupant les bases de plusieurs institutions de l’Union européenne. Cette nouvelle base traite non plus douze langues, mais une vingtaine, puisque l’Union européenne s’élargit à l’Est et passe de 15 à 25 membres en mai 2004, pour atteindre 27 membres en janvier 2007. La nouvelle base terminologique voit le jour en mars 2007, sous le nom de IATE (Inter-Active Terminology for Europe), avec 1,4 million d’entrées dans 24 langues.

= Dictionnaires anciens

Les dictionnaires anciens trouvent une nouvelle vie sur le web, par exemple sur le site de l'Institut national de la langue française (INaLF), qui offre des ressources terminologiques sur le discours littéraire des 14e au 20e siècles (contenu, sémantique, thématique), la langue courante (langue écrite, langue parlée, argot), et le discours scientifique et technique.

Christiane Jadelot, ingénieur d'études à l'INaLF-Nancy, explique en juin 1998: "Les premières pages sur l'INaLF ont été mises sur l'internet au milieu de l'année 1996, à la demande de Robert Martin, directeur de l'INaLF. J'ai participé à la mise sous internet de ces pages (…). La direction a senti la nécessité urgente de nous faire connaître par l'internet, que beaucoup d'autres entreprises utilisaient déjà pour promouvoir leurs produits. Nous sommes en effet 'Unité de recherche et de service' et nous avons donc à trouver des clients pour nos produits informatisés, le plus connu d'entre eux étant la base textuelle FRANTEXT [sur l'internet depuis début 1995], ainsi qu'une maquette du tome 14 du TLF [Trésor de la langue française]. Il était donc nécessaire de faire connaître l'ensemble de l'INaLF par ce moyen. Cela correspondait à une demande générale."

La base FRANTEXT comprend, en mode interactif, 180 millions de mots- occurrences provenant d'une collection représentative de 3.500 unités textuelles en arts, sciences et techniques des 16e-20e siècles. Début 1998, 82 centres de recherche et bibliothèques universitaires sont abonnés, en Europe, en Australie, au Japon et au Canada, ce qui représente 1.250 postes de travail ayant accès à la base, avec une cinquantaine de sessions d'interrogations par jour.

L'ARTFL Project (ARTFL: American and French Research on the Treasury of the French Language - Recherche franco-américaine sur les trésors de la langue française) est un projet commun du Centre national de la recherche scientifique (CNRS, France) et de l'Université de Chicago (Illinois, États-Unis). Ce projet a pour but de constituer une base de données de 2.000 textes des 13e-20e siècles ayant trait à la littérature, la philosophie, les arts ou les sciences.

En 1998, l'ARTFL travaille à la version en ligne exhaustive de la première édition (1751-1772) de l'"Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts" de Diderot et d'Alembert. 72.000 articles rédigés par plus de 140 collaborateurs - dont Voltaire, Rousseau, d'Alembert, Marmontel, d'Holbach, Turgot, etc. - ont fait de cette encyclopédie un monumental ouvrage de référence pour les arts et les sciences. Destinée à rassembler puis divulguer les connaissances de l'époque, elle porte la marque des courants intellectuels et sociaux du 18e siècle, et c'est grâce à elle qu'ont été propagées les idées du Siècle des Lumières. L'Encyclopédie comprend 17 volumes de texte - qui représentent 18.000 pages et 20.736.912 mots - et 11 volumes de planches.

La base de données correspondant au premier volume est accessible en ligne à titre expérimental. La recherche peut être effectuée par mot, portion de texte, auteur ou catégorie, ou par la combinaison de ces critères entre eux. On dispose de renvois d'un article à l'autre, au moyen de liens permettant d'aller d'une planche au texte ou du texte au fac-similé des pages originales. L'automatisation complète des procédures de saisie entraîne des erreurs typographiques et des erreurs d'identification qui sont corrigées au fil des mois. La recherche d'images par mot, portion de texte ou catégorie est également possible dans un deuxième temps.

L'ARTFL travaille aussi à un projet de base de données pour le "Dictionnaire de l'Académie française", dont les différentes éditions se sont échelonnées entre 1694 et 1935. Ce projet inclut la saisie et l'édition du texte, ainsi que la création d'un moteur de recherche spécifique. La première édition (1694) et la cinquième édition (1798) du dictionnaire sont les premières à être disponibles pour une recherche par mot, puis pour une recherche en texte intégral. Les différentes éditions sont ensuite combinées dans une base de données unique qui permet de juger de l'évolution d'un terme en consultant aussi bien une édition particulière que l'ensemble des éditions.

Les autres projets de l'ARTFL sont la version image de l'édition de 1740 du "Dictionnaire historique et critique" de Philippe Bayle, le "Roget's Thesaurus" de 1911, le "Webster's Revised Unabridged Dictionary" de 1913, le "Thresor de la langue française" de Jean Nicot (1606), un projet multilingue sur La Bible comprenant entre autres "La Bible française" de Louis Segond (1910), etc.