UNE INFORMATION MULTILINGUE
[Résumé] De pratiquement anglophone à ses débuts, le web, devenu multilingue, permet une large diffusion des textes électroniques sans contrainte de frontières. Mais la barrière de la langue est loin d’avoir disparu. Comme l'écrit si bien en août 1999 Maria Victoria Marinetti, professeur d’espagnol en entreprise et traductrice, «il est très important de pouvoir communiquer en différentes langues. Je dirais même que c’est obligatoire, car l’information donnée sur l'internet est à destination du monde entier, alors pourquoi ne l’aurions-nous pas dans notre propre langue ou dans la langue que nous souhaitons utiliser? Information mondiale, mais pas de vaste choix dans les langues, ce serait contradictoire, pas vrai?»
= De l'ASCII à l'Unicode
Communiquer dans plusieurs langues implique d’avoir des systèmes de codage adaptés à nos alphabets ou idéogrammes respectifs.
Le premier système d'encodage informatique est l’ASCII (American Standard Code for Information Interchange). Publié en 1968 aux États- Unis par l’ANSI (American National Standards Institute), avec actualisation en 1977 et 1986, l'ASCII est un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par «1000001», B est traduit par «1000010», etc.). Les 128 caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et quelques symboles, le tout correspondant aux touches du clavier anglophone.
L'ASCII permet uniquement la lecture de l’anglais et du latin. Il ne permet pas de prendre en compte les lettres accentuées présentes dans bon nombre de langues européennes, et à plus forte raison les langues non alphabétiques (chinois, japonais, coréen, etc.). Ceci ne pose pas de problème majeur les premières années, tant que l’échange de fichiers électroniques se limite essentiellement à l’Amérique du Nord. Mais le multilinguisme devient bientôt une nécessité vitale. Des variantes de l’ASCII (norme ISO-8859 ou ISO-Latin) sur huit bits prennent en compte les caractères accentués de quelques langues européennes. Par exemple, la variante pour le français est définie par la norme ISO-8859-1 (ISO- Latin-1).
Cependant le passage de l’ASCII original à ses différentes extensions devient vite un véritable casse-tête, y compris au sein de l’Union européenne, les problèmes étant entre autres la multiplication des variantes, la corruption des données dans les échanges informatiques ou encore l’incompatibilité des systèmes, les pages ne pouvant être affichées que dans une seule langue à la fois.
Avec le développement du web, l’échange des données s’internationalise de plus en plus. On ne peut plus se limiter à l’utilisation de l’anglais, du latin et de quelques langues européennes «traduites» par un système d’encodage datant de 1968.
Publié pour la première fois en janvier 1991, l’Unicode est un système d'encodage «universel» sur 16 bits spécifiant un nombre unique pour chaque caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue utilisés. L’Unicode peut traiter 65.000 caractères uniques et prendre en compte tous les systèmes d’écriture de la planète. À la grande satisfaction des linguistes, il remplace progressivement l’ASCII, avec des variantes UTF-8, UTF-16 et UTF-32 (UTF: Unicode Transformation Format) en fonction du nombre de bits utilisés. Il devient une composante des spécifications du W3C (World Wide Web Consortium), l'organisme international chargé du développement du web.
L’utilisation de l’Unicode se généralise à partir de 1998, par exemple pour les fichiers texte sous plateforme Windows (Windows NT, Windows 2000, Windows XP et versions suivantes), qui étaient jusque-là en ASCII.
Mais l’Unicode ne peut résoudre tous les problèmes, comme le souligne en juin 2000 Luc Dall’Armellina, co-auteur et webmestre d’oVosite, un espace d’écriture hypermédia: «Les systèmes d’exploitation se dotent peu à peu des kits de langues et bientôt peut-être de polices de caractères Unicode à même de représenter toutes les langues du monde; reste que chaque application, du traitement de texte au navigateur web, emboîte ce pas. Les difficultés sont immenses: notre clavier avec ses ± 250 touches avoue ses manques dès lors qu’il faille saisir des Katakana ou Hiragana japonais, pire encore avec la langue chinoise. La grande variété des systèmes d’écriture de par le monde et le nombre de leurs signes font barrage. Mais les écueils culturels ne sont pas moins importants, liés aux codes et modalités de représentation propres à chaque culture ou ethnie.»
Que préconise Olivier Gainon, fondateur de CyLibris et pionnier de l’édition électronique littéraire? «Première étape: le respect des particularismes au niveau technique», explique-t-il en décembre 2000. «Il faut que le réseau respecte les lettres accentuées, les lettres spécifiques, etc. Je crois très important que les futurs protocoles permettent une transmission parfaite de ces aspects - ce qui n’est pas forcément simple (dans les futures évolutions de l’HTML ou des protocoles IP, etc.). Donc il faut que chacun puisse se sentir à l’aise avec l’internet et que ce ne soit pas simplement réservé à des (plus ou moins) anglophones. Il est anormal aujourd’hui que la transmission d’accents puisse poser problème dans les courriers électroniques. La première démarche me semble donc une démarche technique. Si on arrive à faire cela, le reste en découle: la représentation des langues se fera en fonction du nombre de connectés, et il faudra envisager à terme des moteurs de recherche multilingues.»
= De l'anglais au plurilinguisme
Après avoir été anglophone à pratiquement 100%, l’internet est encore anglophone à plus de 80% en 1998, un pourcentage qui s’explique par trois facteurs: (a) la création d’un grand nombre de sites web émanant des États-Unis, du Canada et du Royaume-Uni; (b) une proportion d'usagers particulièrement forte en Amérique du Nord par rapport au reste du monde; (c) l’usage de l'anglais en tant que principale langue d’échange internationale.
L’anglais reste en effet prépondérant et ceci n’est pas près de disparaître. Comme indiqué en janvier 1999 par Marcel Grangier, responsable de la section française des services linguistiques centraux de l’Administration fédérale suisse, «cette suprématie n’est pas un mal en soi, dans la mesure où elle résulte de réalités essentiellement statistiques (plus de PC par habitant, plus de locuteurs de cette langue, etc.). La riposte n’est pas de "lutter contre l’anglais" et encore moins de s’en tenir à des jérémiades, mais de multiplier les sites en d’autres langues. Notons qu’en qualité de service de traduction, nous préconisons également le multilinguisme des sites eux- mêmes. La multiplication des langues présentes sur internet est inévitable, et ne peut que bénéficier aux échanges multiculturels.»
Yoshi Mikami est informaticien à Fujisawa, au Japon. En décembre 1995, il lance le site «The Languages of the World by Computers and the Internet» (Les langues du monde par les ordinateurs et l'internet), communément appelé Logos Home Page ou Kotoba Home Page. Son site donne un bref historique de chaque langue, ses caractéristiques, son système d'écriture, son jeu de caractères et enfin la configuration du clavier dans la langue donnée. Yoshi Mikami est également co-auteur (avec Kenji Sekine et Nobutoshi Kohara) de Pour un web multilingue, publié en août 1997 en japonais par les éditions O'Reilly avant d'être traduit en anglais, en allemand et en français en 1998.
Yoshi explique en décembre 1998: «Ma langue maternelle est le japonais. Comme j'ai suivi mes études de troisième cycle aux États-Unis et que j'ai travaillé dans l'informatique, je suis devenu bilingue japonais/anglais américain. J'ai toujours été intéressé par différentes langues et cultures, aussi j'ai appris le russe, le français et le chinois dans la foulée. A la fin de 1995, j'ai créé sur le web le site "The Languages of the World by Computers and the Internet" et j'ai tenté de donner - en anglais et en japonais - un bref historique de toutes ces langues, ainsi que les caractéristiques propres à chaque langue et à sa phonétique. Suite à l'expérience acquise, j'ai invité mes deux associés à écrire un livre sur la conception, la création et la présentation de pages web multilingues, livre qui fut publié en août 1997 [en japonais] sous le titre Pour un web multilingue, le premier livre au monde sur un tel sujet.»
Comment Yoshi voit-il l'évolution vers un web multilingue? «Il y a des milliers d'années de cela, en Égypte, en Chine et ailleurs, les gens étaient plus sensibles au fait de communiquer leurs lois et leurs réflexions non seulement dans une langue mais dans plusieurs. Dans notre monde moderne, chaque État a adopté plus ou moins une seule langue de communication. A mon avis, l'internet verra l'utilisation plus grande de langues différentes et de pages multilingues (et pas seulement une gravitation autour de l'anglais américain) et un usage plus créatif de la traduction informatique multilingue. 99% des sites web créés au Japon sont en japonais!»
Consultant en marketing internet chez Globalink, une société de logiciels et services de traduction, Randy Hobler écrit en septembre 1998: «Comme l’internet n’a pas de frontières nationales, les internautes s’organisent selon d’autres critères propres au médium. En termes de multilinguisme, vous avez des communautés virtuelles, par exemple ce que j’appelle les "nations des langues", tous ces internautes qu’on peut regrouper selon leur langue maternelle quel que soit leur lieu géographique. Ainsi la nation de la langue espagnole inclut non seulement les internautes d’Espagne et d’Amérique latine, mais aussi tous les Hispanophones vivant aux États-Unis, ou encore ceux qui parlent espagnol au Maroc.»
Bruno Didier, webmestre de la bibliothèque de l’Institut Pasteur, écrit en août 1999: «Internet n’est une propriété ni nationale, ni linguistique. C’est un vecteur de culture, et le premier support de la culture, c’est la langue. Plus il y a de langues représentées dans leur diversité, plus il y aura de cultures sur internet. Je ne pense pas qu’il faille justement céder à la tentation systématique de traduire ses pages dans une langue plus ou moins universelle. Les échanges culturels passent par la volonté de se mettre à la portée de celui vers qui on souhaite aller. Et cet effort passe par l’appréhension de sa langue. Bien entendu c’est très utopique comme propos. Concrètement, lorsque je fais de la veille, je peste dès que je rencontre des sites norvégiens ou brésiliens sans un minimum d’anglais.»
Au cours de l'été 2000, les usagers non anglophones dépassent la barre des 50%. Ce pourcentage continue ensuite d'augmenter, comme le montrent les statistiques de la société Global Reach, mises à jour à intervalles réguliers. Le nombre d’usagers non anglophones est de 52,5% en été 2001, 57% en décembre 2001, 59,8% en avril 2002, 64,4% en septembre 2003 (dont 34,9% d’Européens non anglophones et 29,4% d’Asiatiques) et 64,2% en mars 2004 (dont 37,9% d’Européens non anglophones et 33% d’Asiatiques).
= Des dictionnaires de langues en ligne
# Le Grand dictionnaire terminologique
Le Grand dictionnaire terminologique (GDT) est une initiative majeure de l'Office québécois de la langue française (OQLF). C'est en effet la première fois qu'un organisme propose une base terminologique de cette taille en accès libre sur le web. Mis en ligne en septembre 2000, le GDT est précédé deux ans plus tôt par Le Signet, une base terminologique pour les technologies de l'information, dont les 10.000 fiches bilingues français-anglais sont également intégrées au GDT.
Le GDT est un dictionnaire bilingue français-anglais de 3 millions de termes appartenant au vocabulaire industriel, scientifique et commercial. Sa mise en ligne est le résultat d'un partenariat entre l'OQLF, auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques. Événement célébré par de nombreux linguistes, cette mise en ligne est un succès. Dès le premier mois, le GDT est consulté par 1,3 million de personnes, avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars 2003. Sa gestion est désormais assurée par l'OQLF lui-même, et non plus par une société prestataire.
# Eurodicautom et IATE
Géré par les services de traduction de la Commission européenne, Eurodicautom est une base terminologique multilingue de termes économiques, scientifiques, techniques et juridiques qui permet de combiner entre elles les onze langues officielles de l’Union européenne (allemand, anglais, danois, espagnol, finnois, français, grec, hollandais, italien, portugais, suédois), ainsi que le latin, avec une moyenne de 120.000 consultations par jour en 2003.
Fin 2003, Eurodicautom annonce son intégration dans une base terminologique plus vaste regroupant les bases terminologiques de plusieurs institutions de l’Union européenne, notamment celle du Parlement européen et celle du Conseil de l'Union européenne. Cette nouvelle base traiterait non plus douze langues mais une vingtaine, du fait de l'élargissement prévu de l’Union européenne l'année suivante vers l'Europe de l'Est.
Un projet de base terminologique commune est évoqué dès 1999 afin de renforcer la coopération inter-institutionnelle. Les partenaires de ce projet sont le Parlement européen, le Conseil de l'Union européenne, la Commission européenne, la Cour de justice, la Cour des comptes européenne, le Comité économique et social européen, le Comité des régions, la Banque européenne d'investissement, la Banque centrale européenne et enfin le Centre de traduction des organes de l'Union européenne.
La nouvelle base terminologique voit le jour au printemps 2004 sous le nom de IATE (InterActive Terminology for Europe), d'abord pour un usage interne dans les institutions de l'Union européenne avant de migrer sur le web en juin 2007 en tant que service public, avec 1,4 million d’entrées dans les 23 langues officielles de l'Union européenne, plus le latin. L'Union européenne est en effet passée de 15 à 25 pays membres en mai 2004, pour atteindre 27 pays membres en janvier 2007, d'où la nécessité de 23 langues officielles au lieu des 11 langues officielles présentes dans Eurodicautom.
Le site web de IATE est administré par le Centre de traduction des organes de l'Union européenne à Luxembourg (capitale du pays du même nom), pour le compte des partenaires du projet. Comme expliqué dans la brochure mutilingue de IATE, «les termes sont introduits dans la base de données par les terminologues et les traducteurs de l'Union européenne sur la base des informations fournies par les traducteurs, les administrateurs, les juristes-linguistes, les experts et d'autres sources fiables.» En 2009, IATE comprend 8,4 millions de termes, dont 540.000 abréviations et 130.000 expressions.
# WordReference.com
Le site WordReference.com est lancé en 1999 par Michael Kellogg pour proposer des dictionnaires bilingues gratuits en ligne. En mars 2010, Michael relate sur son site: «L'internet a été un incroyable outil ces dernières années pour rassembler des gens du monde entier. L'un des principaux obstacles à cela reste bien entendu la langue. Le contenu de l'internet est pour une grande part en anglais et de très nombreux usagers lisent ces pages alors que l'anglais est leur deuxième langue et non leur langue maternelle. De par mes propres expériences avec la langue espagnole, je sais que de nombreux lecteurs comprennent une grande partie de ce qu'ils lisent, mais pas la totalité.
J'ai débuté ce site en 1999 pour procurer des dictionnaires bilingues gratuits en ligne et d'autres outils pour tous sur l'internet. Depuis, le site s'est progressivement développé pour devenir l'un des sites de dictionnaires en ligne les plus utilisés, et le principal dictionnaire en ligne pour les paires de langues anglais-espagnol, anglais-français, anglais-italien, espagnol-français et espagnol-portugais. Ce site est toujours classé sans interruption parmi les 500 sites les plus visités du web. Aujourd'hui, je suis heureux de continuer à améliorer ces dictionnaires, les autres outils linguistiques du site et les forums de langues. J'ai vraiment plaisir à créer de nouvelles fonctionnalités pour rendre ce site de plus en plus utile.»
Les dictionnaires les plus populaires sont le dictionnaire espagnol (espagnol-anglais et anglais-espagnol), le dictionnaire français et le dictionnaire italien. On trouve aussi un dictionnaire allemand, un dictionnaire russe et un dictionnaire monolingue anglais. Des tableaux de conjugaison sont disponibles pour l'espagnol, le français et l'italien.
Pour l'anglais, on trouve également des dictionnaires de l'anglais vers les langues suivantes: arabe, chinois, coréen, grec, japonais, polonais, portugais, roumain, tchèque et turc, et vice versa.
Pour l'espagnol, en plus des deux dictionnaires d'Espasa Calpe et d'Oxford complétés par le supplément propre à WordReference.com, on peut consulter un dictionnaire monolingue espagnol, un dictionnaire espagnol de synonymes, un dictionnaire espagnol-français et un dictionnaire espagnol-portugais.
Pour le français et l'italien, outre les dictionnaires d'Oxford, WordReference.com propose deux dictionnaires qui lui sont propres, à savoir un dictionnaire français-anglais de 250.000 termes et un dictionnaire italien-anglais de 200.000 termes.
WordReference.com offre également des forums linguistiques très actifs et de qualité. Si les gens ont une question sur un usage linguistique donné, ils peuvent faire une recherche dans les centaines de milliers de questions précédentes, avant de poser leur propre question dans l'un des forums si nécessaire, pour être aidés par des gens des quatre coins du monde.
WordReference Mini est une version miniature du site qui permet son intégration dans d'autres sites, par exemple des sites d'apprentissage de langues.
Une version pour appareil mobile est disponible pour plusieurs dictionnaires: anglais-espagnol, espagnol-anglais, anglais-français, français-anglais, anglais-italien, italien-anglais, avec d'autres paires de langues à venir.