LA TRADUCTION AUTOMATIQUE

= Définition

Un logiciel de traduction automatique (TA) analyse le texte dans la langue à traduire (langue source) et génère automatiquement le texte dans la langue désirée (langue cible), en utilisant des règles précises pour le transfert de la structure grammaticale. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur (TAO), qui implique une interaction entre l'homme et la machine.

Si la traduction automatique reste très approximative, les logiciels de traduction sont toutefois très pratiques pour fournir un résultat immédiat et à moindres frais sinon gratuit. Ces logiciels n'ont cessé de s'améliorer au fil des ans, sans toutefois avoir la prétention d'égaler le travail du cerveau humain. De plus, depuis décembre 1997, des logiciels en accès libre sur le web permettent de traduire en quelques secondes une page web ou un texte court, avec plusieurs combinaisons de langues possibles.

SYSTRAN, société franco-américaine pionnière dans le traitement automatique des langues, explique sur son site web: «Un logiciel de traduction automatique traduit une langue naturelle dans une autre langue naturelle. La traduction automatique prend en compte la structure grammaticale de chaque langue et elle utilise des règles pour transférer la structure grammaticale de la langue source (texte à traduire) vers la langue cible (texte traduit). La traduction automatique ne remplace pas et n'est pas destinée à remplacer le traducteur humain.»

L'EAMT (European Association for Machine Translation) donne pour sa part la définition suivante: «La traduction automatique (TA) est l'utilisation de l'ordinateur pour la traduction de textes d'une langue naturelle à une autre. Elle fut un des premiers domaines de recherche en informatique. Il s'est avéré que cet objectif était difficile à atteindre. Cependant il existe aujourd'hui un certain nombre de systèmes produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante pour être utile dans certaines applications spécifiques, en général dans le domaine de la documentation technique. De plus, les logiciels de traduction, qui sont essentiellement destinés à aider le traducteur humain à produire des traductions, jouissent d'une popularité croissante auprès d'organisations de traduction professionnelles.»

= Historique

L'intéressant historique donné sur le site de Globalink, une société spécialisée dans les logiciels et services de traduction (disparue depuis), est résumé dans les paragraphes suivants.

Dès leurs débuts, la traduction automatique et le traitement de la langue naturelle progressent de pair avec l'évolution de l'informatique quantitative. Pendant la Seconde guerre mondiale, le développement des premiers ordinateurs programmables est accéléré par les premiers efforts cryptographiques pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite à la guerre, la traduction et l'analyse du texte en langue naturelle procurent une base de travail au secteur émergent de la théorie de l'information.

Pendant les années 1950, la recherche sur la traduction automatique prend forme au sens de traduction littérale (mot à mot) sans utiliser de règles linguistiques. Le projet débuté à l'Université de Georgetown au début des années 1950 représente la première tentative systématique pour créer un système de traduction automatique utilisable pour le russe.

Jusqu'au milieu des années 1960, plusieurs projets de recherche aussi bien universitaires que gouvernementaux sont menés aux États-Unis et en Europe. Au même moment, les progrès rapides dans le domaine de la linguistique théorique culminent en 1965 avec la publication du livre Aspects de la théorie syntaxique de Noam Chomsky, et transforment radicalement les concepts permettant de comprendre la phonologie, la morphologie, la syntaxe et la sémantique du langage humain.

En 1966, le rapport ALPAC (Automatic Language Processing Advisory Committee) remis au gouvernement des États-Unis fait une estimation prématurément négative de la valeur des systèmes de traduction automatique et des perspectives sur leurs applications pratiques, mettant ainsi fin au financement et à l'expérimentation dans ce domaine pour la décennie suivante.

Il faut attendre la fin des années 1970 pour que des expériences sérieuses soient à nouveau entreprises, parallèlement aux progrès de l’informatique et des technologies des langues. Cette période voit le développement de systèmes de transfert d’une langue à l’autre et le lancement des premières tentatives commerciales. Des sociétés comme SYSTRAN et METAL sont persuadées de l'utilité et de la viabilité d’un tel marché. Elles mettent sur pied des produits et services de traduction automatique reliés à un serveur central.

Mais les problèmes restent nombreux, par exemple des coûts élevés de développement, un énorme travail lexicographique, la difficulté de proposer de nouvelles combinaisons de langues, l’inaccessibilité de tels systèmes pour l’utilisateur moyen, et enfin la difficulté de passer à de nouveaux stades de développement.

= Quelques avis

Contrairement aux prévisions optimistes des années 1950 annonçant l'apparition imminente de la machine à traduire universelle, les systèmes de traduction automatique ne produisent pas encore de traductions de bonne qualité. Pourquoi? Pierre Isabelle et Patrick Andries, du laboratoire RALI (Laboratoire de recherche appliquée en linguistique informatique) à Montréal (Québec), expliquent ce échec dans La traduction automatique, 50 ans après, un article publié en 1998 dans les dossiers du magazine en ligne Multimédium.

Ils écrivent: «L'objectif ultime de construire une machine capable de rivaliser avec le traducteur humain n'a cessé de fuir par devant les lentes avancées de la recherche. Les approches traditionnelles à base de règles ont conduit à des systèmes qui tendent à s'effondrer sous leur propre poids bien avant de s'élever au-dessus des nuages de l'ambiguïté sémantique. Les approches récentes à base de gros ensembles de textes, appelés corpus - qu'elles soient fondées sur les méthodes statistiques ou les méthodes analogiques - promettent bien de réduire la quantité de travail manuel requise pour construire un système de TA [traduction automatique], mais il est moins sûr qu'elles promettent des améliorations substantielles de la qualité des traductions machine.»

Reprenant les idées de Yehochua Bar-Hillel exprimées dans The State of Machine Translation, un article publié en 1951, Pierre Isabelle et Patrick Andries définissent trois stratégies d'application de la traduction automatique: (a) une aide pour «balayer» la production écrite et fournir des traductions approximatives; (b) des situations de «sous-langues naturelles simples», comme l'implantation réussie en 1977 du système METEO qui traduit les prévisions météorologiques du ministère de l'Environnement canadien; (c) et enfin, pour de bonnes traductions de textes complexes, le couplage de l'humain et de la machine avant, pendant et après le processus de traduction automatique, un couplage qui n'est pas forcément économique comparé à la traduction traditionnelle.

Les auteurs penchent plus pour «un poste de travail pour le traducteur humain» que pour un «traducteur robot». Ils expliquent: «Les recherches récentes sur les méthodes probabilistes ont permis de démontrer qu'il était possible de modéliser d'une manière extrêmement efficace certains aspects simples du rapport traductionnel entre deux textes. Par exemple, on a mis au point des méthodes qui permettent de calculer le bon "appariement" entre les phrases d'un texte et de sa traduction, c'est-à-dire d'identifier à quelle(s) phrase(s) du texte d'origine correspond chaque phrase de la traduction. Appliquées à grande échelle, ces techniques permettent de constituer, à partir des archives d'un service de traduction, un mémoire de traduction qui permettra souvent de recycler des fragments de traductions antérieures. Des systèmes de ce genre ont déjà commencé à apparaître sur le marché (Translation Manager II de IBM, Translator's Workbench de Trados, TransSearch du RALI, etc.). Les recherches les plus récentes se concentrent sur des modèles capables d'établir automatiquement les correspondances à un niveau plus fin que celui de la phrase: syntagmes et mots. Les résultats obtenus laissent entrevoir toute une famille de nouveaux outils pour le traducteur humain, dont les aides au dépouillement terminologique, les aides à la dictée et à la frappe des traductions ainsi que les détecteurs de fautes de traduction.»

Fondé en 1990, Globalink est une société spécialisée dans les logiciels et services de traduction. Elle offre des solutions sur mesure à partir d'une gamme de logiciels, options en ligne et services de traduction professionnelle. La société diffuse ses logiciels de traduction en allemand, anglais, espagnol, français, italien et portugais, et propose des solutions aux problèmes de traduction des particuliers, petites sociétés, multinationales et gouvernements, que ce soit pour un produit individuel donnant une traduction préliminaire rapide ou un système complet permettant de gérer des traductions de documents professionnels.

Le site web donne les informations suivantes en 1998: «Avec les logiciels d'application de Globalink, l'ordinateur utilise trois ensembles de données: le texte à traiter, le programme de traduction et un dictionnaire de mots et d'expressions dans la langue-source, ainsi que des informations sur les concepts évoqués par le dictionnaire et les règles applicables à la phrase: règles de syntaxe et de grammaire, y compris des algorithmes gouvernant la conjugaison des verbes, l'adaptation de la syntaxe, les accords de genre et de nombre et la mise en ordre des mots. Une fois que l'utilisateur a sélectionné le texte et lancé le processus de traduction, le programme commence à comparer les mots du texte à traiter avec ceux qui sont stockés dans le dictionnaire. Une fois l'adéquation trouvée, l'application prépare une notice complète qui inclut des informations sur les significations possibles du mot et, d'après le contexte, ses relations avec les autres mots dans la même phrase. Le temps requis pour la traduction dépend de la longueur du texte. Un document de trois pages et 750 mots demande un traitement de trois minutes environ pour une première traduction.»

En septembre 1998, Randy Hobler, consultant en marketing internet auprès de Globalink, est résolument optimiste: «Nous arriverons rapidement au point où une traduction très fidèle du texte et de la parole sera si commune qu'elle pourra faire partie des plateformes ou même des puces. A ce stade, lorsque le développement de l'internet aura atteint sa vitesse de croisière, lorsque la fidélité de la traduction atteindra plus de 98% et lorsque les différentes combinaisons de langues possibles auront couvert la grande majorité du marché, la transparence de la langue - à savoir toute communication d'une langue à une autre - sera une vision trop restrictive pour ceux qui vendent cette technologie. Le développement suivant sera la "transparence transculturelle et transnationale" dans laquelle les autres aspects de la communication humaine, du commerce et des transactions au-delà du seul langage entreront en scène. Par exemple, les gestes ont un sens, les mouvements faciaux ont un sens, et ceci varie en fonction des normes sociales d'un pays à l'autre. La lettre O réalisée avec le pouce et l'index signifie "OK" aux États-Unis alors qu'en Argentine c'est un geste obscène.

Quand se produira l'inévitable développement de la vidéoconférence multilingue multimédia, il sera nécessaire de corriger visuellement les gestes. Le Media Lab du MIT [Massachusetts Institute of Technology], Microsoft et bien d'autres travaillent à la reconnaissance informatique des expressions faciales, l'identification des caractéristiques biométriques par le biais du visage, etc. Il ne servira à rien à un homme d'affaires américain de faire une excellente présentation à un Argentin lors d'une vidéoconférence multilingue sur le web, avec son discours traduit dans un espagnol argentin parfait, s'il fait en même temps le geste O avec le pouce et l'index. Les ordinateurs pourront intercepter ces gestes et les corriger visuellement. Les cultures diffèrent de milliers de façons, et la plupart de leurs codes peuvent être modifiés par voie informatique lorsqu'on passe de l'un à l'autre. Ceci inclut les lois, les coutumes, les habitudes de travail, l'éthique, le change monétaire, les différences de taille dans les vêtements, les différences entre le système métrique et le système de mesure anglophone, etc. Les firmes dynamiques répertorieront et programmeront ces différences, et elles vendront des produits et services afin d'aider les habitants de la planète à mieux communiquer entre eux. Une fois que ces produits et services seront largement répandus, ils contribueront réellement à une meilleure compréhension à l'échelle internationale.»

D'autres sont moins enthousiastes.

François Vadrot, directeur de FTPress (French Touch Press), société de presse en ligne, écrit en mai 2000: «Peut-on réellement penser que toute la population du monde va communiquer dans tous les sens? Peut- être? Via des systèmes de traduction instantanée, par écrit ou par oral? J'ai du mal à imaginer qu'on verra de sitôt des outils capables de translater les subtilités des modes de pensée propres à un pays: il faudrait pour lors traduire, non plus du langage, mais établir des passerelles de sensibilité. A moins que la mondialisation n'uniformise tout cela?»

Alex Andrachmes, producteur audiovisuel, écrivain et explorateur d'hypertexte, est tout aussi dubitatif. Il écrit en décembre 2000: «J'attends les fameuses traductions simultanées en direct-live… On nous les annonce avec les nouveaux processeurs ultra-puissants, mais on nous les annonçait déjà pour cette génération-ci de processeurs. Alors, le genre: vous/réservé/avion/de le/november 17-2000… Non merci. Plus tard peut-être.»

Les progrès sont toutefois rapides et permettent de rêver à des applications simples et universelles. Tel est le souhait de Tim McKenna, écrivain et philosophe, qui écrit en octobre 2000: «Quand la qualité des logiciels sera suffisante pour que les gens puissent converser sur le web par écrit ou par oral en temps réel dans différentes langues, nous verrons tout un monde s'ouvrir à nous. Les scientifiques, les hommes politiques, les hommes d'affaires et bien d'autres groupes seront à même de communiquer immédiatement entre eux sans l'intermédiaire de médiateurs ou traducteurs.»

= Un marché en 2000

En 2000, la généralisation de l’internet et du commerce électronique entraîne le développement d’un véritable marché, avec les produits et services des sociétés SYSTRAN, Alis Technologies, Lernout & Hauspie, Globalink et Softissimo, etc., avec des gammes de produits ciblant le grand public, les professionnels et les industriels.

SYSTRAN (acronyme de: System Translation), pionnier dans le traitement automatique des langues, est l’auteur du premier logiciel de traduction gratuit du web, lancé en décembre 1997. AltaVista Translation, appelé aussi Babel Fish, traduit les pages web de l'anglais vers les langues suivantes : allemand, français, espagnol, italien et portugais, et vice versa. Le siège de SYSTRAN est situé à Soisy-sous-Montmorency (France). Sa succursale, située à La Jolla (Californie), assure les ventes et le marketing, ainsi qu'une partie de la R&D (recherche et développement).

Basée à Montréal (Québec), Alis Technologies développe et commercialise des solutions et services de traitement linguistique au moyen de logiciels de traduction qui transforment des systèmes informatiques unilingues en outils multilingues.

Basé à Ypres (Belgique) et Burlington (Massachusetts, États-Unis), Lernout & Hauspie (racheté ensuite par ScanSoft) propose des produits et services en dictée, traduction, compression vocale, synthèse vocale et documentation industrielle. Les technologies couvertes incluent la reconnaissance automatique de la langue, la compression numérique de la parole, le passage du texte à la parole, et la traduction. Les produits émanant des trois premières technologies sont vendus aux grandes sociétés des industries suivantes: télécommunications, informatique, multimédia, électronique grand public et électronique automotrice. Les services de traduction sont à destination des sociétés en technologies de l'information, des marchés verticaux et des marchés d'automatisation.

De plus, le Machine Translation Group formé par Lernout & Hauspie comprend des entreprises qui développent, produisent et vendent des systèmes de traduction: L&H Language Technology, AppTek, AILogic, NeocorTech et Globalink.

La société Softissimo commercialise la série de logiciels de traduction Reverso, à côté de produits d’écriture multilingue, de dictionnaires électroniques et de méthodes de langues. Reverso est utilisé par exemple par Voilà, le moteur de recherche de France Télécom. Softissimo diffuse aussi des logiciels d'apprentissage des langues, ainsi que des dictionnaires, notamment l'Eurodico, le Grand Collins bilingue et le Collins English Dictionary.

En mars 2001, IBM se lance dans un marché en pleine expansion avec un produit professionnel haut de gamme, le WebSphere Translation Server. Ce logiciel traduit instantanément en plusieurs langues (allemand, anglais, chinois, coréen, espagnol, français, italien, japonais) les pages web, courriels et chats (dialogues en direct). Il interprète 500 mots à la seconde et permet l’ajout de vocabulaires spécifiques.

= L'UNL, métalangage numérique

Développé à Tokyo (Japon) sous l'égide de l'Institute of Advanced Studies (IAS) de l'Université des Nations Unies (UNU), l'UNL (universal networking language) est un projet de métalangage numérique pour l'encodage, le stockage, la recherche et la communication d'informations multilingues. Il s'agirait d'une interlangue formant une passerelle entre une langue source et une langue cible et offrant ainsi une solution au problème de communication posé par la barrière des langues.

Ce métalangage est développé à partir de janvier 1997 au sein de l'UNL Program, un programme international impliquant de nombreux partenaires dans toutes les communautés linguistiques. En 1998, 120 chercheurs de par le monde travaillent sur un projet multilingue comportant seize langues (allemand, anglais, arabe, brésilien, chinois, espagnol, français, hindou, indonésien, italien, japonais, letton, mongolien, russe, swahili et thaï).

Ce programme se poursuit ensuite sous l'égide de la Fondation UNDL
(Universal Networking Digital Language), créée en janvier 2001 pour
développer et promouvoir le projet UNL, avec un siège social à Genève
(Suisse). En 2004, la Fondation UNDL est accréditée par les Nations
Unies en tant qu'organisation non gouvernementale (ONG).

Comme expliqué dans un des wikis du projet en 2010, «l'UNL est une langue artificielle créée pour prendre en compte les informations et connaissances véhiculées par les langues humaines. Elle est dotée de composantes lexicales, grammaticales et sémantiques, comme les langues naturelles. Couplée à l’intelligence artificielle, l’UNL facilite la communication entre l’homme et la machine, et par le biais de la machine, entre tous les peuples dans la langue maternelle de chacun. Notre première tâche est de compléter le système UNL. Ensuite, le mettre au service des toutes les nations.»