TRADUCTION AUTOMATIQUE

= [Citation]

Tim McKenna, écrivain, s'interroge sur la notion complexe de "vérité" dans un monde en mutation constante. Il écrit en octobre 2000: "Quand la qualité des logiciels sera suffisante pour que les gens puissent converser sur le web par écrit ou par oral en temps réel dans différentes langues, nous verrons tout un monde s'ouvrir à nous. Les scientifiques, les hommes politiques, les hommes d'affaires et bien d'autres groupes seront à même de communiquer immédiatement entre eux sans l'intermédiaire de médiateurs ou traducteurs."

= Définition

Un logiciel de traduction automatique (TA) analyse le texte dans la langue à traduire (langue source) et génère automatiquement le texte dans la langue désirée (langue cible), en utilisant des règles précises pour le transfert de la structure grammaticale. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur, qui implique une interaction entre l'homme et la machine.

Si la traduction automatique reste très approximative, les logiciels de traduction sont très pratiques pour fournir un résultat immédiat et à moindres frais, sinon gratuit. Ils n'ont cessé de s'améliorer au fil des ans, sans toutefois avoir la prétention d'égaler le travail du cerveau humain. De plus, depuis décembre 1997, des logiciels en accès libre sur le web permettent de traduire en quelques secondes une page web ou un texte court, avec plusieurs combinaisons de langues possibles.

SYSTRAN, société franco-américaine pionnière dans le traitement automatique des langues, explique sur son site web: "Un logiciel de traduction automatique traduit une langue naturelle dans une autre langue naturelle. La traduction automatique prend en compte la structure grammaticale de chaque langue et elle utilise des règles pour transférer la structure grammaticale de la langue-source (texte à traduire) vers la langue-cible (texte traduit). La traduction automatique ne remplace pas et n'est pas destinée à remplacer le traducteur humain."

L'EAMT (European Association for Machine Translation - Association européenne pour la traduction automatique) donne la définition suivante: "La traduction automatique (TA) est l'utilisation de l'ordinateur pour la traduction de textes d'une langue naturelle à une autre. Elle fut un des premiers domaines de recherche en informatique. Il s'est avéré que cet objectif était difficile à atteindre. Cependant il existe aujourd'hui un certain nombre de systèmes produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante pour être utile dans certaines applications spécifiques, en général dans le domaine de la documentation technique. De plus, les logiciels de traduction, qui sont essentiellement destinés à aider le traducteur humain à produire des traductions, jouissent d'une popularité croissante auprès d'organisations de traduction professionnelles."

L'intéressant historique donné sur le site de Globalink, une société spécialisée dans les logiciels et services de traduction (disparue depuis), est résumé dans les deux paragraphes suivants.

Dès leurs débuts, la traduction automatique et le traitement de la langue naturelle progressent de pair avec l'évolution de l'informatique quantitative. Le développement des premiers ordinateurs programmables pendant la Seconde guerre mondiale est accéléré par les premiers efforts cryptographiques pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite à la guerre, la traduction et l'analyse du texte en langue naturelle procurent une base de travail au secteur émergent de la théorie de l'information. Pendant les années 1950, la recherche sur la traduction automatique prend forme au sens de traduction littérale (mot à mot) sans utiliser de règles linguistiques. Le projet russe débuté à l'Université de Georgetown au début des années 1950 représente la première tentative systématique pour créer un système de traduction automatique utilisable. Jusqu'au milieu des années 1960, un certain nombre de recherches universitaires et recherches financées par les gouvernements sont menées aux États-Unis et en Europe. Au même moment, les progrès rapides dans le domaine de la linguistique théorique culminent en 1965 avec la publication du livre "Aspects de la théorie syntaxique" de Noam Chomsky, et transforment radicalement la structure permettant de comprendre la phonologie, la morphologie, la syntaxe et la sémantique du langage humain.

En 1966, le rapport ALPAC (Automatic Language Processing Advisory Committee - Comité consultatif sur le traitement automatique du langage) du gouvernement des États-Unis fait une estimation prématurément négative de la valeur des systèmes de traduction automatique et des perspectives sur leurs applications pratiques, mettant ainsi fin au financement et à l'expérimentation dans ce domaine pour la décennie suivante. Il faut attendre la fin des années 1970 pour que des expériences sérieuses soient à nouveau entreprises, parallèlement aux progrès de l’informatique et des technologies des langues. Cette période voit le développement de systèmes de transfert d’une langue à l’autre et le lancement des premières tentatives commerciales. Des sociétés comme SYSTRAN et METAL sont persuadées de la viabilité et de l’utilité d’un tel marché. Elles mettent sur pied des produits et services de traduction automatique reliés à un serveur central. Mais les problèmes restent nombreux, par exemple des coûts élevés de développement, un énorme travail lexicographique, la difficulté de proposer de nouvelles combinaisons de langues, l’inaccessibilité de tels systèmes pour l’utilisateur moyen, et enfin la difficulté de passer à de nouveaux stades de développement.

= Commentaires

# Article de ZDNN

Dans "Web embraces language translation" (Le web adopte la traduction des langues), un article de ZDNN (ZDNetwork News) paru le 21 juillet 1998, Martha Stone explique: "Parmi les nouveaux produits d'un secteur de traduction représentant 10 milliards de dollars US, on trouve les traducteurs instantanés de sites web, groupes de discussion, courriels et intranets d'entreprise. Les principales sociétés de traduction se mobilisent pour saisir les opportunités du marché. Voici quelques exemples. SYSTRAN s'est associé avec AltaVista pour produire babelfish.altavista.digital.com, avec 500 à 600 mille visiteurs quotidiens et environ un million de traductions par jour, traductions qui vont des recettes de cuisine à des pages web complètes. 15.000 sites environ ont un lien vers babelfish, qui peut traduire [de l'anglais] vers le français, l'italien, l'allemand, l'espagnol et le portugais, et vice versa. Le japonais est prévu pour bientôt.

'Cette popularité est simple. Avec l'internet, on peut maintenant utiliser l'information provenant des États-Unis. Tout ceci contribue à une demande en hausse', déclare de chez lui à Paris Dimitros Sabatakakis, directeur général de SYSTRAN. Alis a mis au point le système de traduction du Los Angeles Times qui doit bientôt être lancé sur le site et qui proposera des traductions [de l'anglais] vers l'espagnol et le français, et plus tard le japonais. D'un clic de souris, une page web complète peut être traduite dans la langue désirée. Globalink propose des logiciels, des systèmes de traduction de pages web, un service de messagerie électronique gratuit et des logiciels permettant de traduire le texte de groupes de discussion.

Cependant, alors que ces systèmes de traduction automatique deviennent populaires dans le monde entier, les directeurs des sociétés qui les développent admettent qu'ils ne peuvent répondre à toutes les situations. Les porte-parole de Globalink, Alis et SYSTRAN utilisent des expressions comme 'pas parfait' et 'approximatif' quand ils décrivent la qualité des traductions, et précisent bien que les phrases soumises à la traduction doivent être simples, grammaticalement correctes et sans tournures idiomatiques. 'Les progrès réalisés en traduction automatique répondent à la loi de Moore: la qualité double tous les dix-huit mois', déclare Vin Crosbie, un analyste de l'industrie du web basé à Greenwich, dans le Connecticut (États-Unis). 'Ce n'est pas parfait, mais certains de mes correspondants ne se rendent même pas compte que j'utilise un logiciel de traduction.' Ces traductions font souffrir la syntaxe et n'utilisent pas toujours les mots à bon escient, parce que les bases de données-dictionnaires ne peuvent déchiffrer la différence entre les homonymes. (…) Sabatakis, directeur de SYSTRAN, explique que la traduction humaine coûterait entre 50 et 60 dollars par page web, ou environ 20 cents par mot. Alors que cette dernière solution peut convenir pour les pages 'statiques' d'information sur l'entreprise, la traduction automatique, elle, est gratuite sur le web, et le logiciel coûte souvent moins de 100 dollars, selon le nombre de langues disponibles pour la traduction et les caractéristiques propres au logiciel."

# Équipe du laboratoire RALI

Contrairement aux prévisions optimistes des années 1950 annonçant l'apparition imminente de la machine à traduire universelle, les systèmes de traduction automatique ne produisent pas encore de traductions de bonne qualité. Pourquoi? Pierre Isabelle et Patrick Andries, du laboratoire RALI (Laboratoire de recherche appliquée en linguistique informatique) à Montréal (Québec), expliquent ce échec dans "La traduction automatique, 50 ans après", un article publié dans les dossiers du magazine en ligne Multimédium: "L'objectif ultime de construire une machine capable de rivaliser avec le traducteur humain n'a cessé de fuir par devant les lentes avancées de la recherche. Les approches traditionnelles à base de règles ont conduit à des systèmes qui tendent à s'effondrer sous leur propre poids bien avant de s'élever au-dessus des nuages de l'ambiguïté sémantique. Les approches récentes à base de gros ensembles de textes, appelés corpus - qu'elles soient fondées sur les méthodes statistiques ou les méthodes analogiques - promettent bien de réduire la quantité de travail manuel requise pour construire un système de TA [traduction automatique], mais il est moins sûr qu'elles promettent des améliorations substantielles de la qualité des traductions machine."

Reprenant les idées de Yehochua Bar-Hillel exprimées dans "The State of Machine Translation" (L'état de la traduction automatique), article publié en 1951, Pierre Isabelle et Patrick Andries définissent trois stratégies d'application de la traduction automatique: (a) une aide pour "balayer" la production écrite et fournir des traductions approximatives; (b) des situations de "sous-langues naturelles simples", comme l'implantation réussie en 1977 du système METEO qui traduit les prévisions météorologiques du ministère de l'Environnement canadien; (c) pour de bonnes traductions de textes complexes, le couplage de l'humain et de la machine avant, pendant et après le processus de traduction automatique, couplage qui n'est pas forcément économique comparé à la traduction traditionnelle.

Les auteurs penchent plus pour "un poste de travail pour le traducteur humain" que pour un "traducteur robot". Ils expliquent: "Les recherches récentes sur les méthodes probabilistes ont permis de démontrer qu'il était possible de modéliser d'une manière extrêmement efficace certains aspects simples du rapport traductionnel entre deux textes. Par exemple, on a mis au point des méthodes qui permettent de calculer le bon 'appariement' entre les phrases d'un texte et de sa traduction, c'est-à-dire d'identifier à quelle(s) phrase(s) du texte d'origine correspond chaque phrase de la traduction. Appliquées à grande échelle, ces techniques permettent de constituer, à partir des archives d'un service de traduction, un mémoire de traduction qui permettra souvent de recycler des fragments de traductions antérieures. Des systèmes de ce genre ont déjà commencé à apparaître sur le marché (Translation Manager II de IBM, Translator's Workbench de Trados, TransSearch du RALI, etc.). Les recherches les plus récentes se concentrent sur des modèles capables d'établir automatiquement les correspondances à un niveau plus fin que celui de la phrase: syntagmes et mots. Les résultats obtenus laissent entrevoir toute une famille de nouveaux outils pour le traducteur humain, dont les aides au dépouillement terminologique, les aides à la dictée et à la frappe des traductions ainsi que les détecteurs de fautes de traduction."

# Le futur vu par Randy Hobler

En septembre 1998, Randy Hobler est consultant en marketing internet auprès de Globalink, une société de produits et services de traduction. Il explique lors d'un entretien par courriel: "Nous arriverons rapidement au point où une traduction très fidèle du texte et de la parole sera si commune qu'elle pourra faire partie des plateformes ou même des puces. A ce stade, lorsque le développement de l'internet aura atteint sa vitesse de croisière, lorsque la fidélité de la traduction atteindra plus de 98% et lorsque les différentes combinaisons de langues possibles auront couvert la grande majorité du marché, la transparence de la langue - à savoir toute communication d'une langue à une autre - sera une vision trop restrictive pour ceux qui vendent cette technologie. Le développement suivant sera la 'transparence transculturelle et transnationale' dans laquelle les autres aspects de la communication humaine, du commerce et des transactions au-delà du seul langage entreront en scène. Par exemple, les gestes ont un sens, les mouvements faciaux ont un sens, et ceci varie en fonction des normes sociales d'un pays à l'autre. La lettre O réalisée avec le pouce et l'index signifie "OK" aux États-Unis alors qu'en Argentine c'est un geste obscène.

Quand se produira l'inévitable développement de la vidéoconférence multilingue multimédia, il sera nécessaire de corriger visuellement les gestes. Le Media Lab du MIT (Massachussets Institute of Technology), Microsoft et bien d'autres travaillent à la reconnaissance informatique des expressions faciales, l'identification des caractéristiques biométriques par le biais du visage, etc. Il ne servira à rien à un homme d'affaires américain de faire une excellente présentation à un Argentin lors d'une vidéoconférence multilingue sur le web, avec son discours traduit dans un espagnol argentin parfait, s'il fait en même temps le geste O avec le pouce et l'index. Les ordinateurs pourront intercepter ces gestes et les corriger visuellement. Les cultures diffèrent de milliers de façons, et la plupart d'entre elles peuvent être modifiées par voie informatique lorsqu'on passe de l'une à l'autre. Ceci inclut les lois, les coutumes, les habitudes de travail, l'éthique, le change monétaire, les différences de taille dans les vêtements, les différences entre le système métrique et le système de mesures anglophone, etc. Les firmes dynamiques répertorieront et programmeront ces différences, et elles vendront des produits et services afin d'aider les habitants de la planète à mieux communiquer entre eux. Une fois que ces produits et services seront largement répandus, ils contribueront réellement à une meilleure compréhension à l'échelle internationale."

= Expériences

François Vadrot, directeur de FTPress (French Touch Press), société de presse en ligne, écrit en mai 2000: "Peut-on réellement penser que toute la population du monde va communiquer dans tous les sens? Peut- être? Via des systèmes de traduction instantanée, par écrit ou par oral? J'ai du mal à imaginer qu'on verra de sitôt des outils capables de translater les subtilités des modes de pensée propres à un pays: il faudrait pour lors traduire, non plus du langage, mais établir des passerelles de sensibilité. A moins que la mondialisation n'uniformise tout cela?"

Alex Andrachmes, producteur audiovisuel, écrivain et explorateur d'hypertexte, est tout aussi dubitatif. Il écrit en décembre 2000: "J'attends les fameuses traductions simultanées en direct-live… On nous les annonce avec les nouveaux processeurs ultra-puissants, mais on nous les annonçait déjà pour cette génération-ci de processeurs. Alors, le genre: vous/réservé/avion/de le/november 17-2000… Non merci. Plus tard peut-être."

En 2000, la généralisation de l’internet et du commerce électronique entraîne toutefois le développement d’un véritable marché avec les produits et services des sociétés SYSTRAN, Alis Technologies, Lernout & Hauspie, Globalink et Softissimo, entre autres, à destination du grand public, des professionnels et des industriels.

SYSTRAN (acronyme de "System Translation"), pionnier dans le traitement automatique des langues, est l’auteur du premier logiciel de traduction gratuit du web, lancé en décembre 1997. AltaVista Translation, appelé aussi Babel Fish, est un service de traduction automatique de pages web de l'anglais vers les langues suivantes : allemand, français, espagnol, italien et portugais, et vice versa. Ce service est proposé à la demande d'AltaVista, moteur de recherche utilisé par douze millions d'internautes, suite au problème des langues devenu sensible sur l'internet. Le siège de SYSTRAN est situé à Soisy-sous-Montmorency (France). Sa succursale, située à La Jolla (Californie), assure les ventes et le marketing, ainsi qu'une partie de la R&D (recherche et développement).

Basée à Montréal (Québec), Alis Technologies développe et commercialise des solutions et services de traitement linguistique au moyen de logiciels de traduction qui transforment des systèmes informatiques unilingues en outils multilingues.

Basé à Ypres (Belgique) et Burlington (Massachusetts, États-Unis), Lernout & Hauspie (racheté ensuite par ScanSoft) propose des produits et services en dictée, traduction, compression vocale, synthèse vocale et documentation industrielle. Les technologies couvertes incluent la reconnaissance automatique de la langue, la compression numérique de la parole, le passage du texte à la parole, et la traduction. Les produits émanant des trois premières technologies sont vendus aux grandes sociétés des industries suivantes: télécommunications, informatique, multimédia, électronique grand public et électronique automotrice. Les services de traduction (passage du texte au texte) sont à destination des sociétés en technologies de l'information, des marchés verticaux et des marchés d'automatisation. De plus, le Machine Translation Group (Groupe de traduction automatique) formé par Lernout & Hauspie comprend des entreprises qui développent, produisent et vendent des systèmes de traduction: L&H Language Technology, AppTek, AILogic, NeocorTech et Globalink.

Fondé en 1990, Globalink est une société spécialisée dans les logiciels et services de traduction. Elle offre des solutions sur mesure à partir d'une gamme de logiciels, options en ligne et services de traduction professionnelle. La société diffuse ses logiciels de traduction en allemand, anglais, espagnol, français, italien et portugais, et propose des solutions aux problèmes de traduction des particuliers, petites sociétés, multinationales et gouvernements, que ce soit pour un produit individuel donnant une traduction préliminaire rapide ou un système complet permettant de gérer des traductions de documents professionnels.

Le site web donne les informations suivantes en 1998: "Avec les logiciels d'application de Globalink, l'ordinateur utilise trois ensembles de données: le texte à traiter, le programme de traduction et un dictionnaire de mots et d'expressions dans la langue-source, ainsi que des informations sur les concepts évoqués par le dictionnaire et les règles applicables à la phrase: règles de syntaxe et de grammaire, y compris des algorithmes gouvernant la conjugaison des verbes, l'adaptation de la syntaxe, les accords de genre et de nombre et la mise en ordre des mots. Une fois que l'utilisateur a sélectionné le texte et lancé le processus de traduction, le programme commence à comparer les mots du texte à traiter avec ceux qui sont stockés dans le dictionnaire. Une fois l'adéquation trouvée, l'application prépare une notice complète qui inclut des informations sur les significations possibles du mot et, d'après le contexte, ses relations avec les autres mots dans la même phrase. Le temps requis pour la traduction dépend de la longueur du texte. Un document de trois pages et 750 mots demande un traitement de trois minutes environ pour une première traduction."

Softissimo commercialise la série de logiciels de traduction Reverso, à côté de produits d’écriture multilingue, de dictionnaires électroniques et de méthodes de langues. Reverso est utilisé par exemple par Voilà, le moteur de recherche de France Télécom. Softissimo diffuse aussi des logiciels d'apprentissage des langues, ainsi que des dictionnaires, notamment l'"Eurodico", le "Grand Collins bilingue" et le "Collins English Dictionary".

En mars 2001, IBM se lance dans un marché en pleine expansion avec un produit professionnel haut de gamme, le WebSphere Translation Server. Ce logiciel traduit instantanément en plusieurs langues (allemand, anglais, chinois, coréen, espagnol, français, italien, japonais) les pages web, courriels et chats (dialogues en direct). Il interprète 500 mots à la seconde et permet l’ajout de vocabulaires spécifiques.

= R&D en traduction automatique

Voici une présentation rapide des travaux de quatre organismes, parmi tant d'autres, au Québec (Laboratoire RALI), en Californie (Natural Language Group), en Suisse (ISCCO) et au Japon (UNDL Foundation).

# Laboratoire RALI

Basé à Montréal (Québec), le laboratoire RALI (Laboratoire de recherche appliquée en linguistique informatique) a les domaines de compétence suivants: outils d'aide à la traduction, appariement automatique de textes, génération automatique de texte, réaccentuation automatique, recherche d'information aidée par des outils linguistiques, extraction d'information, identification de la langue et du codage, transducteurs à états finis, et corpus de texte enrichis. Dans le cadre du Projet TransX, le laboratoire RALI élabore une nouvelle génération d'outils d'aide aux traducteurs (TransType, TransTalk, TransCheck et TransSearch). Ces outils sont tous fondés sur des modèles de traduction probabilistes qui calculent automatiquement les correspondances entre le texte produit par le traducteur et le texte en langue de départ.

Comme expliqué sur le site web en 1998, "(a) TransType accélère la saisie de la traduction en anticipant les choix du traducteur et, au besoin, en les critiquant. L'outil propose ses choix en tenant compte à la fois du texte en langue de départ et de la traduction partielle déjà produite par le traducteur. (b) TransTalk effectue la transcription automatique d'une traduction dictée. Cet outil se sert d'un modèle de traduction probabiliste pour améliorer la performance du module de reconnaissance vocale. (c) TransCheck détecte automatiquement certaines erreurs de traduction en vérifiant que les correspondances entre les segments d'une ébauche de traduction et les segments du texte en langue de départ respectent les propriétés souhaitées d'une bonne traduction. (d) TransSearch permet au traducteur d'effectuer des recherches dans des bases de données de traductions pré-existantes pour y retrouver des solutions toutes faites à ses problèmes de traduction. Les bases de données requises nécessitent un appariement entre la traduction et le texte en langue de départ."

# Natural Language Group de l'USC/ISI

Rattaché à l'USC/ISI (University of Southern California/Information Sciences Institute - Université de Californie du Sud/Institut des sciences de l'information), le Natural Language Group (Groupe de la langue naturelle) traite de plusieurs aspects du traitement de la langue naturelle: traduction automatique, résumé automatique de texte, gestion multilingue des verbes, développement de taxinomies de concepts (ontologies), discours et génération de texte, élaboration de gros lexiques multilingues et communication multimédia.

Eduard Hovy, directeur du Natural Language Group, explique en août 1998: "Les gens écrivent dans leur propre langue pour diverses raisons: commodité, discrétion, communication locale, mais ceci ne signifie pas que d'autres personnes ne soient pas intéressées de lire ce qu'ils ont à dire! Ceci est particulièrement vrai pour les sociétés impliquées dans la veille technologique (disons, une société informatique qui souhaite connaître tous les articles de journaux et périodiques japonais relatifs à son activité) et des services de renseignements gouvernementaux (ceux qui procurent l'information la plus récente qui sera ensuite utilisée par les fonctionnaires pour décider de la politique, etc.). Un des principaux problèmes auxquels ces services doivent faire face est la très grande quantité d'informations. Ils recrutent donc du personnel bilingue 'passif' qui peut scanner rapidement les textes afin de supprimer ce qui est sans intérêt avant de donner les documents significatifs à des traducteurs professionnels. Manifestement, une combinaison de résumé automatique de texte et de traduction automatique sera très utile dans ce cas; comme la traduction automatique est longue, on peut d'abord résumer le texte dans la langue étrangère, puis faire une traduction automatique rapide à partir du résultat obtenu, laissant à un être humain ou un classificateur de texte (type recherche documentaire) le soin de décider si on doit garder l'article ou le rejeter.

Pour ces raisons, durant ces cinq dernières années, le gouvernement des États-Unis a financé des recherches en traduction automatique, en résumé automatique de texte et en recherche documentaire, et il s'intéresse au lancement d'un nouveau programme de recherche en informatique documentaire multilingue. On sera ainsi capable d'ouvrir un navigateur tel que Netscape ou Explorer, entrer une demande en anglais, et obtenir la liste des textes dans toutes les langues. Ces textes seront regroupés par sous-catégorie avec un résumé pour chacun et une traduction pour les résumés étrangers, toutes choses qui seraient très utiles."

Il ajoute en août 1999: "Durant les douze derniers mois, j'ai été contacté par un nombre surprenant de nouvelles sociétés et start-up en technologies de l'information. La plupart d'entre elles ont l'intention d'offrir des services liés au commerce électronique (vente en ligne, échange, collecte d'information, etc.). Étant donné les faibles résultats des technologies actuelles du traitement de la langue naturelle - ailleurs que dans les centres de recherche - c'est assez surprenant. Quand avez-vous pour la dernière fois trouvé rapidement une réponse correcte à une question posée sur le web, sans avoir eu à passer en revue pendant un certain temps des informations n'ayant rien à voir avec votre question? Cependant, à mon avis, tout le monde sent que les nouveaux développements en résumé automatique de texte, analyse des questions, etc., vont, je l'espère, permettre des progrès significatifs. Mais nous ne sommes pas encore arrivés à ce stade.

Il me semble qu'il ne s'agira pas d'un changement considérable, mais que nous arriverons à des résultats acceptables, et que l'amélioration se fera ensuite lentement et sûrement. Ceci s'explique par le fait qu'il est très difficile de faire en sorte que votre ordinateur 'comprenne' réellement ce que vous voulez dire - ce qui nécessite de notre part la construction informatique d'un réseau de 'concepts' et des relations de ces concepts entre eux - réseau qui, jusqu'à un certain stade au moins, reflèterait celui de l'esprit humain, au moins dans les domaines d'intérêt pouvant être regroupés par sujets. Le mot pris à la 'surface' n'est pas suffisant - par exemple quand vous tapez: 'capitale de la Suisse', les systèmes actuels n'ont aucun moyen de savoir si vous songez à 'capitale administrative' ou 'capitale financière'. Dans leur grande majorité, les gens préféreraient pourtant un type de recherche basé sur une expression donnée, ou sur une question donnée formulée en langage courant.

Plusieurs programmes de recherche sont en train d'élaborer de vastes réseaux de 'concepts', ou d'en proposer l'élaboration. Ceci ne peut se faire en deux ans, et ne peut amener rapidement un résultat satisfaisant. Nous devons développer à la fois le réseau et les techniques pour construire ces réseaux de manière semi-automatique, avec un système d'auto-adaptation. Nous sommes face à un défi majeur."

Il complète en septembre 2000: "Je vois de plus en plus de petites sociétés utiliser d'une manière ou d'une autre les technologies liées aux langues, pour des recherches, traductions, rapports ou autres services permettant de communiquer. Le nombre de créneaux dans lesquels ces technologies peuvent être utilisées continue de me surprendre, et cela va des rapports financiers et leurs mises à jour aux communications d'une société vers d'autres sociétés, en passant par le marketing.

En ce qui concerne la recherche, la principale avancée que je vois est due à Kevin Knight, un collègue de l'ISI, ce dont je suis très honoré. L'été dernier, une équipe de chercheurs et d'étudiants de l'Université Johns Hopkins, dans le Maryland, a développé une version à la fois meilleure et plus rapide d'une méthode développée à l'origine par IBM (et dont IBM reste propriétaire) il y a douze ans environ. Cette méthode permet de créer automatiquement un système de traduction automatique, dans la mesure où on lui fournit un volume suffisant de texte bilingue. Tout d'abord la méthode trouve toutes les correspondances entre les mots et la position des mots d'une langue à l'autre, et ensuite elle construit des tableaux très complets de règles entre le texte et sa traduction, et les expressions correspondantes.

Bien que la qualité du résultat soit encore loin d'être satisfaisante - personne ne pourrait considérer qu'il s'agit d'un produit fini, et personne ne pourrait utiliser le résultat tel quel - l'équipe a créé en vingt-quatre heures un système (élémentaire) de traduction automatique du chinois vers l'anglais. Ceci constitue un exploit phénoménal, qui n'avait jamais été réalisé auparavant. Les détracteurs du projet peuvent bien sûr dire qu'on a besoin dans ce cas de trois millions de phrases disponibles dans chaque langue, et qu'on ne peut se procurer une quantité pareille que dans les parlements du Canada, de Hong-Kong ou d'autres pays bilingues. Ils peuvent bien sûr arguer également la faible qualité du résultat. Mais le fait est que, tous les jours, on met en ligne des textes bilingues au contenu à peu près équivalent, et que la qualité de cette méthode va continuer de s'améliorer pour atteindre au moins celle des logiciels de traduction automatique actuels, qui sont conçus manuellement. J'en suis absolument certain.

D'autres développements sont moins spectaculaires. On observe une amélioration constante des résultats dans les systèmes pouvant décider de la traduction opportune d'un terme (homonyme) qui a des significations différentes [par exemple père, pair et père en français, ndlr]. On travaille beaucoup aussi sur la recherche d'informations par recoupement de langues (qui vous permettront bientôt de trouver sur le web des documents en chinois ou en français même si vous tapez vos questions en anglais). On voit également un développement rapide des systèmes qui répondent automatiquement à des questions simples (un peu comme le populaire AskJeeves utilisé sur le web, mais avec une gestion par ordinateur et non par des êtres humains). Ces systèmes renvoient à un grand volume de texte permettant de trouver des 'factiodes' (et non des opinions ou des motifs ou des chaînes d'événements) en réponse à des questions telles que: 'Quelle est la capitale de l'Ouganda?', ou bien: 'Quel âge a le président Clinton?', ou bien: 'Qui a inventé le procédé Xerox?', et leurs résultats obtenus sont plutôt meilleurs que ce à quoi je m'attendais."

# ISSCO

Rattaché à l'Université de Genève (Suisse), l'Institut Dalle Molle pour les études sémantiques et cognitives (ISSCO) mène des recherches théoriques et appliquées en linguistique computationnelle et en intelligence artificielle. Créé en 1972 par la Fondation Dalle Molle pour mener des recherches en cognition et en sémantique, l'institut en est venu à se spécialiser dans le traitement de la langue naturelle et, en particulier, dans le traitement multilingue des langues pour la traduction automatique, l'environnement linguistique, la génération multilingue, le traitement du discours, la collection de données, etc. Si l'université de Genève procure un soutien administratif et une infrastructure à l'ISSCO, la recherche est financée par des subventions et des contrats avec des organismes publics et privés. L'institut est multidisciplinaire et multinational, avec un petit groupe de permanents complété par un certain nombre de personnes sous contrat (spécialistes en informatique, linguistique, mathématiques, psychologie ou philosophie) restant de six mois à deux ans, ce qui permet une grande flexibilité et un échange continuel d'idées.

# UNDL Foundation

Développé sous l'égide de l'UNU/IAS (United Nations University/Institute of Advanced Studies - Université des Nations Unies/ Institut des études avancées) à Tokyo (Japon), l'UNL (universal networking language - langage d'interconnexion universel) est un projet de métalangage numérique pour l'encodage, le stockage, la recherche et la communication d'informations multilingues indépendamment d'une langue-source donnée, et donc d'un système de pensée donné. Ce métalangage est développé à partir de janvier 1997 au sein de l'UNL Program, un programme international impliquant de nombreux partenaires dans toutes les communautés linguistiques. En 1998, 120 chercheurs de par le monde travaillent sur un projet multilingue comportant 17 langues (allemand, anglais, arabe, brésilien, chinois, espagnol, français, hindou, indonésien, italien, japonais, letton, mongolien, russe, swahili et thaï). Ce programme se poursuit ensuite sous l'égide de l'UNDL Foundation (UNDL: Universal Networking Digital Language - Langage numérique d'interconnexion universel), fondée en janvier 2001.

Christian Boitet, directeur du Groupe d'étude pour la traduction automatique (GETA) à Grenoble, un des nombreux participants de l'UNL Program, explique en septembre 1998 en quoi consiste le projet: "Il s'agit non de TAO [traduction assistée par ordinateur] habituelle, mais de communication et recherche d'information multilingue. 14 groupes ont commencé le travail sur 12 langues (plus 2 annexes) depuis début 1997. L'idée est de développer un standard, dit UNL [universal networking language], qui serait le HTML du contenu linguistique, et pour chaque langue, de développer un générateur (dit 'déconvertisseur') accessible sur un ou plusieurs serveurs, et un 'enconvertisseur'. L'UNU [Université des Nations Unies] finance 50% du coût. D'après notre évaluation sur la première année, c'est plutôt 30 à 35%, car le travail (linguistique et informatique) est énorme, et le projet passionnant: les permanents des laboratoires s'y investissent plus que prévu. (…)

La déconversion tourne pour le japonais, le chinois, l'anglais, le portugais, l'indonésien, et commence à tourner pour le français, l'allemand, le russe, l'italien, l'espagnol, l'hindi, l'arabe et le mongol. Chaque langue a une base lexicale de 30.000 à 120.000 liens UW [universal word]—lexème. L'enconversion n'est pas (si on veut de la qualité pour du tout venant) une analyse classique. C'est une méthode de fabrication de graphes UNL [universal networking language] qui suppose une bonne part d'interaction, avec plusieurs possibilités: (a) analyse classique multiple suivie d'une désambiguïsation interactive en langue source, (b) entrée sous langage contrôlé, (c) encore plus séduisant (et encore pas clair, au niveau recherche pour l'instant), entrée directe via une interface graphique reliée à la base lexicale et à la base de connaissances. Les applications possibles sont le courriel multilingue, les informations multilingues, les dictionnaires actifs pour la lecture de langues étrangères sur le web, et bien sûr la TA [traduction automatique] de mauvaise qualité (ce qu'on trouve actuellement, mais pour tous les couples à cause de l'architecture à pivot) pour le surf web et la veille. On travaille actuellement sur les informations sportives sur le web, surtout sur le foot. On construit une base de documents, où chaque fichier est structuré (à la HTML) et contient, pour chaque énoncé, l'énoncé original, sa structure UNL, et autant de traductions qu'on en a obtenu. Un tel document peut être recherché dans une base en traduisant la question en UNL, puis affiché (le UNL viewer existe depuis un an) dans autant de fenêtres d'un brauser web que de langues sélectionnées."

En ce qui concerne les perspectives, "le projet a un problème de volume: grande surface, pas assez d'épaisseur. Il faudrait trois à cinq fois plus de monde partout pour que ça avance assez vite (pour que Microsoft et d'autres ne finissent pas par tout reprendre et revendre, alors qu'on vise une utilisation ouverte, du type de ce qu'on fait avec les serveurs et clients web). Les subventions des sociétés japonaises à l'UNU pour ce projet (et d'autres) se tarissent à cause de la crise japonaise. Le groupe central est beaucoup trop petit (quatre personnes qui font le logiciel, le japonais, l'anglais, l'administration, c'est peu même avec de la sous-traitance). De plus, le plan général est d'ouvrir aux autres langues de l'ONU en 2000. Il faudrait arriver à un état satisfaisant pour les treize autres avant. Du point de vue politique et culturel, ce projet est très important, en ce qu'il montre pour la première fois une voie possible pour construire divers outils soutenant l'usage de toutes les langues sur internet, qu'elles soient majoritaires ou minoritaires. En particulier, ce devrait être un projet majeur pour la francophonie. Dans l'état actuel des choses, je pense que l'élan initial a été donné, mais que la première phase (d'ici 2000) risque de retomber comme un soufflé si on ne consolide pas très vite le projet, dans chaque pays participant. Donc l'UNU cherche comment monter un soutien puissant à la mesure de cette ambition. Je pense que, pour la francophonie par exemple, il faudrait un groupe d'une dizaine de personnes ne se consacrant qu'à ce projet pendant au moins dix ans, plus des stagiaires et des collaborateurs sur le réseau, bénévoles ou intéressés par la mise à disposition gratuite de ressources et d'outils."