Le Livre 010101: Enquête - Marie Lebert

Dès leurs débuts, la traduction automatique et le traitement de la langue naturelle progressent de pair avec l'évolution de l'informatique quantitative. Pendant la seconde guerre mondiale, le développement des premiers ordinateurs programmables bénéficie des progrès de la cryptographie et des efforts faits pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite à la guerre, la traduction et l'analyse du texte en langue naturelle procurent une base de travail au secteur émergent des technologies de l'information.

Dans les années 50, la recherche porte sur la traduction littérale, à savoir la traduction mot à mot sans prise en compte des règles linguistiques. Le projet russe débuté à l'Université de Georgetown en 1950 représente la première tentative systématique visant à créer un système de traduction automatique utilisable. Des recherches sont également menées en Europe et aux Etats-Unis tout au long des années 50 et au début des années 60. Au même moment, les progrès rapides en linguistique théorique culminent en 1965 avec la publication de Aspects of the Theory and Syntax de Noam Chomsky, qui propose une nouvelle définition de la phonologie, de la morphologie, de la syntaxe et de la sémantique du langage humain.

En 1966, aux Etats-Unis, le rapport ALPAC fait une estimation prématurément négative de la valeur des systèmes de traduction automatique, et des perspectives offertes par ceux-ci, mettant fin au financement et à l'expérimentation dans ce domaine pour la décennie suivante. C'est seulement à la fin des années 70 que des tentatives sérieuses sont à nouveau entreprises, parallèlement aux progrès de l'informatique et des technologies des langues. Cette période voit aussi le développement de systèmes de transfert et l'émergence des premières tentatives commerciales. Des sociétés comme Systran et Metal sont persuadées que la traduction automatique est un marché viable et utile. Elles mettent sur pied des produits et services de traduction automatique reliés à un serveur central. Mais les problèmes sont nombreux: des coûts élevés de développement, une lexicographie demandant un énorme travail, des difficultés pour proposer de nouvelles combinaisons de langues, l'inaccessibilité de tels systèmes pour l'utilisateur moyen, et enfin la difficulté de passer à de nouveaux stades de développement.

15.2. Une qualité médiocre, puis des progrès sensibles

Le dernier en date des logiciels de traduction automatique est celui d'IBM, le WebSphere Translation Server. Le logiciel est capable de traduire instantanément en plusieurs langues des pages web, des courriers électroniques et des dialogues en direct (chats). Il interprète 500 mots à la seconde et permet d'ajouter des vocabulaires spécifiques (finance, sciences, etc.). Les fournisseurs de services en ligne et les entreprises peuvent proposer en espagnol, en allemand, en français et en italien leurs textes rédigés en anglais, et vice-versa. Les documents en anglais peuvent également être traduits en chinois, en japonais et en coréen, mais l'inverse est impossible. Testé notamment par la Deutsche Bank, le logiciel est commercialisé en mars 2001 pour 10.000 $US (10.500 euros). "Jusqu'à présent, l'industrie de la traduction automatique n'était constituée que de quelques sociétés et ne possédait pas de leader clairement établi. L'entrée d'IBM sur ce marché représente un tournant majeur et permettra d'accélérer l'adoption de la traduction par ordinateur, un marché estimé à 378 millions de dollars (397 millions d'euros, ndlr) à l'horizon 2003", déclare dans un communiqué (cité par l'AFP) Steve McClure, vice-président du Speech and Natural Language Software, une des branches du cabinet de conseil International Data Corporation.

Il n'empêche, les "quelques sociétés" concurrentes d'IBM ont de nombreuses réalisations à leur actif. Softissimo, éditeur de logiciels de traduction automatique et d'apprentissage des langues, est la société créatrice de Reverso, une série de logiciels de traduction. La société est également l'auteur de produits d'écriture multilingue, de dictionnaires électroniques, d'aide à la rédaction et de méthodes de langues. Reverso équipe notamment Voilà, le moteur de recherche de France Télécom. Systran (acronyme de : System Translation) est spécialisé dans la technologie et les logiciels de traduction automatique. Son logiciel est utilisé notamment dans AltaVista World, le service de traduction automatique d'AltaVista. Alis Technologies propose des technologies et des services de consultation en matière de communication linguistique. Lernout & Hauspie (L&H) est le leader mondial des technologies de reconnaissance vocale. La société propose des produits et services en matière de dictée, traduction, compression vocale, synthèse vocale et documentation industrielle automatiques, et ce pour le grand public, les professionnels et les industriels.

Des équipes de recherche sont également très actives. En voici quelques-unes. Financé par le programme HLT (Human Language Technologies) de la Communauté européenne, ELSNET (European Network of Excellence in Human Language Technologies) regroupe 135 universités et sociétés de 26 pays différents spécialisées dans les technologies de la langue et de la parole. Au sein du Laboratoire CLIPS (Communication langagière et interaction personne-système) de l'Institut d'informatique et mathématiques appliquées (IMAG) de Grenoble, le GETA (Groupe d'étude pour la traduction automatique) est une équipe pluridisciplinaire formée d'informaticiens et de linguistes. Ses thèmes de recherche concernent tous les aspects théoriques, méthodologiques et pratiques de la traduction assistée par ordinateur (TAO), et plus généralement de l'informatique multilingue. Le GETA participe à l'Universal Networking Language Programme (UNLP), un projet de "métalangage numérique" pour l'encodage, le stockage, la recherche et la communication d'informations multilingues indépendamment d'une langue source - et donc d'un système de pensée - donnée. Ce projet est mené sous l'égide de l'Université des Nations unies (UNU, Tokyo). Dans le cadre de l'Institut des sciences de l'information (ISI) de l'Université de Californie du Sud (USC), le Natural Language Group traite de plusieurs aspects du traitement de la langue naturelle: traduction automatique, résumé automatique de texte, accès multilingue aux verbes et gestion du texte, développement de taxonomies de concepts (ontologies), discours et génération de texte, élaboration d'importants lexiques pour plusieurs langues, et communication multimédias.

Recueillis sur trois ans (1998, 1999, 2000), les propos d'Eduard Hovy, directeur du Natural Language Group, sont éclairants sur les progrès récents de la traduction automatique.

Ses commentaires en août 1998: "Dans le contexte de la recherche documentaire et du résumé automatique de texte, le multilinguisme sur le web est un facteur qui ajoute à la complexité du sujet. Les gens écrivent dans leur propre langue pour diverses raisons: commodité, discrétion, communication à l'échelon local, mais ceci ne signifie pas que d'autres personnes ne soient pas intéressées de lire ce qu'ils ont à dire! Ceci est particulièrement vrai pour les sociétés impliquées dans la veille technologique (disons une société informatique qui souhaite connaître tous les articles de journaux et périodiques japonais relatifs à son activité) et des services de renseignements gouvernementaux ceux qui procurent l'information la plus récente, utilisée ensuite par les fonctionnaires pour décider de la politique, etc.). Un des principaux problèmes auquel ces services doivent faire face est la très grande quantité d'informations. Ils recrutent donc du personnel bilingue 'passif' qui peut scanner rapidement les textes afin de mettre de côté ce qui est sans intérêt et de donner ensuite les documents significatifs à des traducteurs professionnels. Manifestement, une combinaison de résumé automatique de texte et de traduction automatique sera très utile dans ce cas. Comme la traduction automatique est longue, on peut d'abord résumer le texte dans la langue étrangère, puis effectuer une traduction automatique rapide à partir du résultat obtenu, en laissant à un être humain ou un classificateur de texte (du type recherche documentaire) le soin de décider si on doit garder l'article ou le rejeter.

Pour ces raisons, durant ces cinq dernières années, le gouvernement des Etats-Unis a financé des recherches en traduction automatique, en résumé automatique de texte et en recherche documentaire, et il s'intéresse au lancement d'un nouveau programme de recherche en informatique documentaire multilingue. On sera ainsi capable d'ouvrir un navigateur tel que Netscape ou Explorer, entrer une demande en anglais, et obtenir la liste des documents dans toutes les langues. Ces documents seront regroupés par sous-catégorie avec un résumé pour chacun et une traduction pour les résumés étrangers, toutes choses qui seraient très utiles.