En 1998, un historique de la traduction automatique est présent sur le site de Globalink, société spécialisée dans les produits et services de traduction. Le site a depuis disparu, Globalink ayant été racheté en 1999 par Lernout & Hauspie, lui-même racheté en 2002 par ScanSoft. Voici cet historique résumé en deux paragraphes.
La traduction automatique et le traitement de la langue naturelle font leur apparition à la fin des années 1930, et progressent ensuite de pair avec l’évolution de l’informatique quantitative. Pendant la deuxième guerre mondiale, le développement des premiers ordinateurs programmables bénéficie des progrès de la cryptographie et des efforts faits pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Le secteur émergent des technologies de l’information continue ensuite de s’intéresser de près à la traduction et à l’analyse du texte en langue naturelle. Dans les années 1950, la recherche porte sur la traduction littérale, à savoir la traduction mot à mot sans prise en compte des règles linguistiques. Le projet russe débuté en 1950 à l’Université de Georgetown représente la première tentative systématique visant à créer un système de traduction automatique utilisable. Tout au long des années 1950 et au début des années 1960, des recherches sont également menées en Europe et aux Etats-Unis. En 1965, les progrès rapides en linguistique théorique culminent avec la publication d’Aspects de la théorie syntaxique de Noam Chomsky, qui propose de nouvelles définitions pour la phonologie, la morphologie, la syntaxe et la sémantique du langage humain. En 1966, un rapport officiel américain donne une estimation prématurément négative des systèmes de traduction automatique, mettant fin au financement et à l’expérimentation dans ce domaine pour la décennie suivante.
Il faut attendre la fin des années 1970 pour que des expériences sérieuses soient à nouveau entreprises, parallèlement aux progrès de l’informatique et des technologies des langues. Cette période voit le développement de systèmes de transfert d’une langue à l’autre et le lancement des premières tentatives commerciales. Des sociétés comme Systran et Metal sont persuadées de la viabilité et de l’utilité d’un tel marché. Elles mettent sur pied des produits et services de traduction automatique reliés à un serveur central. Mais les problèmes restent nombreux, par exemple des coûts élevés de développement, un énorme travail lexicographique, la difficulté de proposer de nouvelles combinaisons de langues, l’inaccessibilité de tels systèmes pour l’utilisateur moyen, et enfin la difficulté de passer à de nouveaux stades de développement.
En 1999 et 2000, la généralisation de l’internet et les débuts du commerce électronique entraînent la naissance d’un véritable marché. Trois sociétés – Systran, Softissimo et Lernout & Hauspie – lancent des produits à destination du grand public, des professionnels et des industriels. Systran développe un logiciel de traduction utilisé notamment par le moteur de recherche AltaVista. Softissimo commercialise la série de logiciels de traduction Reverso, à côté de produits d’écriture multilingue, de dictionnaires électroniques et de méthodes de langues. Reverso équipe par exemple Voilà, le moteur de recherche de France Télécom. Lernout & Hauspie (racheté depuis par ScanSoft) propose des produits et services en dictée, traduction, compression vocale, synthèse vocale et documentation industrielle.
En mars 2001, IBM se lance à son tour dans un marché en pleine expansion avec un produit professionnel haut de gamme, le WebSphere Translation Server. Ce logiciel traduit instantanément en plusieurs langues (allemand, anglais, chinois, coréen, espagnol, français, italien, japonais) les pages web, les courriels et les dialogues en direct (chats). Il interprète 500 mots à la seconde et permet l’ajout de vocabulaires spécifiques.
En juin 2001, les sociétés Logos et Y.A. Champollion s’associent pour créer Champollion Wordfast, une société de services d’ingénierie en traduction et localisation et en gestion de contenu multilingue. Wordfast est un logiciel de traduction avec terminologie disponible en temps réel et contrôle typographique. Il est compatible avec le WebSphere Translation Server d’IBM, les logiciels de TMX et ceux de Trados. Une version simplifiée de Wordfast est téléchargeable gratuitement, avec un manuel d’utilisation disponible en 16 langues.
Des organismes publics participent eux aussi à la R&D (recherche et développement) en traduction automatique. Suivent trois exemples parmi d’autres.
Rattaché à l’USC/ISI (University of Southern California / Information Sciences Institute), le Natural Language Group traite de plusieurs aspects du traitement de la langue naturelle: traduction automatique, résumé automatique de texte, gestion multilingue des verbes, développement de taxinomies de concepts (ontologies), génération de texte, élaboration de gros lexiques multilingues, communication multimédia.
Au sein du laboratoire CLIPS (Communication langagière et interaction personne-système) de l’Institut d’informatique et mathématiques appliquées (IMAG) de Grenoble, le GETA (Groupe d’étude pour la traduction automatique) est une équipe pluridisciplinaire formée d’informaticiens et de linguistes. Ses thèmes de recherche concernent tous les aspects théoriques, méthodologiques et pratiques de la traduction assistée par ordinateur (TAO), et plus généralement de l’informatique multilingue.
Le GETA participe entre autres à l’élaboration de l’UNL (universal networking language), un métalangage numérique destiné à l’encodage, au stockage, à la recherche et à la communication d’informations multilingues indépendamment d’une langue source donnée. Ce métalangage est développé par l’UNL Program, un programme international rassemblant de nombreux partenaires dans toutes les communautés linguistiques. Créé dans le cadre de l’UNU/IAS (United Nations University / Institute of Advanced Studies), ce programme se poursuit désormais sous l’égide de l’UNDL Foundation (UNDL: universal networking digital language).