Le Computing Research Laboratory (CRL) (Laboratoire de recherche informatique) à la New Mexico State University (NMSU) (Université d'Etat du Nouveau Mexique - Etats-Unis) est un centre de recherche à but non lucratif qui se consacre à la recherche de base et au développement de logiciels dans les applications informatiques avancées du traitement de la langue naturelle, de l'intelligence artificielle et de la conception d'interfaces graphiques pour les utilisateurs. Les applications développées à partir de cette recherche de base incluent un ensemble de configurations de traduction automatique, extraction d'information, acquisition du savoir, enseignement intelligent, et systèmes de traduction pour poste de travail.
Géré par le Département de linguistique du Groupe de recherche sur la traduction de l'Université Brigham Young (Utah, USA), TTT.org (Translation, Theory and Technology) (Traduction, théorie et technologie) procure des informations sur la théorie et la technologie de la langue, particulièrement dans le domaine de la traduction. La technologie de la traduction inclut les outils de traduction pour poste de travail et la traduction automatique.
TTT.org s'intéresse aussi aux normes d'échanges de données permettant à divers outils de fonctionner en lien les uns avec les autres, ce qui permet l'intégration d'outils de la part de vendeurs multiples dans la chaîne multilingue de production de documents. Dans ce domaine, TTT.org est impliqué dans le développement de MARTIF (machine-readable terminology interchange format - format d'échange de terminologie lisible par la machine), un format permettant de faciliter l'interaction de données terminologiques entre les systèmes de gestion de terminologie. Ce format est le résultat de plusieurs années de collaboration internationale intense entre les terminologues et les experts en bases de données de plusieurs organisations, incluant les organismes universitaires, la Text Encoding Initiative (TEI) (Initiative pour le codage du texte) et la Localisation Industry Standards Association (LISA) (Association pour les normes de l'industrie de la localisation).
Le Natural Language Group (NLG) (Groupe de langue naturelle) de l'USC/ISI (University of Southern California/Information Sciences Institute - Université de la Californie du Sud/Institut des sciences de l'information) traite de plusieurs aspects du traitement de la langue naturelle: traduction automatique, résumé automatique de texte, accès multilingue aux verbes et gestion du texte, développement de taxonomies de concepts (ontologies), discours et génération de texte, élaboration de grands lexiques pour plusieurs langues, et communication multimédias.
Eduard Hovy, directeur du Natural Language Group, expliquait dans son courrier électronique du 27 août 1998:
"Le plan de votre étude me paraît très intéressant. Je me demande cependant où vous présentez les applications et fonctionnalités n'ayant pas trait à la traduction, comme la recherche documentaire et le résumé automatique de texte. On ne peut rien trouver sur le Web sans recherche documentaire, et tous les engins de recherche (AltaVista, Yahoo!, etc.) sont basés sur cette technologie. De même, bien que ceci soit plus récent, il y a des chances pour que beaucoup de gens utilisent bientôt des fonctions de résumé automatique pour condenser ou extraire le contenu principal d'un document long ou d'un ensemble de documents. […]
Dans ce contexte, le multilinguisme sur le Web est un autre facteur de complexité. Les gens écrivent dans leur propre langue pour diverses raisons: commodité, discrétion, communication locale, mais ceci ne signifie pas que d'autres personnes ne soient pas intéressées de lire ce qu'ils ont à dire! Ceci est particulièrement vrai pour les sociétés impliquées dans la veille technologique (disons, une société informatique qui souhaite connaître tous les articles de journaux et périodiques japonais relatifs à son activité) et des services de renseignements gouvernementaux (ceux qui procurent l'information la plus récente qui sera ensuite utilisée par les fonctionnaires pour décider de la politique, etc.). Un des principaux problèmes auquel ces services doivent faire face est la très grande quantité d'informations. Ils recrutent donc du personnel bilingue 'passif' qui peut scanner rapidement les textes afin de supprimer ce qui est sans intérêt avant de donner les documents significatifs à des traducteurs professionnels. Manifestement, une combinaison de résumé automatique de texte et de traduction automatique sera très utile dans ce cas; comme la traduction automatique est longue, on peut d'abord résumer le texte dans la langue étrangère, puis faire une traduction automatique rapide à partir du résultat obtenu, laissant à un être humain ou un classificateur de texte (type recherche documentaire) le soin de décider si on doit garder l'article ou le rejeter.
Pour ces raisons, durant ces cinq dernières années, le gouvernement des Etats-Unis a financé des recherches en traduction automatique, en résumé automatique de texte et en recherche documentaire, et il s'intéresse au lancement d'un nouveau programme de recherche en informatique documentaire multilingue. On sera ainsi capable d'ouvrir un navigateur tel que Netscape ou Explorer, entrer une demande en anglais, et obtenir la liste des textes dans toutes les langues. Ces textes seront regroupés par sous-catégorie avec un résumé pour chacun et une traduction pour les résumés étrangers, toutes choses qui seraient très utiles.
En consultant le MuST Multilingual Information Retrieval, Summarization, and Translation System (Système MuST de recherche documentaire, résumé et traduction multilingues), vous aurez une démonstration de notre version de ce programme de recherche, qui utilise l'anglais comme langue de l'utilisateur sur un ensemble d'environ 5.000 textes en anglais, japonais, arabe, espagnol et indonésien.
Entrez votre demande (par exemple, 'baby', ou ce que vous voulez) et appuyez sur la touche 'Retour'. Dans la fenêtre du milieu vous verrez les titres (ou bien les mots-clés, traduits). Sur la gauche vous verrez la langue de ces documents: 'Sp' pour espagnol, 'Id' pour indonésien, etc. Cliquez sur le numéro situé sur la partie gauche de chaque ligne pour voir le document dans la fenêtre du bas. Cliquez sur 'Summarize' pour obtenir le résumé. Cliquez sur 'Translate' pour obtenir la traduction (attention, les traductions en arabe et en japonais sont extrêmement lentes! Essayez plutôt l'indonésien pour une traduction rapide mot à mot).