L'Internet et les langues - Marie Lebert

Pour ces raisons, durant ces cinq dernières années, le gouvernement des États-Unis a financé des recherches en traduction automatique, en résumé automatique de texte et en recherche documentaire, et il s'intéresse au lancement d'un nouveau programme de recherche en informatique documentaire multilingue. On sera ainsi capable d'ouvrir un navigateur tel que Netscape ou Explorer, entrer une demande en anglais, et obtenir la liste des textes dans toutes les langues. Ces textes seront regroupés par sous-catégorie avec un résumé pour chacun et une traduction pour les résumés étrangers, toutes choses qui seraient très utiles."

Il ajoute en août 1999: "Durant les douze derniers mois, j'ai été contacté par un nombre surprenant de nouvelles sociétés et start-up en technologies de l'information. La plupart d'entre elles ont l'intention d'offrir des services liés au commerce électronique (vente en ligne, échange, collecte d'information, etc.). Étant donné les faibles résultats des technologies actuelles du traitement de la langue naturelle - ailleurs que dans les centres de recherche - c'est assez surprenant. Quand avez-vous pour la dernière fois trouvé rapidement une réponse correcte à une question posée sur le web, sans avoir eu à passer en revue pendant un certain temps des informations n'ayant rien à voir avec votre question? Cependant, à mon avis, tout le monde sent que les nouveaux développements en résumé automatique de texte, analyse des questions, etc., vont, je l'espère, permettre des progrès significatifs. Mais nous ne sommes pas encore arrivés à ce stade.

Il me semble qu'il ne s'agira pas d'un changement considérable, mais que nous arriverons à des résultats acceptables, et que l'amélioration se fera ensuite lentement et sûrement. Ceci s'explique par le fait qu'il est très difficile de faire en sorte que votre ordinateur 'comprenne' réellement ce que vous voulez dire - ce qui nécessite de notre part la construction informatique d'un réseau de 'concepts' et des relations de ces concepts entre eux - réseau qui, jusqu'à un certain stade au moins, reflèterait celui de l'esprit humain, au moins dans les domaines d'intérêt pouvant être regroupés par sujets. Le mot pris à la 'surface' n'est pas suffisant - par exemple quand vous tapez: 'capitale de la Suisse', les systèmes actuels n'ont aucun moyen de savoir si vous songez à 'capitale administrative' ou 'capitale financière'. Dans leur grande majorité, les gens préféreraient pourtant un type de recherche basé sur une expression donnée, ou sur une question donnée formulée en langage courant.

Plusieurs programmes de recherche sont en train d'élaborer de vastes réseaux de 'concepts', ou d'en proposer l'élaboration. Ceci ne peut se faire en deux ans, et ne peut amener rapidement un résultat satisfaisant. Nous devons développer à la fois le réseau et les techniques pour construire ces réseaux de manière semi-automatique, avec un système d'auto-adaptation. Nous sommes face à un défi majeur."

Il complète en septembre 2000: "Je vois de plus en plus de petites sociétés utiliser d'une manière ou d'une autre les technologies liées aux langues, pour des recherches, traductions, rapports ou autres services permettant de communiquer. Le nombre de créneaux dans lesquels ces technologies peuvent être utilisées continue de me surprendre, et cela va des rapports financiers et leurs mises à jour aux communications d'une société vers d'autres sociétés, en passant par le marketing.

En ce qui concerne la recherche, la principale avancée que je vois est due à Kevin Knight, un collègue de l'ISI, ce dont je suis très honoré. L'été dernier, une équipe de chercheurs et d'étudiants de l'Université Johns Hopkins, dans le Maryland, a développé une version à la fois meilleure et plus rapide d'une méthode développée à l'origine par IBM (et dont IBM reste propriétaire) il y a douze ans environ. Cette méthode permet de créer automatiquement un système de traduction automatique, dans la mesure où on lui fournit un volume suffisant de texte bilingue. Tout d'abord la méthode trouve toutes les correspondances entre les mots et la position des mots d'une langue à l'autre, et ensuite elle construit des tableaux très complets de règles entre le texte et sa traduction, et les expressions correspondantes.

Bien que la qualité du résultat soit encore loin d'être satisfaisante - personne ne pourrait considérer qu'il s'agit d'un produit fini, et personne ne pourrait utiliser le résultat tel quel - l'équipe a créé en vingt-quatre heures un système (élémentaire) de traduction automatique du chinois vers l'anglais. Ceci constitue un exploit phénoménal, qui n'avait jamais été réalisé auparavant. Les détracteurs du projet peuvent bien sûr dire qu'on a besoin dans ce cas de trois millions de phrases disponibles dans chaque langue, et qu'on ne peut se procurer une quantité pareille que dans les parlements du Canada, de Hong-Kong ou d'autres pays bilingues. Ils peuvent bien sûr arguer également la faible qualité du résultat. Mais le fait est que, tous les jours, on met en ligne des textes bilingues au contenu à peu près équivalent, et que la qualité de cette méthode va continuer de s'améliorer pour atteindre au moins celle des logiciels de traduction automatique actuels, qui sont conçus manuellement. J'en suis absolument certain.

D'autres développements sont moins spectaculaires. On observe une amélioration constante des résultats dans les systèmes pouvant décider de la traduction opportune d'un terme (homonyme) qui a des significations différentes [par exemple père, pair et père en français, ndlr]. On travaille beaucoup aussi sur la recherche d'informations par recoupement de langues (qui vous permettront bientôt de trouver sur le web des documents en chinois ou en français même si vous tapez vos questions en anglais). On voit également un développement rapide des systèmes qui répondent automatiquement à des questions simples (un peu comme le populaire AskJeeves utilisé sur le web, mais avec une gestion par ordinateur et non par des êtres humains). Ces systèmes renvoient à un grand volume de texte permettant de trouver des 'factiodes' (et non des opinions ou des motifs ou des chaînes d'événements) en réponse à des questions telles que: 'Quelle est la capitale de l'Ouganda?', ou bien: 'Quel âge a le président Clinton?', ou bien: 'Qui a inventé le procédé Xerox?', et leurs résultats obtenus sont plutôt meilleurs que ce à quoi je m'attendais."

# ISSCO

Rattaché à l'Université de Genève (Suisse), l'Institut Dalle Molle pour les études sémantiques et cognitives (ISSCO) mène des recherches théoriques et appliquées en linguistique computationnelle et en intelligence artificielle. Créé en 1972 par la Fondation Dalle Molle pour mener des recherches en cognition et en sémantique, l'institut en est venu à se spécialiser dans le traitement de la langue naturelle et, en particulier, dans le traitement multilingue des langues pour la traduction automatique, l'environnement linguistique, la génération multilingue, le traitement du discours, la collection de données, etc. Si l'université de Genève procure un soutien administratif et une infrastructure à l'ISSCO, la recherche est financée par des subventions et des contrats avec des organismes publics et privés. L'institut est multidisciplinaire et multinational, avec un petit groupe de permanents complété par un certain nombre de personnes sous contrat (spécialistes en informatique, linguistique, mathématiques, psychologie ou philosophie) restant de six mois à deux ans, ce qui permet une grande flexibilité et un échange continuel d'idées.