En consultant MuST (multilingual information retrieval, summarization, and translation system), vous aurez une démonstration de notre version de ce programme de recherche, qui utilise l'anglais comme langue de l'utilisateur sur un ensemble d'environ 5.000 textes en anglais, japonais, arabe, espagnol et indonésien.
Entrez votre demande (par exemple, "baby", ou tout autre terme) et appuyez sur la touche Retour. Dans la fenêtre du milieu vous verrez les titres (ou bien les mots-clés, traduits). Sur la gauche vous verrez la langue de ces documents: "Sp" pour espagnol, "Id" pour indonésien, etc. Cliquez sur le numéro situé sur la partie gauche de chaque ligne pour voir le document dans la fenêtre du bas. Cliquez sur "Summarize" pour obtenir le résumé. Cliquez sur "Translate" pour obtenir la traduction (attention, les traductions en arabe et en japonais sont extrêmement lentes! Essayez plutôt l'indonésien pour une traduction rapide mot à mot).
Ce programme de démonstration n'est pas (encore) un produit. Nous avons de nombreuses recherches à mener pour améliorer la qualité de chaque étape. Mais ceci montre la direction dans laquelle nous allons.
*Entretien du 8 août 1999 (entretien original en anglais)
= Quoi de neuf depuis notre premier entretien?
Durant les douze derniers mois, j'ai été contacté par un nombre surprenant de nouvelles sociétés et start-up en technologies de l'information. La plupart d'entre elles ont l'intention d'offrir des services liés au commerce électronique (vente en ligne, échange, collecte d'information, etc.). Etant donné les faibles résultats des technologies actuelles du traitement de la langue naturelle - ailleurs que dans les centres de recherche - c'est assez surprenant. Quand avez-vous pour la dernière fois trouvé rapidement une réponse correcte à une question posée sur le web, sans avoir eu à passer en revue pendant un certain temps des informations n'ayant rien à voir avec votre question? Cependant, à mon avis, tout le monde sent que les nouveaux développements en résumé automatique de texte, analyse des questions, etc., vont, je l'espère, permettre des progrès significatifs. Mais nous ne sommes pas encore arrivés à ce stade.
Il me semble qu'il ne s'agira pas d'un changement considérable, mais que nous arriverons à des résultats acceptables, et que l'amélioration se fera ensuite lentement et sûrement. Ceci s'explique par le fait qu'il est très difficile de faire en sorte que votre ordinateur "comprenne" réellement ce que vous voulez dire - ce qui nécessite de notre part la construction informatique d'un réseau de "concepts" et des relations de ces concepts entre eux - réseau qui, jusqu'à un certain stade au moins, reflèterait celui de l'esprit humain, au moins dans les domaines d'intérêt pouvant être regroupés par sujets. Le mot pris à la "surface" n'est pas suffisant - par exemple quand vous tapez: "capitale de la Suisse", les systèmes actuels n'ont aucun moyen de savoir si vous songez à "capitale administrative" ou "capitale financière". Dans leur grande majorité, les gens préféreraient pourtant un type de recherche basé sur une expression donnée, ou sur une question donnée formulée en langage courant.
Plusieurs programmes de recherche sont en train d'élaborer de vastes réseaux de "concepts", ou d'en proposer l'élaboration. Ceci ne peut se faire en deux ans, et ne peut amener rapidement un résultat satisfaisant. Nous devons développer à la fois le réseau et les techniques pour construire ces réseaux de manière semi-automatique, avec un système d'auto-adaptation. Nous sommes face à un défi majeur.
= Que pensez-vous des débats liés au respect du droit d'auteur sur le web?
Quelles solutions pratiques suggérez-vous?
En tant qu'universitaire, je suis bien sûr un des parasites de notre société, et donc tout à fait en faveur de l'accès libre à la totalité de l'information. En tant que co-propriétaire d'une petite start-up, je suis conscient du coût que représente la collecte et la présentation de l'information, et de la nécessité de faire payer ce service d'une manière ou d'une autre.