Entretiens (1998-2001) - Marie Lebert

Pour équilibrer ces deux tendances, je pense que l'information à l'état brut - et certaines ressources à l'état brut: langages de programmation ou moyens d'accès à l'information de base comme les navigateurs web - doivent être disponibles gratuitement. Ceci crée un marché et permet aux gens de les utiliser. Par contre l'information traitée et les systèmes vous permettant d'obtenir et structurer très exactement ce dont vous avez besoin doivent être payants. Cela permet de financer ceux qui développent ces nouvelles technologies.

Prenons un exemple: à l'heure actuelle, un dictionnaire n'est pas disponible gratuitement. Les sociétés éditrices de dictionnaires refusent de les mettre librement à la disposition des chercheurs et de toute personne intéressée, et elles avancent l'argument que ces dictionnaires ont demandé des siècles de travail (j'ai eu plusieurs discussions à ce sujet avec des sociétés de dictionnaires). Mais de nos jours les dictionnaires sont des instruments stupides: on doit connaître le mot avant de le trouver! J'aimerais avoir un outil qui me permette de donner une définition approximative, ou peut-être une phrase ou deux incluant un espace pour le mot que je cherche, ou même l'équivalent de ce mot dans une autre langue, et que la réponse me revienne avec le(s) mot(s) que je cherche. Un tel outil n'est pas compliqué à construire, mais il faut d'abord le dictionnaire de base. Je pense que ce dictionnaire de base devrait être en accès libre. Par contre on pourrait facturer l'utilisation du moteur de recherche ou du service permettant d'entrer une information - partielle ou non - qui soit très "ciblée", afin d'obtenir le meilleur résultat.

Voici un deuxième exemple. On devrait avoir accès librement à la totalité du web, et à tous les moteurs de recherche "de base" du type de ceux qu'on trouve aujourd'hui. Pas de copyright et pas de licence. Mais si on a besoin d'un moteur de recherche qui procure une réponse très "ciblée" et très fiable, je pense qu'il ne serait pas déraisonnable que ce service soit facturé.

Le créateur d'une encyclopédie ne va naturellement pas aimer ma proposition. Mais je lui suggérerais d'équiper son encyclopédie d'un système d'accès performant. Sans ce système, l'information brute donnée par cette encyclopédie n'est qu'un stock d'informations et rien d'autre, et ce stock peut aisément se perdre dans une masse considérable d'informations qui augmente tous les jours.

*Entretien du 2 septembre 2000 (entretien original en anglais)

= Quoi de neuf depuis notre dernier entretien?

Je vois de plus en plus de petites sociétés utiliser d'une manière ou d'une autre les technologies liées aux langues, pour procurer des recherches, des traductions, des rapports ou d'autres services permettant de communiquer. Le nombre de créneaux dans lesquels ces technologies peuvent être utilisées continue de me surprendre, et cela va des rapports financiers et leurs mises à jour aux communications d'une société à l'autre en passant par le marketing.

En ce qui concerne la recherche, la principale avancée que je vois est due à Kevin Knight, un collègue de l'ISI (Institut des sciences de l'information de l'Université de Californie du Sud), ce dont je suis très honoré. L'été dernier, une équipe de chercheurs et d'étudiants de l'Université Johns Hopkins (Maryland) a développé une version à la fois meilleure et plus rapide d'une méthode développée à l'origine par IBM (et dont IBM reste propriétaire) il y a douze ans environ. Cette méthode permet de créer automatiquement un système de traduction automatique, dans la mesure où on lui fournit un volume suffisant de texte bilingue. Tout d'abord la méthode trouve toutes les correspondances entre les mots et la position des mots d'une langue à l'autre, et ensuite elle construit des tableaux très complets de règles entre le texte et sa traduction, et les expressions correspondantes.

Bien que la qualité du résultat soit encore loin d'être satisfaisante - personne ne pourrait considérer qu'il s'agit d'un produit fini, et personne ne pourrait utiliser le résultat tel quel - l'équipe a créé en vingt-quatre heures un système (élémentaire) de traduction automatique du chinois vers l'anglais. Ceci constitue un exploit phénoménal, qui n'avait jamais été réalisé avant. Les détracteurs du projet peuvent bien sûr dire qu'on a besoin dans ce cas de trois millions de phrases disponibles dans chaque langue, et qu'on ne peut se procurer une quantité pareille que dans les parlements du Canada, de Hong-Kong ou d'autres pays bilingues. Ils peuvent bien sûr arguer également de la faible qualité du résultat. Mais le fait est que, tous les jours, on met en ligne des textes bilingues au contenu à peu près équivalent, et que la qualité de cette méthode va continuer de s'améliorer pour atteindre au moins celle des logiciels de traduction automatique actuels, qui sont conçus manuellement. J'en suis absolument certain.

D'autres développements sont moins spectaculaires. On observe une amélioration constante des résultats dans les systèmes pouvant décider de la traduction opportune d'un terme (homonyme) qui a des significations différentes (par exemple père, pair et père, ndlr). On travaille beaucoup aussi sur la recherche d'information par recoupement de langues (qui vous permettront bientôt de trouver sur le web des documents en chinois et en français même si vous tapez vos questions en anglais). On voit également un développement rapide des systèmes qui répondent automatiquement à des questions simples (un peu comme le populaire AskJeeves utilisé sur le web, mais avec une gestion par ordinateur et non par des êtres humains). Ces systèmes renvoient à un grand volume de texte permettant de trouver des "factiodes" (et non des opinions ou des motifs ou des chaînes d'événements) en réponse à des questions telles que: "Quelle est la capitale de l'Ouganda?", ou bien: "Quel âge a le président Clinton?", ou bien: "Qui a inventé le procédé Xerox?", et leurs résultats obtenus sont plutôt meilleurs que ce à quoi je m'attendais.