Entretiens / Interviews / Entrevistas - Marie Lebert

En tant qu'universitaire, je suis bien sûr un des parasites de notre société, et donc tout à fait en faveur de l'accès libre à la totalité de l'information. En tant que co-propriétaire d'une petite start-up, je suis conscient du coût que représente la collecte et la présentation de l'information, et de la nécessité de faire payer ce service d'une manière ou d'une autre.

Pour équilibrer ces deux tendances, je pense que l'information à l'état brut - et certaines ressources à l'état brut: langages de programmation ou moyens d'accès à l'information de base comme les navigateurs web - doivent être disponibles gratuitement. Ceci crée un marché et permet aux gens de les utiliser. Par contre l'information traitée et les systèmes vous permettant d'obtenir et structurer très exactement ce dont vous avez besoin doivent être payants. Cela permet de financer ceux qui développent ces nouvelles technologies.

Prenons un exemple: à l'heure actuelle, un dictionnaire n'est pas disponible gratuitement. Les sociétés éditrices de dictionnaires refusent de les mettre librement à la disposition des chercheurs et de toute personne intéressée, et elles avancent l'argument que ces dictionnaires ont demandé des siècles de travail (j'ai eu plusieurs discussions à ce sujet avec des sociétés de dictionnaires). Mais de nos jours les dictionnaires sont des instruments stupides: on doit connaître le mot avant de le trouver! J'aimerais avoir un outil qui me permette de donner une définition approximative, ou peut-être une phrase ou deux incluant un espace pour le mot que je cherche, ou même l'équivalent de ce mot dans une autre langue, et que la réponse me revienne avec le(s) mot(s) que je cherche. Un tel outil n'est pas compliqué à construire, mais il faut d'abord le dictionnaire de base. Je pense que ce dictionnaire de base devrait être en accès libre. Par contre on pourrait facturer l'utilisation du moteur de recherche ou du service permettant d'entrer une information - partielle ou non - qui soit très "ciblée", afin d'obtenir le meilleur résultat.

Voici un deuxième exemple. On devrait avoir accès librement à la totalité du web, et à tous les moteurs de recherche "de base" du type de ceux qu'on trouve aujourd'hui. Pas de copyright et pas de licence. Mais si on a besoin d'un moteur de recherche qui procure une réponse très "ciblée" et très fiable, je pense qu'il ne serait pas déraisonnable que ce service soit facturé.

Le créateur d'une encyclopédie ne va naturellement pas aimer ma proposition. Mais je lui suggérerais d'équiper son encyclopédie d'un système d'accès performant. Sans ce système, l'information brute donnée par cette encyclopédie n'est qu'un stock d'informations et rien d'autre, et ce stock peut aisément se perdre dans une masse considérable d'informations qui augmente tous les jours.

*Entretien du 2 septembre 2000 (entretien original en anglais)

= Quoi de neuf depuis notre dernier entretien?

Je vois de plus en plus de petites sociétés utiliser d'une manière ou d'une autre les technologies liées aux langues, pour procurer des recherches, des traductions, des rapports ou d'autres services permettant de communiquer. Le nombre de créneaux dans lesquels ces technologies peuvent être utilisées continue de me surprendre, et cela va des rapports financiers et leurs mises à jour aux communications d'une société à l'autre en passant par le marketing.

En ce qui concerne la recherche, la principale avancée que je vois est due à Kevin Knight, un collègue de l'ISI (Institut des sciences de l'information de l'Université de Californie du Sud), ce dont je suis très honoré. L'été dernier, une équipe de chercheurs et d'étudiants de l'Université Johns Hopkins (Maryland) a développé une version à la fois meilleure et plus rapide d'une méthode développée à l'origine par IBM (et dont IBM reste propriétaire) il y a douze ans environ. Cette méthode permet de créer automatiquement un système de traduction automatique, dans la mesure où on lui fournit un volume suffisant de texte bilingue. Tout d'abord la méthode trouve toutes les correspondances entre les mots et la position des mots d'une langue à l'autre, et ensuite elle construit des tableaux très complets de règles entre le texte et sa traduction, et les expressions correspondantes.

Bien que la qualité du résultat soit encore loin d'être satisfaisante - personne ne pourrait considérer qu'il s'agit d'un produit fini, et personne ne pourrait utiliser le résultat tel quel - l'équipe a créé en vingt-quatre heures un système (élémentaire) de traduction automatique du chinois vers l'anglais. Ceci constitue un exploit phénoménal, qui n'avait jamais été réalisé avant. Les détracteurs du projet peuvent bien sûr dire qu'on a besoin dans ce cas de trois millions de phrases disponibles dans chaque langue, et qu'on ne peut se procurer une quantité pareille que dans les parlements du Canada, de Hong-Kong ou d'autres pays bilingues. Ils peuvent bien sûr arguer également de la faible qualité du résultat. Mais le fait est que, tous les jours, on met en ligne des textes bilingues au contenu à peu près équivalent, et que la qualité de cette méthode va continuer de s'améliorer pour atteindre au moins celle des logiciels de traduction automatique actuels, qui sont conçus manuellement. J'en suis absolument certain.