Entretiens (1998-2001) - Marie Lebert

- pour chaque langue, développer un générateur (dit "déconvertisseur") accessible sur un ou plusieurs serveurs, et un "enconvertisseur".

L'Université des Nations Unies (UNU) (Tokyo) finance 50% du coût. D'après notre évaluation sur la première année, c'est plutôt 30 à 35%, car le travail (linguistique et informatique) est énorme, et le projet passionnant: les permanents des laboratoires s'y investissent plus que prévu.

Un énoncé en langue naturelle est représenté par un hypergraphe dont chaque noeud contient une "UW" (universal word, comme match_with(icl>event) ou match(icl>thing), formés à partir de mots anglais et dénotant des ensembles plus ou moins fins d'acceptions), ou un autre graphe, le tout muni d'attributs booléens (pluralité, modalité, aspects) - chaque arc porte une relation sémantique (agt, tim, objs). On en est à la version 1.5 de ce standard, il reste pas mal à faire, mais au moins douze groupes ont construit chacun une centaine de graphes pour le tester.

La déconversion tourne pour le japonais, le chinois, l'anglais, le portugais, l'indonésien, et commence à tourner pour le français, l'allemand, le russe, l'italien, l'espagnol, l'hindi, l'arabe, et le mongol.

Chaque langue a une base lexicale de 30.000 à 120.000 liens UW - lexème.

L'enconversion n'est pas (si on veut de la qualité pour du tout venant) une analyse classique. C'est une méthode de fabrication de graphes UNL qui suppose une bonne part d'interaction, avec plusieurs possibilités:

- analyse classique multiple suivie d'une désambiguisation interactive en langue source,

- entrée sous langage contrôlé,

- encore plus séduisant (et encore pas clair, au niveau recherche pour l'instant), entrée directe via une interface graphique reliée à la base lexicale et à la base de connaissances.

Les applications possibles sont: