En 1998 y 1999, la necesidad de crear una web multilingüe preocupa a mucha gente. A inicios de los años 2000, la web, por fin multilingüe, permite una amplia difusión de los textos electrónicos sin restricciones de fronteras, pero aún queda mucho por hacer para que desaparezca la barrera del idioma. La prioridad parece ser la creación de pasarelas entre las comunidades lingüísticas para favorecer la circulación de los escritos en otros idiomas, mejorando por ejemplo los instrumentos de traducción.
En el verano de 2000, los usuarios no anglófonos superan el 50%. Este porcentaje sigue aumentando, como lo demuestran las estadísticas de la sociedad Global Reach, actualizadas a intervalos regulares. El número de usuarios no anglófonos alcanza el 52,5% en el verano de 2001, el 57% en diciembre de 2001, el 59,8% en abril de 2002, el 64,4% en septiembre de 2003 (del cual un 34,9% de europeos no anglófonos y un 29,4% de asiáticos) y el 64,2% en marzo de 2004 (del cual un 37,9% de europeos no anglófonos y un 33% de asiáticos).
Bruno Didier, webmaster de la biblioteca del Instituto Pasteur en París, escribe en agosto de 1999: "El internet no es una propiedad ni nacional ni lingüística. Es un vector de cultura, y el primer soporte de la cultura es la lengua. Cuantas más lenguas estén representadas en toda su diversidad, más culturas estarán representadas en el internet. No pienso que tengamos que ceder a la tentación sistemática de traducir las páginas a una lengua más o menos universal. Los intercambios culturales suponen una voluntad de ponerse al alcance de la persona a quien queremos encontrar. Y este esfuerzo pasa por la comprensión de su lengua. Por supuesto mis palabras son muy utópicas. Porque concretamente, mi actividad de vigilancia en la red me incita más bien a echar pestes contra algunos sitios noruegos o brasileños que no dan ninguna información en inglés, por más mínima que sea."
A partir de diciembre de 1997, el buscador AltaVista lanza Babel Fish Translation, un software de traducción automática del inglés a otros cinco idiomas (alemán, español, francés, italiano, portugués), y vice versa. Asociado con un diccionario multilingüe de 2,5 millones de términos, este servicio gratuito es la obra de Systran, una sociedad pionera en el procesamiento automático de los idiomas. El texto que hay que traducir debe componerse de una a tres páginas. La página original y la traducción aparecen ambas en la pantalla simultáneamente. Como la traducción es completamente automatizada, por supuesto el resultado es aproximativo. Aunque este instrumento tenga sus limitaciones, tiene el mérito de existir y prefigura los programas que serán desarrollados durante los años siguientes por varias sociedades, entre otras Systran, Alis Technologies, Globalink o Lernout & Hauspie.
= Del ASCII al Unicode
Comunicar en varios idiomas supone tener a disposición sistemas de codificación de caracteres adaptados a nuestros alfabetos o ideogramas respectivos.
El primer sistema de codificación informática es el ASCII (American standard code for information interchange – Código estadounidense estándar para el intercambio de información). Publicado en 1968 por el por el Instituto estadounidense nacional de normas (ANSI: American National Standards Institute), y actualizado en 1977 y 1986, el ASCII es un código de 128 caracteres traducidos en lenguaje binario en siete bits (A se traduce por "1000001", B se traduce por "1000010", etc.). Los 128 caracteres incluyen 33 caracteres de control (que no representan símbolos escritos) y 95 caracteres imprimibles: las 26 letras sin acento en mayúsculas (A-Z) y en minúsculas (a-z), las cifras, los signos de puntuación y algunos símbolos, que corresponden en su conjunto a las teclas del teclado inglés o estadounidense.
El ASCII no permite más que la lectura del inglés y del latín. No permite tomar en cuenta las letras acentuadas presentes en gran parte de las lenguas europeas y aún menos los idiomas no alfabéticos (chino, japonés, coreano, etc.). Esto no planteaba ningún problema de importancia en los primeros años, cuando el intercambio de archivos electrónicos se limitaba esencialmente a Norteamérica. Pero el plurilingüismo pronto se convierte en una necesidad vital. Variantes del ASCII (norma ISO-8859 o ISO-Latin) toman en cuenta los caracteres acentuados de algunos idiomas europeos. La norma ISO 8859-1 (Latin-1) define por ejemplo la variante adaptada al francés. Pero el paso del ASCII original a las diversas extensiones no tarda en convertirse en un verdadero rompecabezas, incluso en la Unión europea, donde se plantean problemas como la multiplicación de las variantes, la corrupción de los datos durante los intercambios informáticos o la incompatibilidad de los sistemas, ya que las páginas web sólo pueden visualizarse en un idioma a la vez.
Con el desarrollo de la web, se internacionaliza cada vez más el intercambio de datos. Uno ya no puede conformarse con utilizar el inglés y algunos idiomas europeos, traducidos a través de un sistema de codificación de caracteres que data de 1968.
Publicado por primera vez en enero de 1991, el Unicode es un sistema de codificación de caracteres "universal" en 16 bits que asigna un número único a cada carácter. Este número es legible desde cualquier plataforma, con cualquier programa o idioma. El Unicode puede reconocer 65.000 caracteres únicos y tomar en cuenta todos los sistemas de escritura del planeta. Para gran satisfacción de los lingüistas, progresivamente el Unicode va sustituyendo el ASCII. Existen diversas variantes del Unicode, por ejemplo UTF-8, UTF-16 y UTF-32 (UTF: Unicode transformation format). Se convierte en uno de los componentes de las especificaciones del W3C (World Wide Web Consortium), el organismo internacional encargado del desarrollo de la web.