= ASCII

El primer sistema de codificación informática es el ASCII (American Standard Code for Information Interchange – Código Estadounidense Estándar Para el Intercambio de Información). Publicado en 1968 por el ANSI (American National Standards Institute - Instituto Estadounidense Nacional de Normas) y actualizado en 1977 y 1986, el ASCII es un código de 128 caracteres convertidos en lenguaje binario en siete bits (A se convierte en "1000001", B se convierte en "1000010", etc.). Los 128 caracteres incluyen 33 caracteres de control (que no representan símbolos escritos) y 95 caracteres imprimibles: las 26 letras sin acento en mayúsculas (A-Z) y en minúsculas (a-z), las cifras, los signos de puntuación y algunos símbolos, que corresponden en su conjunto a las teclas del teclado estadounidense o del teclado inglés en Europa y en otros países.

El ASCII no permite más que la lectura del inglés y del latín. No permite tomar en cuenta las letras acentuadas presentes en gran parte de las lenguas europeas y aún menos los idiomas no alfabéticos (chino, japonés, coreano, etc.). Esto no planteaba ningún problema de importancia en los primeros años, cuando el intercambio de archivos electrónicos se limitaba esencialmente a Norteamérica. Pero el plurilingüismo pronto se convierte en una necesidad vital. Variantes del ASCII (norma ISO-8859 o ISO-Latin) toman en cuenta los caracteres acentuados de idiomas europeos. La norma ISO 8859-1 (Latin-1) es la norma utilizada en la mayoría de los países de Europa occidental, incluido para el español.

Yoshi Mikami es informático en la sociedad Asia Info Network en Fujisawa (Japón). En diciembre de 1995, lanza la página web bilingüe (inglés-japonés) "The Languages of the World by Computers and the Internet" (Los Idiomas del Mundo con Computadoras y el Internet), conocida comúnmente como Logos Home Page o Kotoba Home Page. Su página presenta un breve historial de cada idioma con sus características, su sistema de escritura, su mapa de caracteres y la configuración del teclado en dicho idioma. Yoshi Mikami también es el coautor (junto con Kenji Sekine y Nobutoshi Kohara) de "The Multilingual Web Guide" (Guía por una web multilingüe), publicado en japonés por las ediciones O'Reilly en agosto de 1997, y traducido al inglés, al alemán y al francés en 1998.

Yoshi explica en diciembre de 1998: "Mi lengua materna es el japonés. Al haber realizado mis estudios de tercer ciclo en los Estados Unidos y trabajado en informática, he llegado a ser bilingüe japonés-inglés americano. Siempre me he interesado por otras lenguas y culturas, lo que me llevó a aprender ruso, francés y chino sobre la marcha. A finales de 1995, he creado en la web el sitio 'The Languages of the World by Computers and the Internet' y he intentado proponer – en inglés y en japonés – un breve historial de todos estos idiomas, así como las características propias de cada lengua y de su fonética. Avalado por la experiencia adquirida, he instigado a mis dos asociados a escribir un libro sobre la concepción, la creación y la presentación de sitios web multilingües. Este libro se publicó en agosto de 1997 bajo el título 'The Multilingual Web Guide' y fue el primer libro sobre dicho tema."

¿Y cómo se imagina la evolución hacia una red multilingüe? "Miles de años atrás, en Egipto, en China y en otros lugares, la gente era más sensible a la necesidad de comunicar sus leyes y reflexiones en varios idiomas y no en uno solo. En nuestra sociedad moderna, cada Estado ha adoptado más o menos una sola lengua de comunicación. A mi parecer, el internet permitirá un uso más amplio de varios idiomas y de páginas multilingües - y no sólo una gravitación alrededor del inglés americano - y un uso más creativo de la traducción informática multilingüe. ¡99% de los sitios web creados en Japón están redactados en japonés!"

= Unicode

Con el desarrollo de la web, el intercambio de datos se internacionaliza más y más. Comunicar en muchos idiomas requiere un sistema de codificación que tome en cuenta muchos alfabetos o ideogramas. Además el paso del ASCII original a sus diversas extensiones no tarda en convertirse en un verdadero rompecabezas, incluso en la Unión Europea, donde se plantean problemas como la multiplicación de las variantes, la corrupción de los datos durante los intercambios informáticos, la incompatibilidad de los sistemas o la visualización de las páginas web en un solo idioma a la vez.

Publicado por primera vez en enero de 1991, el Unicode es un sistema de codificación de caracteres "universal" en 16 bits que asigna un número único a cada carácter. Este número es legible desde cualquier plataforma y con cualquier programa. El Unicode puede tomar en cuenta 65.000 caracteres únicos, es decir todos los sistemas de escritura del planeta. Para gran satisfacción de los lingüistas, progresivamente el Unicode va sustituyendo el ASCII, así como sus variantes UTF-8, UTF-16 y UTF-32 (UTF: Unicode Transformation Format). Se convierte en uno de los componentes de las especificaciones del World Wide Web Consortium (W3C), el organismo internacional encargado del desarrollo de la web.

Patrick Rebollar, profesor de literatura francesa en Japón y moderador de la lista de difusión LITOR (Literatura e Informática), destaca en enero de 2000: "El primer problema es un problema de software. Como se ve con Netscape o Internet Explorer, es posible fijar múltiples idiomas en la web. Pero la compatibilidad entre esos navegadores y otros programas (el Office de Microsoft, por ejemplo) aún no es sistemático. La adopción del Unicode debería resolver muchos problemas, pero esto supone volver a escribir la mayor parte de los programas, lo que los productores de programas se muestran renuentes a hacer debido a los gastos, pues el rendimiento no está garantizado ya que los programas totalmente multilingües tienen menos interés para sus clientes que los programas de navegación."

La utilización del Unicode se generaliza alrededor del año 2000, por ejemplo para los archivos de texto bajo plataforma Windows (Windows NT, Windows 2000, Windows XP y siguientes versiones), que hasta entonces estaban en ASCII.

Pero el Unicode no puede solucionar todos los problemas, como lo subraya en junio de 2000 Luc Dall’Armellina, co-autor y webmaster de oVosite, un espacio de escritura hipermedia: "Los sistemas operativos se van dotando de fuentes Unicode capaces de representar todos los idiomas del mundo. Ojalá sigan el mismo rumbo todas las aplicaciones, desde el procesamiento de texto hasta el navegador web. Las dificultades son inmensas: nuestro teclado, con sus ± 250 teclas, deja ver sus insuficiencias siempre que es necesario digitalizar Katakana o Hiragana japoneses, y aún peor con el chino. La gran variedad de los sistemas de escritura por el mundo y el número de caracteres que abarcan constituyen un freno potente. Sin embargo los obstáculos culturales no son menos importantes, pues están vinculados con los códigos y modalidades de representación propios de cada cultura o etnia."

= ASCII y/o Unicode

El Proyecto Gutenberg es fundado en 1971 por Michael Hart con el objetivo de difundir bajo forma electrónica las obras literarias para ponerlas gratuitamente a la disposición de todos. Tanto los libros que fueron digitalizados hace treinta años como los de ahora se digitalizan en modo texto, mediante uso del ASCII original de siete bits. De esta manera los textos pueden ser leídos sin problema con cualquier computadora, plataforma y programa. Para los idiomas con acentos como el español, los libros tienen dos versiones: una versión en ASCII de ocho bits para tomar en cuenta los caracteres acentuados, y una versión en ASCII de siete bits, sin acentos. A excepción, claro, de las lenguas no codificables en ASCII, como el chino, que está codificado en Big-5.

El Proyecto Gutenberg ofrece libros en otros formatos, incluso en formatos populares tales como HTML, XML, RTF y Unicode. Además, cualquier formato propuesto por voluntarios es generalmente aceptado - PDF, LIT, TeX y muchos otros – siempre y cuando un archivo ASCII también esté presente.

En cuanto a idiomas, el Proyecto Gutenberg es en su mayoría de lengua inglesa, ya que está instalado en los Estados Unidos y que sirve principalmente a la comunidad de habla inglesa a nivel nacional e internacional. En octubre de 1997, Michael Hart anuncia su intención de intensificar la producción de libros en otros idiomas. A principios de 1998, el catálogo incluye algunas obras en alemán, español, francés, italiano y latín. Michael escribe en julio de 1999: "Lanzamos ahora una nueva lengua al mes, y voy a seguir con esta política durante tanto tiempo como sea posible."

A la misión original se añade un papel de puente entre idiomas y culturas diversas. El multilingüismo se convierte poco a poco en una de las prioridades del Proyecto Gutenberg, como la internacionalización, con el Proyecto Gutenberg Australia (creado en agosto de 2001), el Proyecto Gutenberg Europa (creado en enero de 2004), el Proyecto Gutenberg Canadá (creado en julio de 2007) y otros Proyectos Gutenberg por venir en varios países. El Proyecto Gutenberg original (el de los Estados Unidos) tiene libros en 25 idiomas en enero de 2004 y libros en 42 idiomas en julio de 2005.

Desde su creación en enero de 2004, el Proyecto Gutenberg Europa (PG Europa) y Distributed Proofreaders Europa (DP Europa) son sitios web multilingües que tienen en cuenta las principales lenguas europeas. El sitio de DP Europa está inspirado del sitio original de Distributed Proofreaders (el de los Estados Unidos) para gestionar la corrección de los libros digitales entre los voluntarios, que comparan las versiones digitales con las páginas escaneadas de las versiones impresas. En abril de 2004, gracias a traductores voluntarios, el sitio de DP Europa está disponible en doce idiomas. El objetivo a medio plazo es un sitio en sesenta idiomas que tenga en cuenta todas las lenguas europeas. DP Europa utiliza Unicode en lugar del ASCII, para procesar libros en muchos idiomas.