Del libro impreso al libro digital - Marie Lebert

El primer sistema de codificación informática es el ASCII (American
Standard Code for Information Interchange - Código Estadounidense
Estándar para el Intercambio de Información).

Publicado en 1968 por el ANSI (American National Standards Institute - Instituto Estadounidense Nacional de Normas), y actualizado en 1977 y 1986, el ASCII es un código de 128 caracteres traducidos en lenguaje binario en siete bits (A se traduce por "1000001", B se traduce por "1000010", etc.). Los 128 caracteres incluyen 33 caracteres de control (que no representan símbolos escritos) y 95 caracteres imprimibles: las 26 letras sin acento en mayúsculas (A-Z) y en minúsculas (a-z), las cifras, los signos de puntuación y algunos símbolos; lo que corresponde en su conjunto a las teclas del teclado inglés o estadounidense.

El ASCII no permite más que la lectura del inglés y del latín. No permite tomar en cuenta las letras acentuadas presentes en gran parte de las lenguas europeas y aún menos los idiomas no alfabéticos (chino, japonés, coreano, etc.). Esto no planteaba ningún problema de importancia en los primeros años, cuando el intercambio de archivos electrónicos se limitaba esencialmente a Norteamérica.

Pero el plurilingüismo pronto se convierte en una necesidad vital.
Variantes del ASCII (norma ISO-8859 o ISO-Latin) toman en cuenta los
caracteres acentuados de algunos idiomas europeos. La norma ISO 8859-1
(Latin-1) define por ejemplo la variante adaptada al francés.

Pero el paso del ASCII original a las diversas extensiones no tarda en convertirse en un verdadero rompecabezas, incluso en la Unión Europea, donde se plantean problemas como la multiplicación de las variantes, la corrupción de los datos durante los intercambios informáticos o la incompatibilidad de los sistemas, ya que las páginas web sólo pueden visualizarse en un idioma a la vez.

Con el desarrollo de la web, se internacionaliza cada vez más el intercambio de datos. Uno ya no puede conformarse con utilizar el inglés y algunos idiomas europeos, traducidos a través de un sistema de codificación de caracteres que data de 1968.

Publicado por primera vez en enero de 1991, el Unicode es un sistema de codificación de caracteres "universal" en 16 bits, que asigna un número único a cada carácter. Este número es legible desde cualquier plataforma, con cualquier programa o idioma. El Unicode puede reconocer 65.000 caracteres únicos y tomar en cuenta todos los sistemas de escritura del planeta. Para gran satisfacción de los lingüistas, progresivamente el Unicode va sustituyendo el ASCII. Existen diversas variantes del Unicode, por ejemplo UTF-8, UTF-16 y UTF-32 (UTF: Unicode Transformation Format). Se convierte en uno de los componentes de las especificaciones del World Wide Web Consortium (W3C), el organismo internacional encargado del desarrollo de la web.

La utilización del Unicode se generaliza a partir de 1998, por ejemplo para los archivos de texto bajo plataforma Windows (Windows NT, Windows 2000, Windows XP y siguientes versiones), que hasta entonces estaban en ASCII.

Pero el Unicode no puede solucionar todos los problemas, como lo subraya en junio 2000 Luc Dall'Armellina, coautor y webmaster de oVosite, un espacio de escritura hipermedia: "Los sistemas operativos se van dotando de kits Unicode capaces de representar todos los idiomas del mundo. Ojalá sigan el mismo rumbo todas las aplicaciones, desde el procesamiento de texto hasta el navegador web. Las dificultades son inmensas: nuestro teclado, con sus ± 250 teclas, deja ver sus insuficiencias siempre que es necesario digitar Katakana o Hiragana japoneses, y aún peor con el chino. La gran variedad de los sistemas de escritura del mundo y el número de caracteres que abarcan, constituyen un freno potente. Sin embargo, los obstáculos culturales no son menos importantes, pues están vinculados con los códigos y modalidades de representación propios de cada cultura o etnia."

¿Qué preconiza Olivier Gainon, creador de la editorial CyLibris y pionero de la edición literaria electrónica? Explica en diciembre de 2000: "Primera etapa: el respeto de los particularismos a nivel técnico. Es preciso que la red respete las letras acentuadas, las letras específicas, etc. Me parece muy importante que los futuros protocolos permitan una transmisión perfecta de estos aspectos y eso puede que no resulte sencillo (en las evoluciones futuras del HTML, o de los protocolos IP, etc.). Por lo tanto, es necesario que cada uno pueda sentirse a gusto con el internet y que esto no se limite a los individuos que dominen (más o menos) el inglés. No parece normal que hoy en día la transmisión de los acentos plantee problemas en los correos electrónicos. Por eso me parece que el primer trámite es de orden técnico. Si se consigue esto, lo demás se derivará de ello: la representación de los idiomas se hará en función del número de personas conectadas, y al fin y al cabo habrá que contemplar la idea de usar buscadores multilingües."