La web, una enciclopedia multilingüe - Marie Lebert

1991 > EL UNICODE PARA CODIFICAR TODOS LOS IDIOMAS

[Resumen] Con la aparición del internet en el mundo entero, ya no se puede usar únicamente el ASCII, que codifica el inglés y sus variantes para algunos idiomas más; se necesita un sistema de codificación para todos los idiomas. Publicado por primera vez en enero de 1991, el Unicode es un sistema de codificación universal en 16 bits que asigna un número único a cada carácter. Este número es legible desde cualquier plataforma, con cualquier programa y en cualquier idioma. El Unicode puede codificar 65.000 caracteres únicos y tomar en cuenta todos los sistemas de escritura del planeta. El Unicode es mantenido por el Unicode Consortium. Es uno de los componentes de las especificaciones del World Wide Web Consortium (W3C), el organismo internacional encargado del desarrollo de la web. La utilización del Unicode se generaliza desde 1998, por ejemplo para los archivos de texto de la plataforma Windows, que hasta entonces estaban en ASCII. Habrá que esperar hasta diciembre de 2007 para que el Unicode suplante el ASCII en el internet.

***

A diferencia del ASCII, que codifica el inglés y sus variantes para algunos idiomas más, el Unicode es un sistema de codificación universal que tiene en cuenta todos los idiomas del planeta. Su primera versión es publicada en enero de 1991.

# Del ASCII al Unicode

El primer sistema de codificación informática es el ASCII (American Standard Code for Information Interchange Código Estadounidense Estándar para el Intercambio de Información), publicado en 1963 por el ANSI (American National Standards Institute Instituto Estadounidense Nacional de Normas). Con el desarrollo del internet en el mundo entero, se internacionaliza cada vez más el intercambio de datos y entonces ya no es posible conformarse con utilizar únicamente el inglés y algunos idiomas europeos más en un sistema de codificación de caracteres que data de los inicios de la informática.

Publicado por primera vez en enero de 1991, el Unicode es un sistema universal de codificación de caracteres en 16 bits que asigna un número único a cada carácter. Este número es legible desde cualquier plataforma, con cualquier programa y en cualquier idioma. El Unicode puede reconocer 65.000 caracteres únicos y tomar en cuenta todos los sistemas de escritura del planeta. Para satisfacción de los lingüistas, el Unicode va sustituyendo al ASCII gradualmente, con variantes UTF-8, UTF-16 y UTF-32 (UTF: Unicode Transformation Format) según el número de bits utilizados para la codificación.

El Unicode es mantenido por el Unicode Consortium. Es uno de los componentes de las especificaciones del World Wide Web Consortium (W3C), el organismo internacional encargado del desarrollo de la web.

# No es tan fácil

Patrick Rebollar es profesor de francés y de literatura francesa en Japón, así como moderador de la lista de difusión LITOR (Literatura e Informática). En enero de 2000, destaca: «El primer problema es un problema de software. Como se ve con Netscape o Internet Explorer, es posible fijar múltiples idiomas en la web. Pero no hay compatibilidad entre esos navegadores y otros software (el Office de Microsoft, por ejemplo). La adopción del Unicode debería resolver muchos problemas, pero esto supone volver a escribir la mayor parte de los software lo que los productores de estos se muestran renuentes a hacer debido a los gastos, para un rendimiento que no está garantizado, ya que estos software multilingües tienen menos interés para sus clientes que los software de navegación».