= L'ASCII

Communiquer dans plusieurs langues implique d’avoir des systèmes d'encodage adaptés à nos alphabets ou idéogrammes respectifs.

Le premier système d'encodage informatique est l’ASCII (American standard code for information interchange). Publié en 1968 aux États- Unis par l’American National Standards Institute (ANSI), avec actualisation en 1977 et 1986, l'ASCII est un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par «1000001», B est traduit par «1000010», etc.). Les 128 caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et quelques caractères spéciaux, le tout correspondant aux touches du clavier anglophone.

L'ASCII permet uniquement la lecture de l’anglais et du latin. Il ne permet pas de prendre en compte les lettres accentuées présentes dans bon nombre de langues européennes, et à plus forte raison les langues non alphabétiques (chinois, japonais, coréen, etc.). Ceci ne pose pas de problème majeur les premières années, tant que l’échange de fichiers électroniques se limite essentiellement à l’Amérique du Nord. Mais le multilinguisme devient bientôt une nécessité vitale. Des variantes de l’ASCII (norme ISO-8859 ou ISO-Latin) prennent en compte les caractères accentués de quelques langues européennes. La variante pour le français, par exemple, est définie par la norme ISO-8859-1 (ISO-Latin- 1).

= L'Unicode

Avec le développement du web, l’échange des données s’internationalise de plus en plus. On ne peut plus se limiter à l’utilisation de l’anglais et de quelques langues européennes, traduites par un système d’encodage datant de 1968. De plus, le passage de l’ASCII original à ses différentes extensions devient vite un véritable casse-tête, y compris au sein de l’Union européenne, les problèmes étant entre autres la multiplication des variantes, la corruption des données dans les échanges informatiques ou encore l’incompatibilité des systèmes, les pages ne pouvant être affichées que dans une seule langue à la fois.

Olivier Gainon, fondateur de CyLibris et pionnier de l’édition électronique littéraire, écrit en décembre 2000: «Il faut que le réseau respecte les lettres accentuées, les lettres spécifiques, etc. Je crois très important que les futurs protocoles permettent une transmission parfaite de ces aspects - ce qui n’est pas forcément simple (dans les futures évolutions de l’HTML ou des protocoles IP, etc.). Donc il faut que chacun puisse se sentir à l’aise avec l’internet et que ce ne soit pas simplement réservé à des (plus ou moins) anglophones. Il est anormal aujourd’hui que la transmission d’accents puisse poser problème dans les courriers électroniques. La première démarche me semble donc une démarche technique. Si on arrive à faire cela, le reste en découle: la représentation des langues se fera en fonction du nombre de connectés, et il faudra envisager à terme des moteurs de recherche multilingues.»

Publié pour la première fois en janvier 1991, l’Unicode est un système d'encodage universel sur 16 bits spécifiant un nombre unique pour chaque caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue utilisés. L’Unicode peut traiter 65.000 caractères uniques et prendre en compte tous les systèmes d’écriture de la planète. A la grande satisfaction des linguistes, il remplace progressivement l’ASCII, avec des variantes UTF-8, UTF-16 et UTF-32 (UTF: Unicode transformation format) en fonction du nombre de bits utilisés. Il devient une composante des spécifications du World Wide Web Consortium (W3C), l'organisme international chargé du développement du web.

L’utilisation de l’Unicode se généralise à partir de 1998, par exemple pour les fichiers texte sous plateforme Windows (Windows NT, Windows 2000, Windows XP et versions suivantes), qui étaient jusque-là en ASCII.

Mais l’Unicode ne peut résoudre tous les problèmes, comme le souligne en juin 2000 Luc Dall’Armellina, co-auteur et webmestre d’oVosite, un espace d’écriture hypermédia: «Les systèmes d’exploitation se dotent peu à peu des kits de langues et bientôt peut-être de polices de caractères Unicode à même de représenter toutes les langues du monde; reste que chaque application, du traitement de texte au navigateur web, emboîte ce pas. Les difficultés sont immenses: notre clavier avec ses ± 250 touches avoue ses manques dès lors qu’il faille saisir des Katakana ou Hiragana japonais, pire encore avec la langue chinoise. La grande variété des systèmes d’écriture de par le monde et le nombre de leurs signes font barrage. Mais les écueils culturels ne sont pas moins importants, liés aux codes et modalités de représentation propres à chaque culture ou ethnie.»

Patrick Rebollar, professeur de littérature française au Japon et modérateur de la liste de diffusion LITOR (littérature et ordinateur), donne son sentiment en janvier 2000: «Il s'agit d'abord d'un problème logiciel. Comme on le voit avec Netscape ou Internet Explorer, la possibilité d'affichage multilingue existe. La compatibilité entre ces logiciels et les autres (de la suite Office de Microsoft, par exemple) n'est cependant pas acquise. L'adoption de la table Unicode devrait résoudre une grande partie des problèmes, mais il faut pour cela réécrire la plupart des logiciels, ce à quoi les producteurs de logiciels rechignent du fait de la dépense, pour une rentabilité qui n'est pas évidente car ces logiciels entièrement multilingues intéressent moins de clients que les logiciels de navigation.»

= ASCII et/ou Unicode

Le Projet Gutenberg est fondé dès 1971 par Michael Hart pour numériser les œuvres littéraires et les mettre gratuitement à la disposition de tous.

Les œuvres sont numérisées en mode texte, en utilisant l’ASCII original sur sept bits ou, pour les langues avec accents, l'ASCII sur huit bits pour une prise en compte des caractères accentués. Mais, même dans ce cas, le Projet Gutenberg propose systématiquement en complément une version ASCII sur sept bits sans accents. Sauf, bien entendu, dans le cas de langues non encodables en ASCII, comme le chinois, qui est encodé au format Big-5 pour le chinois traditionnel.

Surnommé à juste raison «le plus petit dénominateur commun», l'ASCII sur sept bits est le seul format compatible avec 99% des machines et des logiciels, et pouvant être converti dans de nombreux autres formats. Il sera toujours utilisé quand d’autres formats auront disparu. Il est l’assurance que les collections ne deviendront jamais obsolètes, et survivront aux changements technologiques des prochaines décennies ou même des prochains siècles. Il n'existe pas d'autre standard aussi largement utilisé, y compris l'Unicode, système d'encodage universel créé en 1991. Ce jusqu'en 2008, date à laquelle les deux systèmes d'encodage sont également représentés sur le web.

Le Projet Gutenberg propose certains livres dans d’autres formats que l'ASCII, notamment dans les trois formats répandus que sont les formats HTML, XML et RTF. Des fichiers Unicode sont également présents et remplacent peu à peu les fichiers ASCII sur huit bits pour les langues avec accents comme le français. De plus, tout format proposé par tel ou tel volontaire est généralement accepté (PDF, LIT, TeX et beaucoup d'autres), dans la mesure où un fichier ASCII est également présent.

Les collections du Projet Gutenberg sont d'abord essentiellement anglophones, puisque ce projet est basé aux États-Unis et qu'il sert en priorité la communauté anglophone nationale et internationale. En octobre 1997, Michael Hart annonce son intention d'intensifier la production de livres dans des langues autres que l'anglais. Début 1998, le catalogue comprend quelques œuvres en allemand, en espagnol, en français (dix titres), en italien et en latin. En juillet 1999, Michael écrit: «J'introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible.»

Le multilinguisme devient ensuite l'une des priorités du Projet Gutenberg, tout comme l'internationalisation, avec le Project Gutenberg Australia (créé en août 2001), le Projet Gutenberg Europe (créé en janvier 2004), le Project Gutenberg Canada (créé en juillet 2007), et d'autres Projets Gutenberg à venir dans divers pays, notamment au Portugal.

Dans le Projet Gutenberg original, 25 langues sont représentées en janvier 2004, 42 langues en juillet 2005, dont le sanscrit et les langues mayas, et 50 langues en décembre 2006. À cette date, les langues principales sont l’anglais, le français, l’allemand, le finnois, le hollandais, l’espagnol, l’italien, le chinois, le portugais et le tagalog.

Dès ses débuts en janvier 2004, le Projet Gutenberg Europe propose un site multilingue pour gérer la relecture partagée entre les volontaires, afin de prendre en compte les principales langues nationales. En avril 2004, grâce à des traducteurs volontaires, le site est disponible en douze langues. L'objectif à moyen terme est un site en soixante langues, et donc soixante équipes linguistiques, avec prise en compte de toutes les langues européennes. Le Projet Gutenberg Europe utilise l'Unicode et non l'ASCII, pour pouvoir traiter des livres dans un grand nombre de langues.