1968: ASCII

[Résumé]

Publié par l’ANSI (American National Standards Institute) en 1968, aux débuts de l'informatique, avec actualisation en 1977 et en 1986, le code ASCII (American standard code for information interchange) est un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par "1000001", B est traduit par "1000010", etc.). Les 128 caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et quelques symboles, à savoir les touches du clavier anglais ou américain. L'ASCII permet donc uniquement la lecture de l’anglais et du latin. Par la suite, des variantes de l’ASCII (norme ISO-8859 ou ISO-Latin) prennent en compte les caractères accentués de quelques langues européennes. La variante pour le français est définie par la norme ISO 8859-1 (Latin-1).

[En détail]

Le premier système d'encodage informatique est l’ASCII (American standard code for information interchange). Publié par l’American National Standards Institute (ANSI) en 1968, avec actualisation en 1977 et 1986, l'ASCII est un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par "1000001", B est traduit par "1000010", etc.). Les 128 caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et quelques symboles, le tout correspondant aux touches du clavier anglais ou américain.

L'ASCII permet uniquement la lecture de l’anglais et du latin. Il ne permet pas de prendre en compte les lettres accentuées présentes dans bon nombre de langues européennes, et à plus forte raison les systèmes non alphabétiques (chinois, japonais, coréen, etc.). Ceci ne pose pas de problème majeur les premières années, tant que l’échange de fichiers électroniques se limite essentiellement à l’Amérique du Nord. Des variantes de l’ASCII (norme ISO-8859 ou ISO-Latin) prennent en compte les caractères accentués de quelques langues européennes. La variante pour le français est définie par la norme ISO 8859-1 (Latin-1). Mais le passage de l’ASCII original à ses différentes extensions devient vite un véritable casse-tête, y compris au sein de l’Union européenne, les problèmes étant entre autres la multiplication des variantes, la corruption des données dans les échanges informatiques ou encore l’incompatibilité des systèmes, les pages ne pouvant être affichées que dans une seule langue à la fois.

Avec le développement du web, l’échange des données s’internationalise de plus en plus. On ne peut plus se limiter à l’utilisation de l’anglais et de quelques langues européennes, traduites par un système d’encodage datant des années 1960. Publié pour la première fois en janvier 1991, l’Unicode est un système d'encodage universel sur 16 bits spécifiant un nombre unique pour chaque caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue utilisés. L’Unicode peut traiter 65.000 caractères uniques et prendre en compte tous les systèmes d’écriture de la planète.

L'ASCII garde toutefois une place prépondérante. Dénommé à juste titre le plus petit dénominateur commun, l’ASCII sur sept bits est le seul format compatible avec 99% des machines et des logiciels, et pouvant être converti dans d’autres formats. Il sera toujours utilisé quand d’autres formats auront disparu, à commencer par les formats éphémères liés à quelques tablettes de lecture commercialisées depuis 1999 et déjà disparues du marché. Il est l’assurance que les documents survivront aux changements technologiques des prochaines décennies ou même des prochains siècles. Il n’existe pas d’autre standard aussi largement utilisé, y compris l’Unicode, ce jusqu'en 2008, date à laquelle les deux systèmes d'encodage sont également représentés sur le web.