9/2011 Unicode

Damit Schriftzeichen mittels Computern überall gleich dargestellt werden können, müssen diese Zeichen in Zeichensätzen versammelt und mit Zahlencodes codiert werden. Seit 1963 ist das verbreitetste Modell dafür ASCII oder der American Standard Code for Information Interchange – dieser Zeichensatz enthält allerdings nur 128 Zeichen, wovon nur 95 druckbare Zeichen sind. Das ist zu wenig selbst für die Integration der wichtigsten Zeichen der lateinischen Alphabete, etwa osteuropäische, nordeuropäische oder türkische Buchstaben mit diakritischen Zeichen; geschweige denn dass Schriftsätze für andere Alphabete integriert werden könnten, beispielsweise die kyrillische Schrift, die indische Devanagari-Schrift, die arabische, chinesische und japanische Schrift. Deshalb wurde eine Vielfalt anderer Codierungen entwickelt, etwa die 8-Bit-ISO-Zeichensätze mit 191 Zeichen sowie eigene Windows- und Mac-Codierungen. Seit 1991 gibt es als universalen Zeichensatz Unicode, der ständig um neue Schriftsysteme erweitert wird und aktuell 109.449 Zeichen aus 93 Schriften umfasst. Langfristig soll Unicode alle bekannten Zeichen aller Schriften integrieren. Unicode enthält eine Vielzahl zeitgenössisch verwendeter Schriften, etwa die Braille-Schrift, die Cherokee-Schrift, das Mormonen-Alphabet und Musiknoten. Dazu kommen historische Zeichensätze wie germanische Runen, die altitalische Schrift, die altpersische und sumerische Keilschrift, ägyptische Hieroglyphen und Linear B, aber auch viele graphische Symbole, die keine Schriftzeichen im engeren Sinne sind. Ursprünglich sollten 16 Bit ausreichen, um alle Unicode-Zeichen zu codieren, das heißt der Coderaum umfasste 65.536 Zeichen. Das ist natürlich lange vorbei, Unicode ist nun in 17 sogenannte Ebenen zu jeweils 16 Bit eingeteilt, kann also heute maximal 1.114.112 Zeichen umfassen, zehn Mal mehr als derzeit enthalten sind. Unicode ist mittlerweile so umfangreich, dass keine Schriftart existiert, die alle Zeichen umfasst. Sehr umfangreiche Schriftsätze sind Code2000, Code2001 und Code2002 von James Krass, die jeweils große Teile einer Unicode-Ebene umfassen. Darstellen kann man die Unicode-Zeichensätze mit dem Unicode Character Browser des Unicode-Konsortiums oder mit der Windows-Shareware Babelmap. Oder man sieht sich im Web die Unicode-Toplist des Künstlers Daniel Temkin an, auf dessen Website man über die beliebtesten Unicode-Zeichen abstimmen kann. Die aktuelle Nummer Eins ist Code x229A, der Circled Ring Operator, also kein Schriftzeichen im engeren Sinne. Danach folgt eine Vielzahl von Schriftzeichen beispielsweise in Thai, Kyrillisch, Tamil und Latein.

unicode.org/unibook
www.babelstone.co.uk/Software/BabelMap.html
danieltemkin.com/Unichar/TopList