Zeichensatz

Zeichen sind Symbole wie z.B. 'Lateinische' Großbuchstaben A..Z, Kleinbuchstaben a..z, Ziffern 0..9, Interpunktionen (!,.:;?), Sonderzeichen (#$%&*+-/=@\^_), Klammern ([{<>}]) usw.
Ein Zeichensatz verknüpft jedes darin enthaltenen Zeichen mit einem eindeutigen Bit-Muster, welches PC-intern verwendet wird.

Zeichen


Zeichen sind Symbole wie z.B. 'Lateinische' Großbuchstaben A..Z, Kleinbuchstaben a..z, Ziffern 0..9, Interpunktionen (!,.:;?), Sonderzeichen (#$%& *+- /=@\^_), Klammern ([{<>}]) usw.
Dafür sind 7 Bit (128 Zeichen) ausreichend: Der klassische → ASCII‑Zeichensatz

Dazu kommen einige nationale Sonderzeichen z.B. deutsche ÄÖÜ äöüß €, französische, spanische, ost- und nord-europäische usw.

Dazu kommen Kulturen mit wenigen eigenen Zeichen, z.B. griechische, kyrillische, hebräische, arabische usw.
Dafür sind je 8 Bit (256 Zeichen) ausreichend, z.B. die 16 verschiedenen → ISO‑Zeichensätze.

Dazu kommen die großen indischen und asiatischen Kulturen mit tausenden von Schriftzeichen.

Dazu kommen Symbole, Pfeile, mathematische Zeichen usw. usw.
Diesen Anforderungen entspricht nur der modernste Zeichensatz-Standard → Unicode mit derzeit 21 Bit (2 Mio Zeichen), maximal 32 Bit = 4 Mia Zeichen.

Mit diesem Link wird ein Text aus Städte-Namen mit zahlreichen (blau markierten) Sonderzeichen geladen. Einzige Bedingung: Die von ihrem Browser verwendete → Schrift-Familie enthält diese Zeichen. Man kann den Text markieren, kopieren und in jedes gute Programm einsetzen.

Verweis-Tabelle


• Jeder Daten-Typ wird intern binär gespeichert, d.h. als Folge von Bits.
Die Bit-Muster allein ergeben jedoch noch keinen Sinn:
Man muss auch die Regel kennen, nach denen die Bitmuster in sinnvolle Informationen (hier: in Zeichen) umgewandelt werden und umgekehrt.

• Zeichen (und andere Daten) werden mit Hilfe von Verweis-Tabellen (Lookup-Tables) codiert und decodiert.

Mit diesem Link wird die besonders häufig verwendete ↗ ASCII-Verweis-Tabelle angezeigt.
• Die 1. Spalte zeigt das intern verwendete Bitmuster, das man alternativ auch als ganze Zahl im Binär-System interpretieren kann.
• Die beiden folgenden Spalten zeigen die gleiche ganze Zahl im Dezimal-System und im Hexadezimal-System.
• Die letzte Spalte zeigt ein Zeichen, welches durch die Verweis-Tabelle mit dem jeweiligen BitMuster verknüpft wird. Diese Verknüpfung ist willkürlich: Man kann die Zuordnung auf viele verschiedene Arten vornehmen. Daher gibt es verschiedene Zeichensätze. Wenn ein Zeichensatz angegeben ist (hier z.B. → ASCII), dann ist die Verknüpfung zwischen BitMuster und Zeichen in beide Richtungen eindeutig festgelegt.

Zeichensätze


• Die beiden Spalten der ↑ Verweis-Tabelle mit ganzen Zahlen (blau) ergeben sich zwangsläufig aus dem Bitmuster, wenn man dieses als ganze Zahl im Binär-System auffasst.

• Die letzte Spalte der Zeichen lässt sich dagegen fast beliebig anordnen.
Im Laufe der kurzen Geschichte der Informatik enstanden sehr viele verschiedene Verweis-Tabellen für Zeichen ( Zeichensätze).

• Die moderne Informatik verwendet nur mehr wenige internationale Zeichensätze. Damit wird die lästige Umwandlung der nationalen und regionalen Zeichen-Codes weitgehend vermieden.

Live-Decodierung

Diese Mini-Webseite verwendet Javascript-Programme.
Position 012345
Zeichen        
Unicode        
       
Tragen sie einen beliebigen Text in das grün unterlegte Eingabe-Feld ein oder kopieren sie einen Text in dieses Feld.
Mit diesen Links werden Text-Beispiele eingetragen & decodiert:  SchöneGrüßeΣ(α·β)€ ≠ $Москва (Moskau)

Dieses Beispiel lässt sich dazu verwenden, um die Code-Nummern beliebiger Sonderzeichen zu ermitteln.
In der Tabelle werden die ersten 8 Zeichen decodiert, d.h. die Code-Nummern der Zeichen werden angezeigt.
Zur Decodierung wird der → Unicode-Zeichensatz verwendet.
Die Unicode-Nummern werden als dezimale und (darunter) als hexadezimale Zahlen angezeigt.
Werte >=128 (Non-ASCII-Sonderzeichen) werden hellgelb unterlegt.