Unicode


Unicode

Derzeit sind im Unicode-Standard 2^21 ≈ 2 Mio Zeichen vorgesehen und ca. 110000 Zeichen definiert.
Das System lässt sich jedoch ohne wesentliche Änderungen auf 2^32 ≈ 4 Mia Zeichen erweitern.



Live Unicode


Wie jeder andere Zeichensatz ist auch Unicode eine → Verweis-Tabelle: Einer großen Anzahl verschiedener Bitmuster wird je 1 Zeichen (Symbol) eindeutig zugeordnet.

Die Bitmuster werden typisch als Hexadezimal-Zahlen angegeben (Spalte 'Bereich')

Die gesamte Unicode Verweis-Tabelle kann derzeit bis zu 2^21 = 2097152 Zeichen umfassen. Sie ist in Bereiche verschiedener Länge gegliedert, deren Liste rechts angezeigt wird.
Mit Klick auf einen Bereich werden dessen Zeichen Live in der → Schrift-Familie (Courier New, Courier, mono) ihres eigenen Betriebssystems angezeigt.
Mit Klick auf das PDF-Icon (rechts) wird das Original-Dokument des Unicode-Consortiums angezeigt.

Mit Klick auf die Spalte 'Bereich' wird die jeweilige Verweis-Tabelle Live angezeigt:
Die Zeichen werden von ihrem Browser in der eingestellten Standard-Schrift Live angezeigt. Daher kann die Anzeige variieren, je nachdem wieviele Zeichen in dieser → Schrift‑Familie angelegt sind.
Das Projekt Noto Fonts hat das Ziel, alle Zeichen der aktuellen Unicode-Version in einer freien Schrift-Familie (Noto) darzustellen.

Mit Klick auf das PDF‑Icon (ganz rechts) wird das Original Standard-Dokument des jeweiligen Unicode-Bereichs in einem eigenen Browser-Tab geladen.

Links zu einigen ausgewählten Unicode-Bereichen:
ASCII, Unicode (0‑255), Griechisch, Pfeile, Mathematik-Operatoren, Geometrische Symbole, Diverse Symbole, Emoticons


Einfacher Text

Jedes gute Text-Editor Programm kann Dateien mit einfachem unformatierten Text in UTF‑8 lesen und schreiben.
Das Kennzeichen von UTF‑8 ist in den ersten 3 Bytes der Text-Datei (z.B. *.txt) enthalten, die als Byte‑Order‑Mark ( BOM) bezeichnet und im Text nicht angezeigt werden.
Für Windows wird der kostenfreie Text-Editor Notepad++ empfohlen, der zahlreiche professionelle Optionen bietet, darunter UTF‑8 Codierung.

Textverarbeitung

Alle modernen Büro- und Textverarbeitungs-Programme speichern Dokumente in einem Format der → XML-Familie und verwenden dazu UTF‑8.
Beispiel:
Erzeugen sie ein Duplikat einer Datei *.odt (LibreOffice, OpenOffice) oder *.docx (MS-Word) und ändern sie die Datei-Erweiterung auf *.zip
Nun können sie das *.zip Archiv auspacken. Das ergibt mehrere Dateien, von denen fast alle in einfachem unformatierten Text nach dem XML-Standard abgefasst sind. Die Dateien beginnen typisch mit dieser Zeile:
<?xml version="1.0" encoding="utf‑8" ?>

HTML-Webseiten

In → HTML‑5 Webseiten wird der Zeichensatz mit dieser Zeile angegeben:
<meta charset="UTF-8">
In älteren HTML-Versionen verwendet man diese Zeile
<meta http-equiv="Content-Type" content="text/html; charset=utf‑8" />
die auch von HTML‑5 korrekt interpretiert wird.

XML-Dokumente

Der → XML-Standard bietet die Möglichkeit, Daten aus ganz unterschiedlichen Bereichen mit einfachem unformatiertem Text zu codieren. Es gibt eine große und rasch wachsende Zahl verschiedener Mitglieder der XML-Familie, die fast ausschließlich den UTF‑8 Standard verwenden.
Auch die ↑ Unicode-Tabelle dieser Seite ist mit XML programmiert (↗ Quelltext)

Live-Codierung & Decodierung



Dieses Beispiel lässt sich dazu verwenden, um die Code-Nummern beliebiger Sonderzeichen zu ermitteln.


Zur Codierung wird der Unicode-Zeichensatz verwendet.

Die Unicode-Nummern werden als dezimale und (darunter) als hexadezimale Zahlen angezeigt.
Darunter ist der hexadezimale ↑ UTF‑8 Code angegeben.

Werte >=128 (Non-ASCII-Sonderzeichen) werden hellgelb unterlegt.




Die zweite Tabelle gibt die Unicode-Nummer in verschiedenen Syntax (Grammatik)-Versionen an.
In → HTML, → SVG, → MathML und anderen Mitgliedern der → XML-Familie kann man den XML-Code verwenden.
Der ↑ UTF-8 Code zeigt die interne Codierung des Zeichens an.

Unicode-Eingabe mit der Tastatur



Beispiel: Das → griechische Zeichen Ω hat den hexadezimalen Unicode U+3A9.  Man kann dieses Zeichen so eingeben:
Ctrl+Shift+3A9

Diese Möglichkeit wird von den meisten Büro-Programmen (z.B. LibreOffice) unterstützt, jedoch nicht von allen Programmen !

Alternativen: In manchen Programmen kann man die Tasten Ctrl+Shift nach der Eingabe von u loslassen, danach den hexadezimalen Code eingeben und zuletzt mit der Space-(Leerzeichen)-Taste oder mit der Eingabe-Taste abschließen.



Beispiel: Das → griechische Zeichen Ω hat den dezimalen Unicode 937. Man kann dieses Zeichen so eingeben:
Alt++937
Diese Möglichkeit wird von MS-Office unterstützt, jedoch nicht von allen Programmen  !

Wikipedia: Unicode inputAlt-Code


Die Windows-Registry ist eine Sammlung von Konfigurations-Daten.
Die hexadezimale Eingabe funktioniert nur dann, wenn dieser Registry-Schlüssel als Zeichenfolge (REG_SZ) gesetzt ist:
HKEY_Current_User \ Control Panel \ Input Method \ EnableHexNumpad = "1"
(Zur besseren Lesbarkeit wurden Leerzeichen eingefügt)
Zum Lesen und Schreiben von Registry-Daten enthält jedes Windows-System das Programm regedit.exe
Änderungen der Registry werden mit dem nächsten System-Neustart wirksam.

 Achtung: Durch die unbedachte Änderung von Registry-Daten kann man Betriebssystem und/oder Daten irreversibel zerstören !