Suche
Was ist eigentlich ein Zeichensatz?

IEC_8859-1 (Latin 1)
, auf welchem auch heute noch die meisten Zeichensätze aufbauen. Dort ist zum Beispiel definiert, dass die Zahl 228 den Buchstaben ä darstellt. Als Deutscher hat man mit diesem Zeichensatz keine Probleme, er definiert alle für uns relevanten Umlaute. Wenn man aber z.B. das türkische Zeichen Ş darstellen möchte hat man ein Problem: Für diesen Buchstaben ist keine Zahl definiert. Man hat dann keine andere Möglichkeit als auf einen anderen Zeichensatz auszuweichen.
Im Umkehrschluss heißt das auch: Ohne den Zeichensatz zu einem Text (also streng genommen einer Serie von Zahlen) zu kennen, kann man ihn nicht vernünftig lesen. Der Computer versucht dann möglicherweise zu raten, was mit welcher Zahl gemeint sein könnte und hat damit schlichtweg nicht immer recht. Heutzutage ist Speicher nicht mehr so knapp, was zu dem Unicode Zeichensatz geführt hat. Er kennt aktuell 120.737 verschiedene Buchstaben, inklusive z.B. 1.071 ägyptischer Hyroglyphen.
Bei den Fehlern im Text zu Beginn sind aber zwei verschiedene Ding passiert:
- Fehlende Buchstaben oder Fragezeichen können vorkommen, wenn bei dem verwendeten Font für einen bestimmten Buchstaben keine Zahl hinterlegt ist. Bei einem Font handelt es sich gewissermaßen um die visuelle Darstellung der Buchstaben.
- Wenn für einen Buchstaben mehrere falsche Buchstaben dargestellt werden benutzt der Computer einen zu "kleinen" Zeichensatz und stellt eine große Zahl fälschlicherweise als eine Kombination von zwei Buchstaben dar.
Kommentare
Einen Kommentar schreiben