SuchenPrintviewID-Home

Mail und Web: Zeichensatz ISO-Latin oder UTF-8 ?

Zeichensatz mit ä ö ü é à è ç
UTF-8 (Universal Character Set Transformation Format-8)
Mail: Umstellung nicht forcieren!
MS Vista
Server und Drucken
Webserver

Zeichensatz mit ä ö ü é à è ç

Vor über 10 Jahren - anno 1994 - stellte das Rechenzentrum den Zeichensatz von einer IBM-Codepage auf ISO-Latin1 um, was mit einem erheblichen Aufwand verbunden war. Siehe RZU AKTUELL Nr. 90, Was ist ISO Latin-1 ? Betroffen waren im Wesentlichen alle Dateien und elektronischen Texte, die Umlaute (ä, ö, ü) oder andere europäische Zeichen enthielten. Die Codierung dieser Zeichen verursachte einen Aufwand in der Höhe von Mannmonaten. Das Rechenzentrum implementierte Konversionsprogramme und modifizierte Druckertreiber und Skripts.

Zeichensatz ISO Latin-1
Zeichensatz ISO Latin-1 (iso-8859)

Die hexadezimalen Werte für die Umlaute ä, ö, ü sind E4, F6 und FC; diese Notation entspricht der wichtigen MIME-Codierung bei der elektronischen Post, QUOTED-PRINTABLE.

ä =E4
ö =F6
ü =FC

UTF-8 (Universal Character Set Transformation Format-8)

Heute kündigt sich am Horizont eine weitere Zeichensatz-Umstellung an, die vor allem für die Mail und das Web wichtig sein wird. Beim neuen Unicode-Zeichensatz UTF-8 werden die Umlaute und andere nationale Zeichen mit je zwei Bytes dargestellt, was es ermöglicht, z.B. asiatische Zeichensätze wie Chinesisch oder Japanisch zu unterstützen. Und die "armen" Europäer dürfen wieder einmal ihre Programme anpassen und ihre Datenbanken konvertieren ... Wer mit asiatischen Sprachen arbeitet, kann nicht auf UTF-8 verzichten und wird nicht an UTF-8 vorbeikommen.

Mail: Umstellung nicht forcieren!

Unsere Erfahrung hat gezeigt, dass eine solche Umstellung nicht überstürzt werden darf, weil alle Mail-User betroffen sind. Bereits die vergleichsweise harmlose Umstellung auf die neue Domäne ".uzh.ch" hat uns zahlreiche Tickets beschert, weil sich viele Mail-User verunsichert fühlten. Bis der neue Zeichensatz UTF-8 flächendeckend unterstützt sein wird, dürfte es noch Jahre dauern. Es reicht eben nicht, wenn die Cracks und die IT-Spezialisten ihre Werkzeuge -- vor allem die Mailreader und Terminalemulatoren -- umgestellt haben. Es ist nicht nur eine Frage der Accessibility, sondern auch der Fairness, dafür zu sorgen, dass auch weniger privilegierte oder versierte Benutzer eine Meldung in unversehrter Form lesen können. Das Problem ist, dass ältere Terminalemulatoren und Mailreader einen UTF-codierten Text verstümmelt wiedergeben. Zahlreiche Outlook-Versionen haben Mühe mit der neuen Codierung. Dasselbe gilt für ausländische Webmail-Programme und Eudora-Versionen. Eine typische Zeichenkette: Universität Zürich. Oder gewisse Mailclients warnen: [ Some characters may be displayed incorrectly. ]

Bis auch Otto Normalverbraucher sein Mailprogramm modernisiert hat, dauert es eben eine Weile. Wie die Ostschweizer sagen: "No e Wili". Für die Informatikdienste liegt ein zusätzlicher Aufwand darin, Mailfilter, FAQ-Listen und andere Skripts auf UTF-8 umzustellen. Den Mail-Benutzerinnen empfehlen wir daher, ihre Mailprogramme bis auf weiteres noch auf den Zeichensatz iso-8859 einzustellen bzw. die Voreinstellung auf iso-8859 zu belassen. Bei Linux- und Unix-Programmen (z.B. Gnome- und Apple-Terminal, Editor xemacs) und bei Apple Mail ist der Zeichensatz gewöhnlich auf utf-8 voreingestellt. Hier ein spezieller Link für die Apple User, der zeigt, wie der Zeichensatz permanent auf "UTF-8" umgestellt werden kann, oder auf "ISO-8859-1", was bei Problemen manchmal hilfreich ist! Bei unserem Webmail ist der ISO-Zeichensatz voreingestellt, Einstellungen "Verschiedenes": Text Kodierung. Bei Thunderbird gilt das auf allen Plattformen:

Zeichensatz einstellen bei Thunderbird
Zeichensatz einstellen bei Thunderbird

Thunderbird-Menu Extras > Einstellungen > Ansicht

MS Vista


Der ISO-Zeichensatz ist kompatibel mit der Schweizer Tastatur (äöü éàè ç), also ideal für die Schweiz.

Standardcodierung bei Windows Mail (Vista)
Standardcodierung bei Windows Mail (MS Vista); zum Vergrössern bitte anklicken

Windows Mail: Menu Extras > Optionen > Lesen/Senden

Windows Mail
Windows Mail

Auch bei MS Vista ist in der Schweiz die ISO-Codierung gesetzt: Westlich oder "Western European" genannt. Dies gilt auch für MS Outlook (Lesen und Senden). Gegenüber MS Outlook hat Windows Mail übrigens eine eingeschränkte Funktionalität.

 

Server und Drucken

Diverse Datenbank-Server und Teilnehmerverzeichnisse speichern Zeichenketten, die Umlaute enthalten. Die via LDAP gefundenen Namen erscheinen im ISO-Code des Mailclients (MS Vista), auch wenn die Umlaute Datenbank-intern anders codiert sind.

Namen aus dem LDAP-Verzeichnis (Windows Mail)
Namen aus dem LDAP-Verzeichnis (Windows Mail); zum Vergrössern bitte anklicken

Das zweistufige Verfahren ist typisch für viele Server: während die Texte in der Datenbank uft-codiert sind, codiert der Client diese Texte meist "westlich". Also muss der Server für eine Konversion sorgen; tägliches Brot für die Informatikdienste. Die meisten Server fahren heute intern UTF-8, so z.B. Google und andere Suchmaschinen, Request Tracker und andere Datenbanken (mysql).

Die Seitenbeschreibungssprache PostScript und damit auch das PDF-Format bezeichnen die drei Umlaute als /adieresis, /odieresis und /udieresis. Und die meisten PostScript-Programme in der Schweiz und in Westeuropa verwenden ein Encoding aufgrund von ISO Latin-1 (Dictionary Vektor ISOLatin1Encoding).

Webserver

Unser Webserver unterstützt den Zeichensatz 8859-1, aber auch den Unicode UTF-8. UniCMS speichert intern die Umlaute nicht als ISO-Latin, sondern als Unicode UTF-8, das heisst mit zwei Bytes pro Umlaut. Beim Cut-and-Paste sorgt UniCMS jedoch für eine automatische Zeichenumwandlung. Sie brauchen die interne Codierung daher nicht zu kennen. Wenn Sie allerdings den xhtml-Code durch eine Publishing-Software wie z.B. Adobe Golive erzeugen lassen, müssen Sie die Codierung UTF-8 einstellen. Webmail verwendet hingegen den ISO-Latin-Code, wie man im html-Kopf erkennen kann:

<html>
<head>
<title>Webmail Portal</title>
<meta http-equiv="Content-Type" content="text/html; 
      charset=iso-8859-1">

Wir waren gezwungen, einzelne Suchseiten von "iso-8859-1" auf "utf-8" umzustellen, damit die Umlaute mit allen Browsern korrekt gefunden werden -- konkret auch vom Internet Explorer. Beachten Sie das Encoding auf der oben verlinkten Suchseite. Eine solche Umstellung kann Aerger bereiten, wenn die Umlaute nur noch als Fragezeichen, Currency-Symbol oder weiss-der-Gugger-was erscheinen; die Umstellung ist aber problemlos, wenn die Umlaute auf der betreffenden Seite ausschliesslich html-mässig codiert sind, als &auml; &ouml; &uuml; &eacute; usw.

Die Browser Firefox, Safari und Internet Explorer 6 bzw. 7 unterstützen natürlich beide Zeichensätze. Falls also die Umlaute einmal falsch angezeigt werden, können Sie versuchen, den Zeichensatz in Ihrem Browser zu wechseln ...

Zeichenkodierung einstellen bei Firefox
Zeichenkodierung einstellen bei Firefox

Firefox-Menu Extras > Einstellungen > Inhalt > Erweitert


Bei klassischen Seiten und php-Skripts empfehlen wir jedoch, die Umlaute html-mässig zu codieren, also &auml;, &ouml; und &uuml;. Damit vermeiden Sie einen zukünftigen Umstellungsaufwand. Und denken Sie daran, dass Umlaute nichts zu suchen haben in Passwörtern.

Peter Vollenweider