Lesen und Schreiben chinesische Zeichen und Pinyin Verwendend Unicode im Web

Lesen und Schreiben chinesische Zeichen und Pinyin Verwendend Unicode im Web
Copyright © 2001-2009 National University of Singapore.
For original English text, go to: http://www.math.nus.edu.sg
Translated by A.Romanova

Hintergrund

Während der Arbeit auf meiner Internetseite über den Chinesischen Kalender, brauchte ich Chinesische Schriftzeichen und Pinyin auf meiner Webseite zu platzieren. Um Pinyin auf traditionelle Weise auf der Webseite zu platzieren, braucht man eine Guobiao Kodierung für Chinesische Schriftzeichen zu benutzen.
Um Pinyin auf der Webseite zu installieren, brauchen Sie einer von vielen speziellen PinyinFonts. Als Alternative, können Sie auch Zahlen für Angeben der Tonzeichen als in Guo2biao3 benutzen. Ich für meinen Teil habe mich beschlossen Unicode statt der Guobiao Kodierung auf meinen Webseiten zu benutzen. Dieser Zeichensatz zeigt viele Vorteile und hat gute Chancen sichin einen Standard zu verwandeln. Leider hat sie momentan einige Probleme.
Für XHTML 1.0, I installieren Sie <?xmlversion=”1.0″ encoding=”UTF-8″?>, und für HTML 4.0 I installieren Sie <meta http-equiv=”Content-Type” content=”text/html; charset=UTF-8″>an Stelle von charset=gb2312.
Glücklicherweise gibt es für die Fonts in den Sprache Packfiles aus Microsoft (MS Song –Simplified (Vereinfacht)/Serif, MS Hei –Simplified (Vereinfacht )/Gothic and MingLiU– Traditional (Traditionell) und Office 2000 Fonts (Simsun–Simplified (Vereinfacht) und PMingLiU– Traditional (Traditionell)die entsprechende Code-Tabellen.
Wenn die “Auf Anfrage Installieren” Option auf Tools | Internet Options | Fortgeschritten gecheckt wird, sollen Sie einfach Chinesisch auf Anzeigemodus | Encoding wählen. Dann werden die Fonts und Codeseiten automatisch heruntergeladet und installiert werden.  Sie können auch nach Windows Update wählen. Sie sollen einfach “Sprachunterstützung für vereinfachtes Chinesisch” oder “Sprachunterstützung für traditionelles Chinesisch” wählen.
Wenn Sie Netscape benutzen; können Sie nach Files ie3lpktw.exe für Traditionelles Chinesisch oder ie3lpkcn.exe für vereinfachtes Chinesisch suchen. (Das ist 3L, nicht ein-und-dreißig).
Versionen 2.76 oder höhere Versionen der Schriftarten Times New Roman, Arial and Courier New enthalten alle Pinyin Vokale. Man kann diese Vokale in der TrueType Core Font für Web Sektion der Microsoft Typography Webseite finden. Die Fonts in dem vereinfachten Chinesischen Sprache Pack enthalten sie auch. Sie zeigen aber alle betonten Buchstaben als ob sie von Leerzeichen gefolgt wurden. Der Grund dafür ist dass die Breite der betonten Buchstaben mit der Breite des Hanzi abgeglichen ist.
Wenn Sie Internet Explorer benutzen und eine Unterstützung für Chinesisch installiert haben, dann soll es automatisch funktionieren. Er wird einen Chinesischen Font (wie MS Song) für Chinesische Schriftzeichen und einen lateinischen Font (wie Times New Roman) für die restliche Schriftzeichen benutzen. Sie haben Glück, wenn ihr lateinischer Font Pinyin unterstützt.

Zum Teil, der Grund warum IE das machen kann, ist dass er „betrügt“. Er betrachtet  Unicode als Codeseite nicht, sondern benutzt den Fonts, angegeben in der Spracheinstellung. In Netscape wähle ich Editieren | Einstellungen | Fonts. Dort gibt es ein Datenelement für Unicode und Ich kann einen passenden Font wählen. In Internet Explorer aber finde ich kein Datenelement für Unicode, wenn ich nach Tools| Options | Fonts suche. Er verfügt über “Lateinisch basiert”, “vereinfachtes Chinesisch“ und so weiter. Also, statt einen Font für Unicode anzugeben, brauche ich jede Sprache im Einzelneneinzustellen. Wenn ich eine für IE unbekannte Sprache zu installieren brauche oder Zeichen aus Unicode zu benutzen, stoße ich mich auf ein großes Problem.

Um eine Webseite anzuzeigen, Netscape kann nur Schriftzeichen aus einziger Kodierung benutzen. Er implementiert keine alternative Kodierung, die Sie aus dem Anzeigemodus wählen können, falls die Seite ein Kodieren, angegeben in Meta Tag hat. Er bildet Unicode nicht aus seinen grundlegenden Codeseiten, sondern betrachtet es wie andere Codeseiten. Aus diesem Grund, zum Unterschied von IE, kann Netscape Times New Roman für einen lateinischen Text und Pinyin und MS Song für Chinesische Schriftzeichen nicht benutzen.

Sie sollen nach Editieren | Einstellungen | Fonts gehen und passenden Fonts wählen. Es ist ausgezeichnet, wenn Sie Chinesischen Unicode Fonts (z.B. Arial Unicode MS oder Bitstream Cyberbit) haben. Sie sollen sie einfach für Unicode wählen. Wenn Sie keine Fonts haben,  wählen Sie einen Chinesischen Font wie MS Song für Unicode. Leider ist es nicht dafür eine gute Lösung. Die lateinische Schriftzeichen in diesem Font sind nicht sehr attraktiv und der Font überließt Leerzeichen nach den Pinyin Schriftzeichen, wie oben erklärt wurde.

Weitere Hilfe für die Konfiguration können Sie auf den folgenden Webseiten bekommen: Setting up Windows Internet Explorer 5, 5.5 and 6 for Multilingual and Unicode Support oder Setting up Windows Netscape Browsers for Multilingual and Unicode Support – das Teil der Alan Wood‘s Unicode Ressourcen.

Browser Test

Hier gibt es  ein Wort im GB (b’º) und Unicode (立春) und ein 3. Ton in pinyin (ǎ) für Testzwecke. Wenn Sie den ersten nicht lesen können, aber das zweite sagt “Anfang des Frühlings” sind Sie fertig für die chinesischen Charaktere. Wenn der erste “Anfang des Frühlings” und des zweiten etwas bizarr sagt, dann sind Sie nicht in Ordnung. Wenn Sie MS Song verwenden pinyin anzusehen, wird es einen Extraraum nach den Charakteren mit Ton-Zeichen, wie oben erklärt wurde.

Die meisten Menschen sollten im Stande sein, den pinyin zu sehen, d. h., ein “a” mit einem umgekehrten Hut.

Und wenn Sie nicht wissen was “der Anfang des Frühlings” bedeutet, können Sie meine Arbeit über The Mathematics of the Chinese Calendar lesen!

Pinyin Schreiben

Wenn sie in pinyin schreiben, die 2. und 4. Töne sind leicht. Diese Töne sind akute und schwere Akzente und sind ein Teil der jeder Standardschriftart. Aber die 1. und 3. Töne und Ton-Zeichen über den u mit dem Umlaut sind härter. Der 1. Ton wird den Längestrich und den 3. Ton caron genannt.

Warnung: Versuchen Sie nicht breve (ă), a mit rund umgekehrten Hut für den dritten Ton zu verwenden; sieht es einfach nicht korrekt (umgekehrte Hut sollte gezeigt werden) aus, und der Charakter ist nicht ein Teil von MS Song. So, wenn Sie Netscape mit MS Song als Ihre Schriftart von Unicode verwenden, werden Sie es nicht sehen.

Ich werde zwei Methoden demonstrieren, um pinyin einzugeben.

  • Meine erste Methode ist Unicode Zeichencode zu verwenden, entweder numerische Charakter-Verweisung oder genannte Charakter-Entitäten zu verwenden. Das ist nicht so hart, wie es scheint. Wenn Sie viele pinyin schreiben und einen klugen Editor verwenden, können Sie Tastatur-Makros definieren, oder Dinge wie “zha1ng” schreiben und dann führen ein Ersetzen am Ende aus. Wenn Ihr Editor smart ist, können Sie sogar eine Schrift definieren, die das für alle Kombinationen ausführt.

Oder Sie können einfach wunderbaren Pinyin zu Unicode Konverter beim Konrad Mitchell Lawson’s The Fool’s Workshop verwenden. Sie geben gerade “zhong1guo2 shi4 shi4jie4 zui4 hao3 de guo2jia1″ ein, und kommt “zhōngguó shì shìjiè zuì hǎo de guójiā” sowohl in Unicode als auch in  Zeichencode.

Warnung: Ein älterer Browser hat Schwierigkeiten mit Hexadecimal numerischen Charakter-Verweisungen, so kann es am sichersten sein, Dezimalzahl zu verwenden.

Lateinische 1. Ergänzung – Unicode U+0080 – U+00FF – (128-255) Latein verlängert-A – Unicode U+0100 – U+017F – (256-383)

á = &#225; = &#xE1; = &aacute;
à = &#224; = &#xE0; = &agrave;
é = &#233; = &#xE9; = &eacute;
è = &#232; = &#xE8; = &egrave;
í = &#237; = &#xED; = &iacute;
ì = &#236; = &#xEC; = &igrave;
ó = &#243; = &#xF3; = &oacute;
ò = &#242; = &#xF2; = &ograve;
ú = &#250; = &#xFA; = &oacute;
ù = &#249; = &#xF9; = &ugrave;
ü = &#252; = &#xFC; = &uuml;

Subtrahieren 32 für obere Abdeckung

Latein verlängert-A – Unicode U+0100 – U+017F – (256-383)

ā = &#257; = &#x101;
ē = &#275; = &#x113;
ě = &#283; = &#x11B;
ī = &#299; = &#x12B;
ō = &#333; = &#x14D;
ū = &#363; = &#x16B;

Subtrahieren 1 für obere Abdeckung

Lateinischer verlängerter-B U+0180 – U+024F (384-591)

ǎ = &#462; = &#x1CE;
ǐ = &#464; = &#x1D0;
ǒ = &#466; = &#x1D2;
ǔ = &#468; = &#x1D4;

ǖ = &#470; = &#x1D6;
ǘ = &#472; = &#x1D8;
ǚ = &#474; = &#x1DA;
ǜ = &#476; = &#x1DC;

Subtrahieren 1 für obere Abdeckung

Bemerken Sie dass e mit dem 3. Ton (caron) ein Teil von Latein Verlängerten-A  ist, während die anderen 3. Töne ein Teil von Lateins Verlängerten-B sind.

  • Die zweite Methode ist Microsoft Word zu verwenden, oder ein anderer Unicode hat Redakteur/Textverarbeitungsprogramm ermöglicht. Für die 2. und 4. Töne verwende ich die akute und harte Akzente, die ein Teil von jeder Standardschriftart sind. Sie sind leicht einzufügen, Tastatur-Abkürzungen verwendend. (Sie können Ihre Tastatur auf US International setzen, wenn Sie wollen). Der 1. Ton wird den Längestrich und den 3. Ton den caron genannt. (Versuchen Sie nicht Kürzezeichen für den dritten Ton zu verwenden.) Sind sie in den meisten Schriftarten von Unicode verfügbar, und ich bekomme sie, indem ich MS Word und-Insert – Symbol verwende. Um zu vereinfachen, teile ich Anschläge den 1. und 3. Tönen und den Tönen auf u mit dem Umlaut zu. Ich verwende F3 und a für ǎ für und F2 und y für ǘ. Ich kann F1 für die ersten Töne nicht verwenden, da das Hilfe aufruft, so verwende ich F5 stattdessen. Ich spare dann die Dok-Datei als “Verlängerter Text”, wähle UTF-8 (nicht nur Unicode) aus und füge in meinen Textaufbereiter ein.

ā á ǎ à a
ē é ě è e
ī í ǐ ì i
ō ó ǒ ò o
ū ú ǔ ù u
ǖ ǘ ǚ ǜ ü

Warnung: Bei einem Stadium, während man das testet durch, habe ich eine Datei geschaffen, genannt pinyin.txt und das in IE geöffnet. Ich konnte die Verlängerten-B Charaktere nicht sehen, aber als ich die Datei pinyin.html umbenannt habe, ist alles ganz richtig herausgekommen (nachdem ich manuell auf die Verschlüsselung von Unicode im Browser umgeschaltet habe). Der Grund dafür besteht darin, dass wenn man eine *.txt Datei zeigen wird, IE wird eine fixierte Schriftbreite wie Courier New verwenden, und zurzeit hatte ich Version 2.50 Courier New verwendetet, das die lateinischen Verlängerten-B Charaktere nicht enthielt.

Sie können auch eine Zeichentabelle verwenden, wie Charakter-Agent, ListFont oder Internationale Zeichencodetabelle.

Sie können auch das praktisch finden, um einige der Tastatur-Dienstprogramme zu verwenden, die auf Alans Wood Unicode Ressourcen gelistet sind.

Schreiben chinesische Charaktere

Es gibt viele Weisen damit zu tun, aber wenn Sie gerade einige Wörter schreiben müssen, ist eine einfache Lösung, MS Word und die MS IME zu verwenden. Hier sind einige Verbindungen über MS IME.

Sparen Sie als Klartext und wählen Sie die passende Zeichencodierung, entweder UTF-8, GB2312 oder Big5. Stellen Sie sicher, dass keine Charaktere im Rot erscheinen! Dann öffnen Sie die Textdateien in Ihrem HTML Editor. Abhängig von dem Sie verwenden, können Sie oder dürfen Sie nicht die chinesischen Charaktere sehen. Ich verwende Dreamweaver, und funktioniert gut, aber wenn ich die Textdateien im Notepad öffne, erscheinen die Chinesische im UTF-8 Fall, und  nicht wenn ich GB oder Big5 verwende.

Wenn Sie nach gutem Unicode Editor suchen, können Sie EmEditor überprüfen wollen. Sie können die MS IME damit verwenden! Sie geben akademische Lizenzen umsonst aus!

Kombination von Vereinfachte und Traditionelle Schriftzeichen

Unicode ist ganz einfach zu benutzen. Das ist einer der Hauptgründe, warum ich Unicode benutze.

Zeichencode Konvertierung

Sie können Zeichencode Konvertierung anhand von dem Chinesischen Zeichencode Converter auf Erik E. Peterson’s Chinesische On-line Tools durchführen.

Suchenach Unicode-Zeichen

Ich brauche oft Unicode-Zeichen für Chinesische Schriftzeichen: entweder für TeX oder für HTML. Sie können die Zeichen in MS Word eingeben und dann sie ins Chinesische Schriftzeichen Wörterbuch – Unicode Version auf Erik E. Peterson’s Chinesische On-line Tools kopieren. Sie sollen ein Anzeigefeld für den Unicode-Wert wählen. Dann sollen Sie UTF-8, nicht Unicode, für Eingabe wählen. Eine andere Version des Chinesischen Schriftzeichen Wörterbuches wird nicht funktionieren, weil sie keine UTF-8 Option hat. Um die Konvertierung in eine Oktalzahl durchzuführen, können Sie die Konvertierungstabelle –Dezimalzahl, Hexadezimalzahl, Oktalzahl, Binärezahl benutzen.

Sie können auch Convert characters to Unicode auf Pinyin.info verwenden.

Font Ressourcen

  • Sie können MS Song und andere Fonts bei Microsoft auf Windows Update bekommen. Sie sollen einfach “Chinesische (Vereinfachte) Sprachunterstützung” oder “Chinesische Traditionelle Sprachunterstützung” wählen.
  • Die neueste Versionen von Times New Roman, Arial und Courier New Schriftarten enthalten alle Pinyin Vokale. Die Schriftart Arial Unicode MS (arialuni.ttf) wird in Microsoft Office eingeschlossen und enthält fast alles, was Sie brauchen. Diese Fonts waren auf der Microsoft Typography Seite verfügbar.
  • Sie können Bitstream Cyberbit in Netscape bekommen. Warnung! Dieser Font hat 6MB!

Links