Heim > Web-Frontend > js-Tutorial > Hauptteil

Ausführliche Erklärung, wie JavaScript 300 Codezeilen verwendet, um chinesische Schriftzeichen in Pinyin umzuwandeln

黄舟
Freigeben: 2017-05-21 11:32:29
Original
2581 Leute haben es durchsucht

In diesem Artikel wird hauptsächlich der Programmierer JavaScript300 Codezeilen zum Konvertieren chinesischer Schriftzeichen in Pinyin vorgestellt

1 .Die aktuelle Situation der Konvertierung chinesischer Schriftzeichen in Pinyin

Zunächst ist zu sagen, dass eine starke Nachfrage nach der Konvertierung chinesischer Schriftzeichen in Pinyin besteht. Beispielsweise werden Kontakte sortiert/gefiltert nach Pinyin-Buchstaben; zum Beispiel Ziele (normalerweise wie Ticketkäufe)
Nach Pinyin-Anfangsbuchstabenklassifizierung und so weiter. Aber die Lösung dieser Anforderung, von der ich noch keine clevere Implementierung gehört habe (insbesondere auf der Browserseite), erfordert wahrscheinlich ein riesiges Wörterbuch.
Speziell für JavaScript, überprüfen Sie github und npm. Zu den besseren Bibliotheken zum Konvertieren chinesischer Schriftzeichen in Pinyin gehören Pinyin
und Pinyinjs. Sie können sehen, dass beide vorhanden sind mit einem riesigen Wörterbuch.
Diese Wörterbücher umfassen oft Dutzende oder Hunderte von KB (manche sogar mehrere MB), und es erfordert immer noch etwas Mut, sie auf der Browserseite zu verwenden. Wenn wir also auf die Notwendigkeit stoßen, chinesische Schriftzeichen in Pinyin umzuwandeln, ist es nicht verwunderlich, dass unsere erste Reaktion darin besteht, die Anfrage abzulehnen (oder sie serverseitig zu implementieren).
Wenn ich Ihnen jetzt sage, dass Sie chinesische Schriftzeichen in 300 Zeilen Code auf der Browserseite in Pinyin umwandeln können, ist das dann unglaublich?

2. Ab dem Android 4.2.2-Kontaktcode

Ich betone diesen Blog noch einmal – unter Verwendung des Android-Quellcodes, Konvertieren Sie chinesische Schriftzeichen ganz einfach in Pinyin.
Heute möchte ich Ihnen eine Lösung zum Konvertieren chinesischer Schriftzeichen in Pinyin vorstellen, die aus dem Quellcode des Android-Systems extrahiert wurde. Mit nur einer Klasse und mehr als 560 Codezeilen können Sie die Funktion zum Konvertieren chinesischer Schriftzeichen problemlos implementieren Pinyin ohne die Notwendigkeit, sich auf andere Dritte zu verlassen.
Hat es Sie zum Nachdenken gebracht: Gibt es einen leistungsstarken Algorithmus, der das Wörterbuch über Bord werfen kann?
Nachdem ich den Blog zum ersten Mal gelesen hatte, war ich ein wenig enttäuscht. Es gab keine Algorithmusanalyse, sondern nur die Hunderte von Codezeilen, die aus dem Android-Code entdeckt wurden. Als ich den Code zum zweiten Mal mit der Idee las, ihn nach JavaScript zu portieren, verstand ich endlich das Prinzip und begann mit der Portierung.

3. Bringen Sie Ihnen Schritt für Schritt mit 300 Zeilen JavaScript-Code bei, wie Sie chinesische Schriftzeichen in Pinyin konvertieren

Lassen Sie uns zunächst direkt zum Kern kommen : Warum erfordert die Konvertierung chinesischer Schriftzeichen in Pinyin ein riesiges Wörterbuch zum Denken?
Da die Anordnung chinesischer Schriftzeichen beispielsweise nichts mit Pinyin zu tun hat, kann ersteres im chinesischen Schriftzeichenintervall u4E00-u9FFF ha und letzteres ze sein. Es gibt keine Möglichkeit, den Unicode von zuzuordnen Chinesische Schriftzeichen mit Pinyin, daher kann es nur eines geben. Das riesige Wörterbuch zeichnet die Pinyin jedes chinesischen Schriftzeichens (oder häufig verwendeten chinesischen Schriftzeichens) auf.
Angenommen, wir können alle chinesischen Schriftzeichen nach Pinyin sortieren, z. B. „A“, „AI“, „AN“, „ANG“, „AO“, „BA“, ..., „ZUI“, „ ZUN', 'ZUO' sortieren, dann müssen wir uns nur das erste chinesische Zeichen jeder chinesischen Zeichenwarteschlange mit demselben Pinyin merken. Dann ist das erforderliche Wörterbuch sehr klein (es reicht aus, das gesamte Pinyin abzudecken, und die Anzahl der Pinyin selbst ist nicht groß). Der schwierige Teil besteht nun darin, die chinesischen Schriftzeichen nach Pinyin zu sortieren. Glücklicherweise stellt die auf die Intensivstation/Lokalisierung bezogene
API diese Sortier-API bereit (wenn es keine praktischen Sortier-/Vergleichsmethoden gäbe, würde dieser Artikel möglicherweise nicht erscheinen).

Aus diesem Grund können 300 Zeilen verwendet werden, um chinesische Schriftzeichen in Pinyin umzuwandeln: Intl.CollatorAPI: Intl.Collator implementiert intern die lokalisierungsbezogene

String--Sortierung. Grundsätzlich können wir über Intl.Collator.prototype.compare alle chinesischen Schriftzeichen nach Pinyin sortieren. Grenztabelle für chinesische Zeichen: Zeichnet die sortierten Grenzpunkte auf. Jedes chinesische Zeichen in dieser chinesischen Zeichentabelle ist das erste chinesische Zeichen in einer Reihe chinesischer Zeichen mit demselben Pinyin nach der Sortierung (
Eachunihansisthefirstonewithinsamepinyinwhencollatoriszh_CN). Apropos, vielleicht ist noch etwas unklar, daher lade ich direkt einen Code hoch:

Für Interessierte Studenten Sie können die Datei script.js oben node--icu-data-

dir=node_modules/full-icu ausführen, um zu sehen, ob sie grundsätzlich nach Pinyin-Chinesisch-Zeichentabelle sortiert ist .

Hier sind ein paar Dinge zu beachten:

Ich habe „Grundlegend“ wieder fett markiert, da die Liste der chinesischen Schriftzeichen, die wir erhalten haben, nicht vollständig nach Pinyin sortiert ist. In der Mitte sind gelegentlich einige andere chinesische Schriftzeichen eingefügt Der Grenztabelle besondere Aufmerksamkeit schenken.
Die im obigen Skript erhaltene Tabelle ist die Sortierung aller chinesischen Zeichen. Einige davon unterscheiden sich von der Tabelle von HanziToPinyin.java im Android-Code, daher muss die Tabelle von HanziToPinyin.java aktualisiert werden. (Die größte Gefahr und Arbeitsbelastung beim Wechsel von Java zu JavaScript: das Korrigieren der Grenztabelle)
Ich glaube, jeder hat den Kerncode gesehen: constCOLLATOR=newIntl.Collator(['zh-Hans-CN']), Intl.Collator
(Das hier angegebene Gebietsschema ist China zh-Hans-CN) ist der Schlüssel zum Sortieren chinesischer Zeichen nach Pinyin. Es handelt sich um eine Internationalisierungs-API, die Zeichenfolgen in gebietsschemaspezifischer Reihenfolge sortiert.
Bitte zuerst npmifull-icu, wenn Sie das Skript ausführen. Diese Abhängigkeit installiert automatisch die fehlende chinesische Unterstützung und fordert Sie auf, die ICU-Datendatei zum Ausführen des Skripts anzugeben.
1.ICUICU steht für InternationalComponentsforUnicode und bietet Unicode- und Internationalisierungsunterstützung für Anwendungen.
ICU ist ein ausgereifter, weit verbreiteter Satz von C/C++- und Java-Bibliotheken, die Unicode- und Globalisierungsunterstützung für Softwareanwendungen bieten. ICU ist weitgehend portierbar und liefert Anwendungen auf allen Plattformen und zwischen C/C++ und Java-Software die gleichen Ergebnisse.
Und ICU bietet lokalisierte String-Vergleichsdienste (Unicode-Sortierungsalgorithmus + lokal spezifische Vergleichsregeln):
Sortierung: Vergleichen Zeichenfolgen gemäß den Konventionen und Standards einer bestimmten Sprache, Region oder Intensivstation. Die Sortierung basiert auf dem Unicode-Sortierungsalgorithmus sowie gebietsspezifischen Vergleichsregeln aus dem CommonLocale Data Repository, einer umfassenden Quelle für diese Art von Daten.
In modernen Browsern verfügt ICU im Allgemeinen über integrierte Unterstützung für die lokale Sprache des Benutzers, und wir können sie direkt verwenden.
Aber für node.js enthält ICU normalerweise nur eine Teilmenge (normalerweise Englisch), daher müssen wir selbst Unterstützung für Chinesisch hinzufügen. Im Allgemeinen können Sie full-icu
über npminstallfull-icu installieren, um fehlende chinesische Unterstützung zu installieren. (Siehe node--icu-data-dir=node_modules/full-icu oben).
2.IntlAPI Der vorherige Abschnitt sollte grundsätzlich das Wissen im Zusammenhang mit Internationalisierung/Lokalisierung erläutern. Hier werden wir die Verwendung der integrierten API hinzufügen. Wie kann überprüft werden, ob die Benutzersprache und die Runtime diese Sprache unterstützen? Intl.Collator.supportedLocalesOf(array|string)
Gibt ein Array mit unterstützten Gebietsschemata zurück (ohne auf das Standardgebietsschema zurückzugreifen). Der Parameter kann ein Array oder eine Zeichenfolge sein, bei der es sich um die Gebietsschemata handelt, die Sie testen möchten (). d. h. BCP47Sprachtag).

Collator--Objekt erstellen und Zeichenfolge sortieren

über Intl.Collator.prototype vergleichen können wir Strings in der von der Sprache vorgegebenen Reihenfolge sortieren. Auf Chinesisch erfolgt diese Sortierung meist in der Pinyin-Reihenfolge „A“, „AI“, „AN“, „ANG“, „AO“, „BA“, „BAI“, „BAN“, „BANG“, „ BAO“, „BEI“, „BEN“, „BENG“, „BI“, „BIAN“, „BIAO“, „BIE“, „BIN“, „BING“, „BO“, „BU“, „CA“ ,'CAI','CAN',...
, das ist der oben erwähnte Schlüssel zur Konvertierung chinesischer Schriftzeichen in Pinyin.

4. Korrektur der Grenztabelle

Offensichtlich liegt ein Problem mit dieser Grenztabelle vor, das korrigiert werden muss.
Wir können sehen, dass die meisten chinesischen Schriftzeichen in Qing umgewandelt wurden. Es ist ersichtlich, dass es ein Problem mit dem chinesischen Schriftzeichen gibt, das dem Pinyin von Qing entspricht.
Habe dieses chinesische Schriftzeichen gefunden, es ist „u72c5“/„狅“, plus ein Zeichen davor und danach, [‘u4eb2‘, ‚u72c5‘, ‚u828e‘]/[“奇“, „狅“, „苎“. "]
.
Suche , 'u72c5'/'狅' kann als qing gelesen werden, wird aber jetzt als kuang gelesen, was die Fehlerursache sein sollte.
Laut der anfänglichen Sortierliste aller chinesischen Schriftzeichen ist das erste chinesische Schriftzeichen von Qing „u9751“/„靑“.
Nach der Änderung sind nur 104 Konvertierungen fehlgeschlagen.

Das obige ist der detaillierte Inhalt vonAusführliche Erklärung, wie JavaScript 300 Codezeilen verwendet, um chinesische Schriftzeichen in Pinyin umzuwandeln. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage