Alle Akzentzeichen in einer Zeichenfolge effizient ersetzen?
Ich1 suche nach Verbessere die String-Vergleichsfunktionen in meiner JavaScript-Klasse.
Derzeit verwenden sie string.replace(), um eine durchzuführen global (g) sucht und ersetzt alle Zeichen mit Akzent in einer Zeichenfolge (p{InCombiningDiacriticalMarks}) durch ihre Grundform (kanonische Zerlegung mit NFD).
Die Suche nach nur wenigen Zeichen mit Akzent in der Eingabezeichenfolge führt zu ziemlich umfangreichen Ergebnissen Abwanderung – und bei der Suche nach größeren Eingaben kann die Leistung träge werden.
Gibt es effizientere Möglichkeiten, dies zu erreichen? das?
[1] Bearbeiten – Klärung des allgemeinen Problems.
Dieser Vorgang wird durchgeführt, um akzentuierte deutsche Zeichen in ihre nicht akzentuierte Form umzuwandeln, sodass beim Sortieren von Zeichenfolgen in die „falsche“ Reihenfolge (z. B. Umlaut endet vor Nicht-Umlaut „a“), können sie ordnungsgemäß nach lokal sortiert werden Erwartungen.
Es reicht daher nicht aus, einfach nach den akzentuierten Zeichen zu suchen und sie durch ihr nicht akzentuiertes Äquivalent zu ersetzen – es ist notwendig, akzentuierte Formen durch ihre Basis zu ersetzen Äquivalent.
Nicht- oder falsche Normalisierung kann zu einer falschen Sortierreihenfolge führen.
[Bearbeiten 2]
Für eine arme Mann-Implementierung der nahezu-kollationskorrekten Sortierung auf der Clientseite benötige ich eine JavaScript-Funktion, die eine effiziente Einzelzeichenersetzung durchführt in einer Zeichenfolge.
Hier ist, was ich meine (beachten Sie, dass dies für deutschen Text gilt, andere Sprachen sortieren). anders):
native sorting gets it wrong: a b c o u z ä ö ü collation-correct would be: a ä b c o ö u ü z
Grundsätzlich muss ich alle Vorkommen von „ä“ einer bestimmten Zeichenfolge durch „a“ ersetzen (und so weiter). Auf diese Weise würde das Ergebnis der nativen Sortierung sehr nahe an dem liegen, was ein Benutzer erwarten würde (oder was eine Datenbank zurückgeben würde).
Andere Sprachen verfügen über Möglichkeiten, genau das zu tun: Python liefert str.translate(), in In Perl gibt es tr/…/…/, XPath hat eine Funktion Translate(), ColdFusion hat ReplacementList(). Aber was ist mit JavaScript?
Hier ist, was ich gerade habe.
// s would be a rather short string (something like // 200 characters at max, most of the time much less) function makeSortString(s) { var translate = { "ä": "a", "ö": "o", "ü": "u", "Ä": "A", "Ö": "O", "Ü": "U" // probably more to come }; var translate_re = /[öäüÖÄÜ]/g; return ( s.replace(translate_re, function(match) { return translate[match]; }) ); }
Zunächst gefällt mir die Tatsache nicht, dass der reguläre Ausdruck jedes Mal neu erstellt wird, wenn ich die Funktion aufrufe. Ich schätze, ein Verschluss kann in dieser Hinsicht helfen, aber ich scheine aus irgendeinem Grund den Dreh nicht rauszubekommen.
Kann sich jemand etwas Effizienteres vorstellen?
Das obige ist der detaillierte Inhalt vonWie kann man Akzentzeichen in einer JavaScript-Zeichenfolge effizient ersetzen, um die Sortierung zu verbessern?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!