高效替換字串中的所有重音字元?
我1正在尋找改進我的 JavaScript 類別中的字串比較函數。
目前它們使用 string.replace() 執行全域 (g) 搜索,並將字串 (p{InCombiningDiariticMarks} ) 中的所有重音字元替換為其基本形式(使用 NFD 進行規範分解)。
在輸入字串中搜尋即使是一些重音字元也會導致相當大的流失 - 當搜尋較大的輸入時,效能可能會變得緩慢。
是否有更有效的方法要完成此操作?
[1] 編輯 - 澄清一般問題。
執行此操作是為了將帶有重音的德語字元轉換為不重音的形式,以便在排序時以「錯誤」順序排列的字串(例如變音符號在非變音符號「a」之前結束),它們可以根據本地正確排序
因此,簡單地搜尋重音字元並將其替換為無重音的等效字元是不夠的 - 有必要將重音形式替換為 基本字元等價。
未規範化或不正確的規範化可能會導致錯誤的排序order.
[編輯2]
為了在客戶端實現near-排序規則正確排序,我需要一個JavaScript 高效字串中的單一字元替換的函數。
這裡是我的意思(請注意,這適用於德語文本,其他語言排序不同):
native sorting gets it wrong: a b c o u z ä ö ü collation-correct would be: a ä b c o ö u ü z
基本上,我需要將給定字串中所有出現的「ä」替換為「a」(依此類推) )。這樣,本機排序的結果將非常接近使用者期望的結果(或資料庫傳回的結果)。
其他語言也有能力做到這一點:Python 提供了 str.translate(), Perl有tr/…/…/,XPath有函數translate(),ColdFusion有ReplaceList()。但是 JavaScript 呢?
這是我現在所擁有的。
// s would be a rather short string (something like // 200 characters at max, most of the time much less) function makeSortString(s) { var translate = { "ä": "a", "ö": "o", "ü": "u", "Ä": "A", "Ö": "O", "Ü": "U" // probably more to come }; var translate_re = /[öäüÖÄÜ]/g; return ( s.replace(translate_re, function(match) { return translate[match]; }) ); }
對於初學者來說,我不喜歡每次呼叫函數時都會重建正規表示式。我想閉包在這方面可以有所幫助,但由於某種原因我似乎沒有掌握它的竅門。
有人能想到更有效的方法嗎?
以上是如何有效地替換 JavaScript 字串中的重音字元以改善排序?的詳細內容。更多資訊請關注PHP中文網其他相關文章!