Kenapa `\ d` kurang cekap daripada` [0-9] `untuk pemadanan digit dalam C# regex?-C++-php.cn

Kenapa `\ d` kurang cekap daripada` [0-9] `untuk pemadanan digit dalam C# regex?

Barbara Streisand

Lepaskan： 2025-01-31 18:26:09

asal

887 orang telah melayarinya

Why is `d` Less Efficient Than `[0-9]` for Digit Matching in C# Regex?

C#Expression Regular

Alasan untuk lebih rendah daripada d [0-9]

Ujian prestasi baru -baru ini menunjukkan bahawa dalam enjin ekspresi biasa C#, kecekapan yang digunakan untuk memadankan bilangan

tidak disangka -sangka lebih rendah daripada set aksara d dan [0-9]. Penemuan ini mencetuskan dua masalah: [0123456789]

<.> 1. Kenapa julat

kecekapan yang lebih tinggi daripada menetapkan ? [0-9] [0123456789] orang mungkin berfikir bahawa skop lebih cekap, kerana ia meliputi pelbagai watak khusus dan sempit, dan koleksi itu jelas menyenaraikan semua sepuluh nombor. Walau bagaimanapun, keputusan ujian menunjukkan bahawa perbezaan prestasi antara kedua -dua kaedah adalah yang paling sedikit.

<.> 2. Mengapa

Kecekapan

lebih rendah daripada

? d Ujian mendapati bahawa kecekapan jauh lebih rendah daripada [0-9]. Ini amat membingungkan, kerana biasanya dianggap sebagai singkatan

. Siasatan lanjut mendedahkan perbezaan asas:

d [0-9] Memadankan nombor Unicode, d memadankan nombor ASCII [0-9]

dengan hanya nombor ASCII (0-9), d Match [0-9] semua nombor unicode . Ini termasuk watak -watak dari bahasa dan watak lain, seperti angka Parsi (۱۲۳۴۵۶۷۸۹) dan angka Dava Garri (०१२३४५६७८९). Untuk membuktikannya, kod berikut menghasilkan rentetan yang mengandungi semua nombor Unicode:

[0-9] Rentetan yang dihasilkan menunjukkan d pelbagai aksara yang dikenal pasti sebagai nombor, termasuk watak -watak dari Arab, Thai, Khamno, dan watak -watak lain. kesan prestasi

<code class="language-csharp">var sb = new StringBuilder();
for (UInt16 i = 0; i < 0x10FFFF; i++)
{
    if (char.IsDigit((char)i))
    {
        sb.Append((char)i);
    }
}
string unicodeDigits = sb.ToString();</code>

Salin selepas log masuk

Semak pelbagai rangkaian watak (nombor Unicode dan nombor ASCII) yang menerangkan perbezaan prestasi antara d dan

. Dalam kes hanya nombor ASCII, gunakan

akan menghasilkan prestasi yang lebih baik daripada .

Atas ialah kandungan terperinci Kenapa `\ d` kurang cekap daripada` [0-9] `untuk pemadanan digit dalam C# regex?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!