Wie kann ich die Codierung eines Strings in C# zuverlässig bestimmen?-C++-php.cn

Heim

Backend-Entwicklung

C++

Wie kann ich die Codierung eines Strings in C# zuverlässig bestimmen?

Susan Sarandon

Jan 20, 2025 pm 07:23 PM

How Can I Reliably Determine the Encoding of a String in C#?

Eine zuverlässige Methode zur Bestimmung der String-Kodierung in C#

Beim Umgang mit Zeichenfolgen aus Quellen wie Dateien oder Dateinamen stoßen wir häufig auf Situationen, in denen die Kodierung unbekannt ist. In diesem Fall ist die korrekte Bestimmung der Codierung entscheidend für die korrekte Darstellung und Interpretation der Daten. C# bietet mehrere Möglichkeiten, dieses Problem zu lösen.

Verwenden Sie Encoding.DetectEncoding

Die

Encoding.DetectEncoding-Methode bietet grundlegende Funktionen zur Codierungserkennung. Es versucht, Kodierungen anhand einer statistischen Analyse von Bytemustern zu identifizieren. Diese Methode ist jedoch nicht völlig zuverlässig und kann in einigen Fällen fehlschlagen.

Encoding encoding = Encoding.DetectEncoding(bytes);

Nach dem Login kopieren

Benutzerdefinierte Codierungserkennung

Für eine genauere Codierungserkennung kann eine benutzerdefinierte Implementierung erstellt werden. Diese Methoden umfassen typischerweise die Überprüfung von Bytemustern, BOM (Byte Order Mark) und anderen Heuristiken, um die Codierung zu bestimmen. Hier ist ein Beispiel für eine benutzerdefinierte Erkennungsmethode:

public static Encoding DetectEncoding(byte[] bytes)
{
    // 检查 UTF-8 BOM
    if (bytes.Length >= 3 && bytes[0] == 0xEF && bytes[1] == 0xBB && bytes[2] == 0xBF)
    {
        return Encoding.UTF8;
    }
    // 检查 UTF-16 BOM
    else if (bytes.Length >= 2 && bytes[0] == 0xFF && bytes[1] == 0xFE)
    {
        return Encoding.Unicode;
    }
    else if (bytes.Length >= 2 && bytes[0] == 0xFE && bytes[1] == 0xFF)
    {
        return Encoding.BigEndianUnicode;
    }
    // 检查 UTF-32 BOM
    else if (bytes.Length >= 4 && bytes[0] == 0x00 && bytes[1] == 0x00 && bytes[2] == 0xFE && bytes[3] == 0xFF)
    {
        return Encoding.UTF32;
    }
    else if (bytes.Length >= 4 && bytes[0] == 0xFF && bytes[1] == 0xFE && bytes[2] == 0x00 && bytes[3] == 0x00)
    {
        return Encoding.UTF32;
    }
    // 检查 UTF-7 BOM
    else if (bytes.Length >= 3 && bytes[0] == 0x2B && bytes[1] == 0x2F && bytes[2] == 0x76)
    {
        return Encoding.UTF7;
    }
    // 使用默认编码
    else
    {
        return Encoding.Default;
    }
}

Nach dem Login kopieren

Zusammenfassung

Um die Codierung einer Zeichenfolge in C# zu bestimmen, müssen die Einschränkungen der integrierten Methoden und die potenziellen Vorteile benutzerdefinierter Erkennungsmethoden sorgfältig berücksichtigt werden. Durch die Verwendung der oben genannten Techniken können Entwickler die Genauigkeit und Zuverlässigkeit ihres Erkennungscodes für die Zeichenfolgencodierung verbessern.

Das obige ist der detaillierte Inhalt vonWie kann ich die Codierung eines Strings in C# zuverlässig bestimmen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn