Kenal pasti pengekodan fail teks dengan tepat
Menentukan pengekodan fail teks boleh menjadi rumit, terutamanya jika anda tidak biasa dengan konsep pengekodan. Artikel ini akan memperkenalkan kaedah yang boleh dipercayai dengan ketepatan yang setanding dengan Notepad.
Byte Order Mark (BOM) Urutan bait yang terletak pada permulaan fail teks yang menunjukkan cara fail dikodkan. Butirannya adalah seperti berikut:
Terjemahkan pengetahuan di atas kepada kod:
<code class="language-csharp">/// <summary> /// 通过分析字节顺序标记 (BOM) 来确定文本文件的编码方式。 /// 如果无法检测文本文件的字节序,则默认为 ASCII。 /// </summary> /// <param name="filename">要分析的文本文件。</param> /// <returns>检测到的编码。</returns> public static Encoding GetEncoding(string filename) { // 读取 BOM var bom = new byte[4]; using (var file = new FileStream(filename, FileMode.Open, FileAccess.Read)) { file.Read(bom, 0, 4); } // 分析 BOM if (bom[0] == 0x2b && bom[1] == 0x2f && bom[2] == 0x76) return Encoding.UTF7; if (bom[0] == 0xef && bom[1] == 0xbb && bom[2] == 0xbf) return Encoding.UTF8; if (bom[0] == 0xff && bom[1] == 0xfe && bom[2] == 0 && bom[3] == 0) return Encoding.UTF32; //UTF-32LE if (bom[0] == 0xff && bom[1] == 0xfe) return Encoding.Unicode; //UTF-16LE if (bom[0] == 0xfe && bom[1] == 0xff) return Encoding.BigEndianUnicode; //UTF-16BE if (bom[0] == 0 && bom[1] == 0 && bom[2] == 0xfe && bom[3] == 0xff) return new UTF32Encoding(true, true); //UTF-32BE // 如果编码检测失败,则默认为 ASCII return Encoding.ASCII; }</code>
Dengan alatan ini, anda kini boleh menentukan pengekodan mana-mana fail teks dengan keyakinan profesional.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Menentukan Pengekodan Fail Teks Secara Pengaturcaraan dengan Ketepatan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!