.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例-C#.Net チュートリアル-php.cn

ホームページ

バックエンド開発

C#.Net チュートリアル

.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例

Y2J

Apr 24, 2017 pm 04:56 PM

.net c#

まず、読者がエンコードや BOM に詳しくない場合は、まずこの記事を読むことをお勧めします: .NET (C#): 文字エンコーディング (エンコーディング) とバイトオーダーマーク (BOM)。
中国語エンコーディングは基本的に 2 つのカテゴリに分類できます:
1. GBK、GB2312、GB18030 などの ANSI エンコーディングの拡張セット。このタイプのエンコーディング (GB18030 などのいくつかの新しい標準中国語エンコーディング) には BOM はありません。および GBK エンコーディングは、GB2312 エンコーディングと将来互換性があります)。
2. Unicode エンコーディングセット: UTF-8、UTF-16、UTF-32 など。このタイプのコーディングには、BOM があってもなくてもかまいません。
3. 一部の Unicode エンコーディングには、いわゆるリトルエンディアンとビッグエンディアンという特定のバイト順序の問題もあります (UTF16 など)。ただし、UTF8 にはバイト順序の問題がありません。

基本的な知識を理解したら、中国語のテキストファイルを正しく開く方法のトピックに戻りましょう。確認する必要がある最初の情報は、Unicode でエンコードされたファイルに BOM が含まれているかどうかです。

BOM が含まれていれば、すべてを言うのは簡単です! BOM を見つければ、その特定のエンコーディングが分かるからです。 BOM が見つからない場合は、Unicode ではありません。システムのデフォルトの ANSI 拡張中国語エンコーディングセットを使用してテキストファイルを開くと問題ありません。
そして、Unicode エンコードに BOM がない場合 (ユーザーから提供されたすべての Unicode ファイルに BOM があることは保証できません)、元のバイトから GBK かどうかを手動で判断する必要があります。それともUTF8でしょうか？それとも他のエンコーディングでしょうか？。これには、特定のエンコード検出アルゴリズムが必要です (「charset|encoding detect」で検索できます)。もちろん、エンコード検出アルゴリズムは 100% 正確ではない可能性があります。だからこそ、Windows メモ帳は事実のバグを隠しました。 ChromeでWebを閲覧していると文字化けが発生することもあります。個人的には、Notepad++ のコーディング認識は非常に正確であると感じています。
このプロジェクトのようなコーディング認識アルゴリズムは多数あります: https://code.google.com/p/ude

Unicode に BOM が付属している場合、サードパーティのライブラリは必要ありません。ただし、説明しなければならないことがいくつかあります。

問題は、.NET のテキスト読み取りメソッド (File クラスと StreamReader) がデフォルトで UTF8 エンコーディングで読み取ることです。そのため、そのような GBK テキストファイルは (エンコーディングが指定されていない場合) .NET で直接開かれ、結果は間違いなく文字化けする！

まず第一に、ここでの最も効果的な解決策は、システムのデフォルトの ANSI 拡張エンコーディングを使用することです。これは、テキストを読み取るためのシステムのデフォルトの非 Unicode エンコーディングです。参照コード:

//输出系统默认非Unicode编码Console.WriteLine(Encoding.Default.EncodingName);//使用系统默认非Unicode编码来打开文件var fileContent = File.ReadAllText("C:\test.txt", Encoding.Default);

ログイン後にコピー

簡体字中国語 Windows システムでは、出力されるはずです。 :

簡体字中国語 (GB2312)<本文省略>...

そして、この方法の使用は簡体字中国語に限定されません。

もちろん、GBK エンコーディングなどのエンコーディングを手動で指定することもできますが、指定した GBK エンコーディングを使用して Unicode ファイルを開く場合でも、ファイルは正常に開かれますか?答えはまだ成功しています。その理由は、.NET はファイルを開くときにデフォルトで BOM を自動的に検出し、BOM に基づいて取得したエンコーディングを使用してファイルを開くためです。BOM がない場合は、ユーザーが指定したエンコーディング領域でファイルが開かれます。ユーザーがエンコードを指定しない場合は、UTF8 エンコードが使用されます。

この「BOM を自動的に認識する」パラメーターは、detectEncodingFromByteOrderMarks パラメーターに対応する StreamReader のコンストラクターで設定できます。

ただし、Fileクラスの対応するメソッドには設定できません。 (例: File.ReadAllText)。

たとえば、次のコードは次を使用します:

GB2312 エンコード、GB2312 テキストを読み取るために BOM を自動的に認識

GB2312 エンコード、Unicode テキストを読み取るために BOM を自動的に認識

GB2312 エンコード、Unicode テキストを読み取るために BOM を認識しない

static void Main(){    var gb2312 = Encoding.GetEncoding("GB2312");    //用GB2312编码，自动觉察BOM 来读取GB2312文本    ReadFile("gbk.txt", gb2312, true);    //用GB2312编码，自动觉察BOM 来读取Unicode文本    ReadFile("unicode.txt", gb2312, true);    //用GB2312编码，不觉察BOM 来读取Unicode文本    ReadFile("unicode.txt", gb2312, false);}//通过StreamReader读取文本 static void ReadFile(string path, Encoding enc, bool detectEncodingFromByteOrderMarks){    StreamReader sr;    using (sr = new StreamReader(path, enc, detectEncodingFromByteOrderMarks))    {        Console.WriteLine(sr.ReadToEnd());    }}

ログイン後にコピー

出力:

a刘a刘???

ログイン後にコピー

3行目が文字化けしています。

上記を見ると、GB2312 エンコードを使用して Unicode ファイルを開くことも成功します。 [BOM を自動的に検出する] パラメーターが True であるため、ファイルに BOM があることが判明すると、.NET は BOM を通じてそのファイルが Unicode ファイルであることを検出し、Unicode を使用してファイルを開きます。もちろん、BOM がない場合は、指定されたエンコードパラメータを使用してファイルが開きます。 GB2312 エンコードされたテキストの場合、明らかに BOM がないため、GB2312 エンコードを指定する必要があります。指定しないと、.NET はデフォルトの UTF8 エンコードを使用してファイルを解析し、結果は読み取られません。 3 行目の文字化けは、「BOM を自動的に検出する」が False であるためです。.NET は、指定された GB2312 エンコードを直接使用して、BOM を含む Unicode エンコードされたテキストファイルを読み取りますが、これは明らかに成功しません。

もちろん、BOM がない場合は、テキストを開くためのデフォルトのエンコーディングを指定することもできます。これについては、以前の記事 (.NET (C#): ファイルからのエンコーディング検出) に書きました。

コード:

static void Main(){    PrintText("gb2312.txt");    PrintText("unicode.txt");}//根据文件自动觉察编码并输出内容static void PrintText(string path){    var enc = GetEncoding(path, Encoding.GetEncoding("GB2312"));    using (var sr = new StreamReader(path, enc))    {        Console.WriteLine(sr.ReadToEnd());    }}/// <summary>/// 根据文件尝试返回字符编码/// </summary>/// <param name="file">文件路径</param>/// <param name="defEnc">没有BOM返回的默认编码</param>/// <returns>如果文件无法读取，返回null。否则，返回根据BOM判断的编码或者缺省编码（没有BOM）。</returns>static Encoding GetEncoding(string file, Encoding defEnc){    using (var stream = File.OpenRead(file))    {        //判断流可读？        if (!stream.CanRead)            return null;        //字节数组存储BOM        var bom = new byte[4];        //实际读入的长度        int readc;        readc = stream.Read(bom, 0, 4);        if (readc >= 2)        {            if (readc >= 4)            {                //UTF32，Big-Endian                if (CheckBytes(bom, 4, 0x00, 0x00, 0xFE, 0xFF))                    return new UTF32Encoding(true, true);                //UTF32，Little-Endian                if (CheckBytes(bom, 4, 0xFF, 0xFE, 0x00, 0x00))                    return new UTF32Encoding(false, true);            }            //UTF8            if (readc >= 3 && CheckBytes(bom, 3, 0xEF, 0xBB, 0xBF))                return new UTF8Encoding(true);            //UTF16，Big-Endian            if (CheckBytes(bom, 2, 0xFE, 0xFF))                return new UnicodeEncoding(true, true);            //UTF16，Little-Endian            if (CheckBytes(bom, 2, 0xFF, 0xFE))                return new UnicodeEncoding(false, true);        }        return defEnc;    }}//辅助函数，判断字节中的值static bool CheckBytes(byte[] bytes, int count, params int[] values){    for (int i = 0; i < count; i++)        if (bytes[i] != values[i])            return false;    return true;}

ログイン後にコピー

上記のコードでは、Unicode テキストの場合、GetEncoding メソッドは UTF16 エンコーディングを返します (より具体的には、BOM に従ってビッグエンディアンまたはリトルエンディアンの UTF16 エンコーディングも返します)。一方、BOM のないファイルは、デフォルト値 GB2312 エンコーディング。

.NET(C#): ファイルからエンコーディングを検出

.NET(C#): 文字エンコーディング (Encoding) とバイトオーダーマーク (BOM)

.NET(C#): System Text を使用します。「ストリーミングテキスト」を処理するデコーダークラス

.NET (C#): アセンブリマニフェストリソースと RESX リソースについての簡単な説明

以上が.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7492

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

C# を使用した Active Directory Sep 03, 2024 pm 03:33 PM

C# を使用した Active Directory のガイド。ここでは、Active Directory の概要と、C# での動作方法について、構文と例とともに説明します。

C# の乱数ジェネレーター Sep 03, 2024 pm 03:34 PM

C# の乱数ジェネレーターのガイド。ここでは、乱数ジェネレーターの仕組み、擬似乱数の概念、安全な数値について説明します。

C# シリアル化 Sep 03, 2024 pm 03:30 PM

C# シリアル化のガイド。ここでは、C# シリアル化オブジェクトの導入、手順、作業、例についてそれぞれ説明します。

C# データグリッドビュー Sep 03, 2024 pm 03:32 PM

C# データグリッドビューのガイド。ここでは、SQL データベースまたは Excel ファイルからデータグリッドビューをロードおよびエクスポートする方法の例について説明します。

C# のパターン Sep 03, 2024 pm 03:33 PM

C# のパターンのガイド。ここでは、C# のパターンの概要と上位 3 種類について、その例とコード実装とともに説明します。

C# の素数 Sep 03, 2024 pm 03:35 PM

C# の素数ガイド。ここでは、C# における素数の導入と例を、コードの実装とともに説明します。

C# の階乗 Sep 03, 2024 pm 03:34 PM

C# の Factorial のガイド。ここでは、C# での階乗の概要について、さまざまな例とコード実装とともに説明します。

マルチスレッドと非同期C＃の違い Apr 03, 2025 pm 02:57 PM

マルチスレッドと非同期の違いは、マルチスレッドが複数のスレッドを同時に実行し、現在のスレッドをブロックせずに非同期に操作を実行することです。マルチスレッドは計算集約型タスクに使用されますが、非同期はユーザーインタラクションに使用されます。マルチスレッドの利点は、コンピューティングのパフォーマンスを改善することですが、非同期の利点はUIスレッドをブロックしないことです。マルチスレッドまたは非同期を選択することは、タスクの性質に依存します。計算集約型タスクマルチスレッド、外部リソースと相互作用し、UIの応答性を非同期に使用する必要があるタスクを使用します。

See all articles

.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック