Pythonで中国語を読む方法

下次还敢
リリース: 2024-04-20 16:15:37
オリジナル
928 人が閲覧しました

Python には、中国語を読み取るための 4 つの方法があります。直接読み取り、エンコードの指定、エスケープ文字の処理、およびサードパーティ ライブラリの使用です。デフォルトの UTF-8 エンコーディングに適したファイルを直接読み取り、エンコーディングを指定して非 UTF-8 エンコーディングを指定し、エスケープ文字を処理してエスケープ文字を処理し、サードパーティ ライブラリはファイル エンコーディングを自動的に検出できます。

Pythonで中国語を読む方法

Python で中国語を読む方法

直接読む:

Python 3 はデフォルトで Unicode エンコードをサポートしているため、中国語ファイルを直接読み取ることができます。

with open('test.txt', 'r', encoding='utf-8') as f:
    text = f.read()
    print(text)
ログイン後にコピー

エンコーディングを指定:

ファイルがデフォルトの UTF-8 エンコーディングではない場合は、正しいエンコーディング形式を指定する必要があります。

with open('test.txt', 'r', encoding='gbk') as f:
    text = f.read()
    print(text)
ログイン後にコピー

エスケープ文字の処理:

中国語ファイルにエスケープ文字 (\uxxxx など) が含まれている場合は、## を使用する必要があります。 #codecs 処理用のモジュール。

import codecs

with codecs.open('test.txt', 'r', encoding='utf-8') as f:
    text = f.read()
    print(text)
ログイン後にコピー

サードパーティ ライブラリを使用する:

chardetuniversal-encoding-detector# などの一部のサードパーティ ライブラリ##、ファイルのエンコードを自動検出できます。

import chardet

with open('test.txt', 'rb') as f:
    text = f.read()

encoding = chardet.detect(text)['encoding']
print(encoding)
ログイン後にコピー
その他の注意事項:

ファイルのエンコード形式が、コードで指定されているエンコード形式と一致していることを確認してください。
  • ファイルが大きい場合は、メモリ オーバーフローを避けるためにバッチで読み取ることができます。

以上がPythonで中国語を読む方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート