UnicodeDecodeError: Pandas で CSV ファイルを読み取る際のエンコーディングの問題を解決する
概要
CSV ファイルでは、特にデフォルトでサポートされていない文字が見つかった場合に、エンコードの問題が発生することがよくあります。エンコーディング。 Python の人気のあるデータ操作ライブラリである Pandas は、CSV ファイルからデータをインポートするための read_csv() メソッドを提供します。ただし、このメソッドでは、Unicode でエンコードされた文字を処理するときに UnicodeDecodeError が発生することがあります。
エラー分析
提供されたエラー メッセージは、read_csv() メソッドが困難であることを示しています。デフォルトの UTF-8 エンコーディングを使用してファイル内のバイトをデコードします。無効な継続バイトは、ファイルが別のエンコードを使用してエンコードされた可能性があることを示唆しています。
問題の解決
このエラーを解決するには、次のときにエンコードを明示的に指定できます。 CSVファイルを読み込んでいます。 Pandas は、この目的のためにエンコーディング パラメーターを提供します。次のアプローチを使用できます。
ISO-8859-1 エンコーディング:
西洋言語で一般的に使用される ISO-8859-1 エンコーディングを使用します。ヨーロッパの性格セット:
data = pd.read_csv(filepath, encoding="ISO-8859-1")
UTF-8 エンコーディング:
または、世界中の文字セットに適した UTF-8 エンコーディングを使用してみてください:
data = pd.read_csv(filepath, encoding="utf-8")
のその他のエイリアス「latin」や「cp1252」などの ISO-8859-1 も使用できます。サポートされているエンコーディングの包括的なリストについては、Pandas ドキュメントまたは Python ドキュメントを参照してください。
ファイル エンコーディングの検出
CSV ファイルのエンコーディングが不明な場合は、 enca、Linux の file -i、macOS の file -I などのツールを使用して、正しいものを判断できます。エンコード。
追加リソース
以上がPandas で CSV ファイルを読み取るときに発生する UnicodeDecodeError を解決するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。