Pandas read_csv で不規則な区切り文字を含むデータを解析するにはどうすればよいですか?

Susan Sarandon
リリース: 2024-10-22 08:18:02
オリジナル
861 人が閲覧しました

How Do I Parse Data with Irregular Separators in Pandas read_csv?

Pandas read_csv における不規則な区切り文字の克服

不規則な区切り文字を含むファイルからデータを読み取る場合、pandas read_csv メソッドで問題が発生する可能性があります。さまざまな空白をシームレスに処理する Python の split() メソッドとは異なり、read_csv は一貫性のないスペースやタブで区切られたデータを解読するのに苦労する可能性があります。

この課題に対処するために、pandas は区切り文字を定義するための多彩なオプションを提供しています。 1 つのアプローチには、正規表現 (regex) の使用が含まれます。 read_csv で delimiter パラメーターを使用すると、必要な区切り文字を取得する正規表現パターンを指定できます。これにより、スペースとタブの組み合わせを考慮して、正確な解析が保証されます。

あるいは、Python の split() メソッドと同様に動作する delim_whitespace パラメータを利用することもできます。 delim_whitespace を True に設定すると、パンダはあらゆる空白類 (スペースやタブを含む) を区切り文字として扱います。これにより、特定の正規表現パターンを指定する必要がなくなります。

次の例を考えてみましょう:

import pandas as pd

data = pd.read_csv("irregular_separators.csv", header=None, delimiter=r"\s+")

print(data)

# Output:
#   0  1  2  3  4
# 0  a  b  c  1  2
# 1  d  e  f  3  4
ログイン後にコピー

この場合、不規則_separators.csv には、タブ、スペース、さらにはそれらの組み合わせで区切られた列が含まれています。両方。正規表現パターンを指定することで、read_csv はデータを正常に解析し、DataFrame を作成します。

または、delim_whitespace:

data = pd.read_csv("irregular_separators.csv", header=None, delim_whitespace=True)

print(data)

# Output (same as above):
#   0  1  2  3  4
# 0  a  b  c  1  2
# 1  d  e  f  3  4
ログイン後にコピー

を使用すると、read_csv の区切り文字の柔軟性を活用することで、不規則なデータを効果的に処理できます。データ ファイル内の空白を削除し、分析のために意味のある情報を抽出します。

以上がPandas read_csv で不規則な区切り文字を含むデータを解析するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!