Pandas read_csv における不規則な区切り文字の克服
不規則な区切り文字を含むファイルからデータを読み取る場合、pandas read_csv メソッドで問題が発生する可能性があります。さまざまな空白をシームレスに処理する Python の split() メソッドとは異なり、read_csv は一貫性のないスペースやタブで区切られたデータを解読するのに苦労する可能性があります。
この課題に対処するために、pandas は区切り文字を定義するための多彩なオプションを提供しています。 1 つのアプローチには、正規表現 (regex) の使用が含まれます。 read_csv で delimiter パラメーターを使用すると、必要な区切り文字を取得する正規表現パターンを指定できます。これにより、スペースとタブの組み合わせを考慮して、正確な解析が保証されます。
あるいは、Python の split() メソッドと同様に動作する delim_whitespace パラメータを利用することもできます。 delim_whitespace を True に設定すると、パンダはあらゆる空白類 (スペースやタブを含む) を区切り文字として扱います。これにより、特定の正規表現パターンを指定する必要がなくなります。
次の例を考えてみましょう:
import pandas as pd data = pd.read_csv("irregular_separators.csv", header=None, delimiter=r"\s+") print(data) # Output: # 0 1 2 3 4 # 0 a b c 1 2 # 1 d e f 3 4
この場合、不規則_separators.csv には、タブ、スペース、さらにはそれらの組み合わせで区切られた列が含まれています。両方。正規表現パターンを指定することで、read_csv はデータを正常に解析し、DataFrame を作成します。
または、delim_whitespace:
data = pd.read_csv("irregular_separators.csv", header=None, delim_whitespace=True) print(data) # Output (same as above): # 0 1 2 3 4 # 0 a b c 1 2 # 1 d e f 3 4
を使用すると、read_csv の区切り文字の柔軟性を活用することで、不規則なデータを効果的に処理できます。データ ファイル内の空白を削除し、分析のために意味のある情報を抽出します。
以上がPandas read_csv で不規則な区切り文字を含むデータを解析するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。