Python pandas ライブラリには、ファイルからデータ フレームにデータをインポートするための便利なメソッド read_csv が用意されています。ただし、さまざまな数字のスペースやタブの組み合わせなど、不規則な区切り文字を含むファイルを扱う場合、パンダは問題に遭遇する可能性があります。
問題:
どうすればよいですか?一貫性のない空白を含むファイルのデータを正しく解釈するには、pandas の read_csv メソッドに不規則な区切り文字を指定しますか?
回答:
この問題を解決するために、pandas は 2 つのオプションを提供します。
正規表現 (regex):
正規表現を使用すると、不規則な区切り文字を正確に一致させることができます。たとえば、タブ (t)、1 つ以上のスペース (s)、または両方の組み合わせである区切り文字を照合するには、次の正規表現を使用できます:
<code class="python">delim_regex = r"\s+|\t|\s+\t+\s+" pd.read_csv("whitespace.csv", delimiter=delim_regex, header=None)</code>
delim_whitespace=True:
Pandas は、delim_whitespace パラメーターを使用して不規則な空白ベースの区切り文字を処理するためのより簡単なオプションを提供します。 True に設定すると、空白 (タブを含む) が区切り文字として扱われます。
<code class="python">pd.read_csv("whitespace.csv", delim_whitespace=True, header=None)</code>
どちらのアプローチも不規則な区切り文字を効果的に処理し、データが pandas データに正しくインポートされるようにします。フレーム。ネイティブの Python 分割メソッドは区切り文字パターンを指定する必要がないため、このような場合により適している可能性があることに注意してください。ただし、より複雑なデータ操作タスクのために、pandas は正規表現または delim_whitespace パラメーターと簡単に統合できる包括的なツール セットを提供します。
以上がPandas read_csv で不規則な区切り文字を処理する方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。