Pandas データ操作: 文字列列からの数値の抽出
Pandas でデータ フレームを操作する場合、抽出するためにさまざまな操作を実行する必要があります。意味のある情報。このようなタスクの 1 つは、データ フレーム列に含まれる文字列から数値を抽出することを含む場合があります。ここでは、この要件に対処するための特定のシナリオを検討します。
文字列値を含む 'A' という名前の列を持つ次のデータ フレームについて考えます。
<code class="python">import pandas as pd import numpy as np df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'], }) print(df)</code>
目的は次のとおりです。 「A」列の各セルから数値のみを抽出し、「A」列に数値のみが含まれる新しいデータ フレームを作成します。
これを実現するには、強力な str を利用できます。 Pandas の .extract 関数。 str.extract 式内で正規表現キャプチャ グループを使用することにより、データ フレーム内の各文字列から数字を分離して抽出することが可能になります。
<code class="python">df.A.str.extract('(\d+)')</code>
正規表現パターン '(d )' は、次のいずれかに一致します。さらに多くの桁 (d) を追加し、それらをグループ (括弧 ( と )) としてキャプチャします。上記のコードを実行すると、次の結果が得られます。
<code class="python"> A 0 1 1 NaN 2 10 3 100 4 0 Name: A, dtype: object</code>
「A」列の元の文字列は正常に数値に変換されますが、値が欠落しているセルについては NaN が保持されます。この方法は、文字列から整数を抽出する場合に特に効果的であることが証明されており、データ分析や操作のシナリオで貴重なツールとなります。
以上がPandas の文字列列から数値を抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。