ホームページ > バックエンド開発 > Python チュートリアル > Pandas DataFrame の文字列列を 2 つの列に分割するにはどうすればよいですか?

Pandas DataFrame の文字列列を 2 つの列に分割するにはどうすればよいですか?

Mary-Kate Olsen
リリース: 2024-12-24 04:41:18
オリジナル
523 人が閲覧しました

How to Split a Pandas DataFrame String Column into Two Columns?

データフレームの文字列列を 2 つの列に分割するにはどうすればよいですか?

表形式のデータを操作する場合、多くの場合、抽出するデータを操作する必要があります。特定の情報。一般的なタスクの 1 つは、文字列値の単一列を複数の列に分割し、各列に元の文字列の一部を含めることです。

問題と要件

DataFrame があるとします。次の形式の文字列値を含む row という 1 つの列を持つ df という名前です:

          row
0    00000 UNITED STATES
1    01000 ALABAMA
2    01001 Autauga County, AL
3    01003 Baldwin County, AL
4    01005 Barbour County, AL
ログイン後にコピー

私たちの目標は、行と列を分割することです。 fips と row という 2 つの新しい列に変換されます。fips には各文字列の最初の 5 文字が含まれ、行には残りの文字が含まれます。

str.split() を使用した解決策

行列を分割する 1 つの方法は、str.split() メソッドを使用することです。このメソッドは正規表現を引数として受け取り、正規表現で指定されたパターンに基づいて文字列を分割します。この場合、次の正規表現を使用できます:

r'(\d{5}) +'
ログイン後にコピー

この正規表現は、1 つ以上のスペースが後に続く 5 桁のシーケンスに一致します。次に、str.split() メソッドを使用して、この正規表現を使用して行列を分割し、次のように結果のリストを fips と行列に割り当てることができます。

import pandas as pd

# Split the 'row' column into 'fips' and 'row' columns
df[['fips', 'row']] = df['row'].str.split(r'(\d{5}) +', n=1, expand=True)
ログイン後にコピー

expand=True パラメーターは次のとおりです。 str.split() メソッドが一連の列ではなく、複数の列を含む DataFrame を返すように指定するために使用されます。 lists.

結果

上記のコードを実行すると、DataFrame df は次のようになります。

         fips       row
0    00000 UNITED STATES
1    01000 ALABAMA
2    01001 Autauga County, AL
3    01003 Baldwin County, AL
4    01005 Barbour County, AL
ログイン後にコピー
ログイン後にコピー

を使用した代替ソリューションstr.extract()

を分割する別の方法行列には str.extract() メソッドを使用します。このメソッドは正規表現を引数として受け取り、正規表現に一致するデータを含む DataFrame を返します。この例では、次の正規表現を使用できます。

r'(\d{5}) +\D+'
ログイン後にコピー

この正規表現は、5 つの数字の後に 1 つ以上の非数字が続くシーケンスと一致します。次に、str.extract() メソッドを使用してこの正規表現の一致を抽出し、次のように結果の DataFrame を fips 列と行列に割り当てることができます。

import pandas as pd

# Split the 'row' column into 'fips' and 'row' columns
df[['fips', 'row']] = df['row'].str.extract(r'(\d{5}) +\D+')
ログイン後にコピー

Result

上記のコードを実行すると、DataFrame df は次のようになります。これ:

         fips       row
0    00000 UNITED STATES
1    01000 ALABAMA
2    01001 Autauga County, AL
3    01003 Baldwin County, AL
4    01005 Barbour County, AL
ログイン後にコピー
ログイン後にコピー

上記の解決策は両方とも、行列を FIPS と行列に分割して、目的の結果を達成します。 str.split() ソリューションはより柔軟で、正規表現に基づいて列を分割するために使用できます。一方、str.extract() ソリューションはより単純で理解しやすいです。

以上がPandas DataFrame の文字列列を 2 つの列に分割するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート