データフレームの文字列列を 2 つの列に分割するにはどうすればよいですか?
表形式のデータを操作する場合、多くの場合、抽出するデータを操作する必要があります。特定の情報。一般的なタスクの 1 つは、文字列値の単一列を複数の列に分割し、各列に元の文字列の一部を含めることです。
問題と要件
DataFrame があるとします。次の形式の文字列値を含む row という 1 つの列を持つ df という名前です:
row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL
私たちの目標は、行と列を分割することです。 fips と row という 2 つの新しい列に変換されます。fips には各文字列の最初の 5 文字が含まれ、行には残りの文字が含まれます。
str.split() を使用した解決策
行列を分割する 1 つの方法は、str.split() メソッドを使用することです。このメソッドは正規表現を引数として受け取り、正規表現で指定されたパターンに基づいて文字列を分割します。この場合、次の正規表現を使用できます:
r'(\d{5}) +'
この正規表現は、1 つ以上のスペースが後に続く 5 桁のシーケンスに一致します。次に、str.split() メソッドを使用して、この正規表現を使用して行列を分割し、次のように結果のリストを fips と行列に割り当てることができます。
import pandas as pd # Split the 'row' column into 'fips' and 'row' columns df[['fips', 'row']] = df['row'].str.split(r'(\d{5}) +', n=1, expand=True)
expand=True パラメーターは次のとおりです。 str.split() メソッドが一連の列ではなく、複数の列を含む DataFrame を返すように指定するために使用されます。 lists.
結果
上記のコードを実行すると、DataFrame df は次のようになります。
fips row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL
を使用した代替ソリューションstr.extract()
を分割する別の方法行列には str.extract() メソッドを使用します。このメソッドは正規表現を引数として受け取り、正規表現に一致するデータを含む DataFrame を返します。この例では、次の正規表現を使用できます。
r'(\d{5}) +\D+'
この正規表現は、5 つの数字の後に 1 つ以上の非数字が続くシーケンスと一致します。次に、str.extract() メソッドを使用してこの正規表現の一致を抽出し、次のように結果の DataFrame を fips 列と行列に割り当てることができます。
import pandas as pd # Split the 'row' column into 'fips' and 'row' columns df[['fips', 'row']] = df['row'].str.extract(r'(\d{5}) +\D+')
Result
上記のコードを実行すると、DataFrame df は次のようになります。これ:
fips row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL
上記の解決策は両方とも、行列を FIPS と行列に分割して、目的の結果を達成します。 str.split() ソリューションはより柔軟で、正規表現に基づいて列を分割するために使用できます。一方、str.extract() ソリューションはより単純で理解しやすいです。
以上がPandas DataFrame の文字列列を 2 つの列に分割するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。