複数の文字列列を含むデータをクレンジングするには、最初の 2 つの列でグループ化し、3 番目の列の最も一般的な値を選択します
提供されたコードは失敗しますKeyError が発生し、City 列のみでグループ化すると AssertionError が発生します。堅牢なソリューションが必要です。
パンダ v0.16 以降、pd.Series.mode は、このタスクに多用途で効率的なメソッドを提供します。
source.groupby(['Country', 'City'])['Short name'].agg(pd.Series.mode)
グループ内に複数のモードがある場合、Series.mode値のリストを返します。単一の結果については、ラムダ関数を適用します。
source.groupby(['Country', 'City'])['Short name'].agg(lambda x: pd.Series.mode(x)[0])
scipy.stats.mode も使用できますが、複数のモードが発生するとエラーが発生します。
以上がグループ化後に Pandas DataFrame で最も一般的な値を見つける方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。