'isin' と 'sort_values' を使用した Pandas DataFrame 内のすべての重複項目のリスト
この記事では、この問題に対処しますエクスポート エラーを含む可能性のあるアイテムのリスト内で重複するアイテムをすべて検索します。私たちの目標は、手動での比較やトラブルシューティングのために、これらの重複の包括的なリストを取得することです。
パンダの 'duplicated' メソッドは、デフォルトで重複値の最初のインスタンスのみを返します。ただし、「isin」と「sort_values」の組み合わせを使用すると、重複した ID に関連付けられたすべての行を表示できます。
<code class="python"># Import the pandas library import pandas as pd # Read the data from the CSV file df = pd.read_csv('dup.csv') # Extract the 'ID' column ids = df['ID'] # Use 'isin' to filter for rows where the 'ID' matches any of the duplicate IDs df[ids.isin(ids[ids.duplicated()])].sort_values('ID')</code>
このメソッドは、「ID」列に次のいずれかが含まれる DataFrame のすべての行をリストします。重複としてフラグが立てられた ID。出力では重複行が削除され、各重複 ID が 1 回だけ表示されるようになります。
代替方法: 'groupby' と 'concat' を使用して ID でグループ化する
代替アプローチDataFrame を「ID」でグループ化し、そのグループを複数の行で連結します。
<code class="python"># Group the DataFrame by 'ID' groups = df.groupby('ID') # Identify groups with more than one row large_groups = [group for _, group in groups if len(group) > 1] # Concatenate the large groups pd.concat(large_groups)</code>
このメソッドは、すべての重複アイテムを取得し、各重複グループ内の重複アイテムを再度除外します。デフォルトでは、「concat」関数は重複したグループを垂直方向に追加します。
以上が「isin」と「sort_values」を使用して Pandas データフレーム内のすべての重複項目を検索する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。