「isin」と「sort_values」を使用して Pandas データフレーム内のすべての重複項目を検索する方法

Susan Sarandon
リリース: 2024-10-25 09:54:28
オリジナル
590 人が閲覧しました

How to Find All Duplicate Items in a Pandas DataFrame Using 'isin' and 'sort_values'?

'isin' と 'sort_values' を使用した Pandas DataFrame 内のすべての重複項目のリスト

この記事では、この問題に対処しますエクスポート エラーを含む可能性のあるアイテムのリスト内で重複するアイテムをすべて検索します。私たちの目標は、手動での比較やトラブルシューティングのために、これらの重複の包括的なリストを取得することです。

パンダの 'duplicated' メソッドは、デフォルトで重複値の最初のインスタンスのみを返します。ただし、「isin」と「sort_values」の組み合わせを使用すると、重複した ID に関連付けられたすべての行を表示できます。

<code class="python"># Import the pandas library
import pandas as pd

# Read the data from the CSV file
df = pd.read_csv('dup.csv')

# Extract the 'ID' column
ids = df['ID']

# Use 'isin' to filter for rows where the 'ID' matches any of the duplicate IDs
df[ids.isin(ids[ids.duplicated()])].sort_values('ID')</code>
ログイン後にコピー

このメソッドは、「ID」列に次のいずれかが含まれる DataFrame のすべての行をリストします。重複としてフラグが立てられた ID。出力では重複行が削除され、各重複 ID が 1 回だけ表示されるようになります。

代替方法: 'groupby' と 'concat' を使用して ID でグループ化する

代替アプローチDataFrame を「ID」でグループ化し、そのグループを複数の行で連結します。

<code class="python"># Group the DataFrame by 'ID'
groups = df.groupby('ID')

# Identify groups with more than one row
large_groups = [group for _, group in groups if len(group) > 1]

# Concatenate the large groups
pd.concat(large_groups)</code>
ログイン後にコピー

このメソッドは、すべての重複アイテムを取得し、各重複グループ内の重複アイテムを再度除外します。デフォルトでは、「concat」関数は重複したグループを垂直方向に追加します。

以上が「isin」と「sort_values」を使用して Pandas データフレーム内のすべての重複項目を検索する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!