Pandas DataFrame 内の重複アイテムの完全なリストを取得するにはどうすればよいですか?

Susan Sarandon
リリース: 2024-10-26 03:35:02
オリジナル
734 人が閲覧しました

How to Get a Complete List of Duplicate Items in a Pandas DataFrame?

Pandas ですべての重複アイテムのリストを取得する

Pandas では、duplicate メソッドを使用して、データセット内の重複行を識別できます。指定された列で。ただし、デフォルトでは、各重複の最初の出現のみが返されます。包括的なリストを取得するには、次のアプローチを検討してください。

方法 #1: isin メソッドによるフィルタリング

この方法には 2 つのステップが含まれます。

  1. 以下を使用して重複行から一意の ID を抽出します。

    <code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
    ログイン後にコピー
  2. isin メソッドを使用して、ID が重複 ID のいずれかと一致するすべての行をフィルターします。

    <code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
    ログイン後にコピー

方法 2: groupby によるグループ化

このアプローチでは、groupby 操作を使用して ID 列ごとに行をグループ化し、フィルターで除外します。複数の行を持つグループ:

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
ログイン後にコピー

これらのメソッドを使用すると、pandas DataFrame 内の重複アイテムの完全なリストを効率的に取得できます。

以上がPandas DataFrame 内の重複アイテムの完全なリストを取得するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!