Python で Pandas を利用して重複アイテムの包括的なリストを抽出するにはどうすればよいですか?
データセットに次のような状況が発生する可能性があります。エクスポートに問題が発生する可能性があり、アイテムが重複する可能性があります。これらの重複を特定することは、手動でさらに比較するために重要です。ただし、デフォルトのパンダの重複メソッドは、重複の最初のインスタンスのみを返します。
方法 1: 重複 ID を持つすべての行を出力
このメソッドを使用すると、次のことを識別できます。そして、その ID が複製されたシリーズ内のいずれかの ID と一致するすべての行を出力します。
<code class="python">import pandas as pd df = pd.read_csv("dup.csv") ids = df["ID"] df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
方法 2: ID でグループ化する
あるいは、 ID 列でデータフレームを分割し、複数の行を持つグループを新しいデータフレームに連結します。
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
以上が記事の本質を捉えた、質問ベースのタイトルをいくつか紹介します。 **短くてパンチのある:** * **パンダですべての重複行を見つける方法** * **Pandas データ内のすべての重複を抽出するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。