Pandas 重複排除手法の紹介: これらの手法を使用してデータをクリーンにする方法を学びます。具体的なコード例が必要です。
概要:
データ分析と処理では、重複データを処理する必要がある状況によく遭遇します。重複データの存在は分析結果に偏りをもたらす可能性があるため、重複排除は非常に重要かつ基本的なデータ処理操作です。 Pandas ではさまざまな重複排除メソッドが提供されており、この記事では一般的に使用される手法を簡単に紹介し、いくつかの具体的なコード例を示します。
方法 1:drop_duplicates()
Pandas の Drop_duplicates() メソッドは、最も一般的に使用される重複排除メソッドの 1 つです。指定された列に基づいてデータから重複行を削除できます。デフォルトでは、このメソッドは最初に出現した重複値を保持し、それ以降に出現した重複値を削除します。コード例を次に示します。
import pandas as pd
重複データを含む DataFrame を作成します
data = {'A': [1, 2, 3, 4 , 4, 5, 6],
'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}
ログイン後にコピー
ログイン後にコピー
ログイン後にコピー
df = pd.DataFrame(data)
drop_duplicates() メソッドを使用して重複行を削除します
df.drop_duplicates(inplace= True )
print(df)
上記のコードを実行すると、重複行が削除された DataFrame が取得されます。
方法 2:duplicated() と ~ 演算子
drop_duplicates() メソッドに加えて、duplicated() メソッドを使用して各行が重複行であるかどうかを判断し、 ~ 演算子で反転します。重複しない行を選択します。コード例を次に示します。
import pandas as pd
重複データを含む DataFrame を作成します
data = {'A': [1, 2, 3, 4 , 4, 5, 6],
'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}
ログイン後にコピー
ログイン後にコピー
ログイン後にコピー
df = pd.DataFrame(data)
重複行を削除するには、duplicated() と ~ 演算子を使用します
df = df[ ~df.duplicated()]
print(df)
上記のコードを実行すると、前の方法と同じ結果が得られます。
メソッド 3: サブセット パラメーター
drop_duplicates() メソッドには、重複行を決定するために 1 つ以上の列を指定できるサブセット パラメーターも用意されています。コード例を次に示します。
import pandas as pd
重複データを含む DataFrame を作成します
data = {'A': [1, 2, 3, 4 , 4, 5, 6],
'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f'],
'C': ['x', 'y', 'y', 'z', 'z', 'y', 'z']}
ログイン後にコピー
ログイン後にコピー
df = pd.DataFrame(data)
サブセット パラメーターを使用して、特定の列の重複行を削除します
df.drop_duplicates( subset= ['A', 'B'], inplace=True)
print(df)
上記のコードを実行すると、列に基づいて重複行を削除した結果が得られます。 A' と 'B' 。
方法 4: パラメータを保持する
drop_duplicates() メソッドの保持パラメータを「last」に設定すると、重複値の最後の値が保持されます。コード例を次に示します。
import pandas as pd
重複データを含む DataFrame を作成します
data = {'A': [1, 2, 3, 4 , 4, 5, 6],
'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f']}
ログイン後にコピー
ログイン後にコピー
ログイン後にコピー
df = pd.DataFrame(data)
keep パラメータを使用して最後の重複値を保持します
df.drop_duplicates(keep = 'last', inplace=True)
print(df)
上記のコードを実行すると、最後の重複値が保持された結果が得られます。
方法 5: 主キーを使用して重複を削除する
複数の列を含む DataFrame を処理する場合、set_index() メソッドを使用して 1 つ以上の列を主キーとして設定し、drop_duplicates を使用できます。 ()メソッドで重複を削除すればOKです。コード例を次に示します。
import pandas as pd
重複データを含む DataFrame を作成します
data = {'A': [1, 2, 3, 4 , 4, 5, 6],
'B': ['a', 'b', 'c', 'd', 'd', 'e', 'f'],
'C': ['x', 'y', 'y', 'z', 'z', 'y', 'z']}
ログイン後にコピー
ログイン後にコピー
df = pd.DataFrame(data)
set_index() メソッドを使用して、「A」列と「B」列を主キーとして設定します。次に、drop_duplicates( ) メソッドを使用して重複行を削除します。
df.set_index(['A', 'B'], inplace=True)
df = df[~df.index.duplicated() ]
print(df)
上記のコードを実行すると、列 'A' と 'B' に基づいて重複行を削除した結果が得られます。
概要:
この記事では、drop_duplicates() メソッド、duplicate() と ~ 演算子、サブセット パラメーター、keep パラメーター、主キー重複排除の使用など、Pandas で一般的に使用されるいくつかの重複排除メソッドを簡単に紹介します。方法。これらのテクニックを学び、柔軟に適用することで、繰り返されるデータをより便利に処理し、データをクリーンにし、その後のデータ分析と処理のための信頼できる基盤を提供することができます。この記事が Pandas を学習する過程で役立つことを願っています。 ###
以上がデータを整理するための次のテクニックを学びましょう: Pandas の複製方法の簡単な紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。