複数のデータ フレームのデータを結合することは、データ分析における一般的なタスクです。 Pandas は、これを実現するために、join() 関数や merge() 関数など、いくつかのメソッドを提供します。この記事では、これらの関数を使用して、共通の列を共有する 2 つのデータ フレームを結合する方法を説明します。
join() 関数は、デフォルトで内部結合を実行します。結合列に一致する値を持つ行のみが保持されます。この例では、次のエラー メッセージが示すように、restaurant_ids_dataframe と restaurant_review_frame の列名 (星と型) が重複しているため、join() 関数を使用できません。
Exception: columns overlap: Index([business_id, stars, type], dtype=object)
merge() 関数を使用すると、データ フレームをより柔軟に結合できます。両方のデータ フレームのすべての行を保持する外部結合を実行するには、how='outer' パラメーターを使用します。
<code class="python">import pandas as pd pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer')</code>
デフォルトでは、merge() はサフィックス ('_x'、'_y') を使用します。 ) 重複した名前を持つ列を区別します。サフィックスをカスタマイズするには、以下に示すように、suffixes パラメーターに値を渡します。
<code class="python">pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer', suffixes=('_restaurant_id', '_restaurant_review'))</code>
データ フレームを結合するには、join() 関数と merge() 関数の両方を使用できます。共通の列にあります。目的の結合動作を実現するには、これらの関数の違いを理解することが重要です。 merge() 関数は、外部結合の実行や列サフィックスのカスタマイズ機能など、より高い柔軟性を提供します。これらのテクニックをマスターすると、データ フレームを効果的に組み合わせて、データセットから有意義な洞察を抽出できます。
以上が共有列に基づいて Pandas DataFrame を結合する方法: `join()` と `merge()` のガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。