結合を使用したデータフレームの結合: 重複する列の処理
パンダでは、共通の列で 2 つのデータフレームを結合することで、2 つのデータフレームを結合できます。ただし、列が重複しているため、この操作を試行したときにエラーが発生しました。
このエラーは、restaurant_ids_dataframe と restaurant_review_frame の両方に「stars」という名前の列があるために発生します。 restaurant_review_frame.join() を使用して左結合を実行すると、パンダはこれらの重複するデータに対して 2 つの別々の列を作成します: 'stars_x' と 'stars_y'。
この問題を解決するには、代わりにマージ関数を使用できます。
<code class="python">import pandas as pd pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer')</code>
マージ関数を使用すると、マージ方法 (この場合は、how='outer' を使用した外部結合) と、結合する列 (on='business_id') を指定できます。 .
また、suffixes パラメーターを使用して、結合された列のサフィックスを変更できます。
<code class="python">pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer', suffixes=('_restaurant_id', '_restaurant_review'))</code>
これにより、'stars_restaurant_id' と 'stars_restaurant_review' という名前の 2 つの列が作成されます。
重複する列を適切に処理することで、2 つの pandas データフレームを正常にマージし、すべての関連情報を含む結合されたデータフレームを作成できます。
以上が質疑応答形式に適したタイトルのオプションをいくつか示します。 * **重複する列がある場合に Pandas DataFrame をマージするにはどうすればよいですか?** * **Pandas マージでの重複する列: 処理方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。