使用 Join 组合数据帧:处理重叠列
在 pandas 中,您可以通过将两个数据帧连接到一个公共列来合并它们。但是,由于列重叠,您在尝试此操作时遇到错误。
发生错误的原因是restaurant_ids_dataframe 和restaurant_review_frame 都有名为“stars”的列。当使用restaurant_review_frame.join()执行左连接时,pandas将为这些重叠数据创建两个单独的列:“stars_x”和“stars_y”。
要解决此问题,您可以使用合并函数:
<code class="python">import pandas as pd pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer')</code>
合并功能允许您指定合并方法(在本例中,使用 how='outer' 进行外连接),以及要连接的列 (on='business_id') .
或者,您可以使用 suffixes 参数修改合并列的后缀:
<code class="python">pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer', suffixes=('_restaurant_id', '_restaurant_review'))</code>
这将创建两个名为“stars_restaurant_id”和“stars_restaurant_review”的列。
通过适当处理重叠列,您可以成功合并两个 pandas 数据框并创建一个包含所有相关信息的组合数据框。
以上是以下是一些适合问答格式的标题选项: * **当 Pandas DataFrame 具有重叠列时如何合并它们?** * **Pandas 合并中的重叠列:如何处理的详细内容。更多信息请关注PHP中文网其他相关文章!