如何将重复的行作为列附加到pandas中?

2024-04-25 01:03:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试将重复的行附加到一列中。复制是基于某些列,这些列需要与行完全匹配才能声明为匹配。 问题是我们不能说会有多少重复的行,所以解决方案需要是通用的。你知道吗

我尝试过其他解决方案,但它们是基于某个用户id或键列的。在我的例子中,除了一列之外,所有的列都必须进行精确的比较。和附加列应具有相同的列名。你知道吗

我使用以下代码查找重复的行:

col = ['TITLE', 'ISSN', 'e-ISSN', 'ISBN', 'e-ISBN']
duplicated_data = data[data.duplicated(col, keep=False)]

现在我不知道下一步该怎么办

这是一个输入输出示例

输入数据:

------------------------------
DealName | Target | Category |
-----------------------------
ABC-XYZ  | ABC    | A        |
------------------------------
ABC-XYZ  | ABC    | B        |
------------------------------
ABC-XYZ  | None   | C        |

输出数据:

------------------------------------------------------------------------------------------
DealName | Target | Category |DealName | Target | Category 
---------------------------------------------------------------------------------------
ABC-XYZ  | ABC    | A        |ABC-XYZ  | ABC    | B        


假设我设置了前两列需要匹配才能选择行的条件,因为第三行在第二列中没有相同的值,我们忽略了它。你知道吗


Tags: 数据用户id声明targetdatacol解决方案