按类似值组合对行进行分组

2024-04-20 11:32:26 发布

您现在位置:Python中文网/ 问答频道 /正文


我正在寻找一种很好的方法来对数据帧的行进行分组-分组,而不是合并或融合它们-根据有多少值相同或具有一定的相似性范围。
例如,如果我有一个像

df <- data.frame(A = c("a", "a", "b", "c"), B = c(1, 6, 1, 7), C = c(1000, 20, 900, 50))
df
#   A B    C
# 1 a 1 1000
# 2 a 6   20
# 3 b 1  900
# 4 c 7   50

我想把第1行和第3行分组,因为与其他两行相比,它们在B中的值较低,在C中的值较高。我的实际数据帧有12列左右的字符串和数值。我想对那些与某些键字符串列完全匹配并且在至少四个数字列中有接近值的行进行分组。
我对R很在行,但对python或其他语言还不熟悉,不过如果你有任何语言的解决方案,我会开始学习它。

非常感谢您的任何建议、功能、包或库名称甚至整个解决方案!对不起,我的英语在过去几年里变得生疏了。你知道吗


Tags: 数据方法字符串功能名称语言dfdata