计算数据帧行之间的相似性（通用计数值）

print(df) id name firstname email town age 0 1 martin pierre truc@machin.com Paris na 1 2 dupond sarah bidule@machin.com London 32 2 3 dupond sarah bidule@machin.com Berlin 32 3 4 dupond john na Madrid 45 4 5 smith na something@thing.com Paris 28

print(similarity) 0 1 2 3 4 0 1 0 0 0 0.2 1 0.2 1 0.8 0.2 0 2 0 0.8 1 0.2 0 3 0 0.2 0.2 1 0 4 0.2 0 0 0 1

1条回答

网友

1楼 · 发布于 2024-06-16 17:39:00

可以将^{}与自定义距离函数一起使用

from scipy.spatial.distance import pdist, squareform
pd.DataFrame(1 - squareform(pdist(df.set_index('id'), lambda u,v: (u != v).mean())))

输出：

     0    1    2    3    4
0  1.0  0.0  0.0  0.0  0.2
1  0.0  1.0  0.8  0.2  0.0
2  0.0  0.8  1.0  0.2  0.0
3  0.0  0.2  0.2  1.0  0.0
4  0.2  0.0  0.0  0.0  1.0

编程相关推荐

使用php web服务在签名的amazon s3 url上进行java多部分上载
mysql java hibernate如何将日期列映射为datetime？
安卓 java。错误java。util。ArrayList$ArrayListator。下一个
使用Selenium驱动程序调用chrome浏览器时出现java问题
Java中最快的数据结构（4D可视化处理）
jakarta ee将一个ArrayList对象拆分为大小相等的块，比如Java中的1MB
多线程Java使对象在按住按钮的同时移动
jackson databind如何将java注释的属性和值输出为JSON格式？
soap如何使用KSOAP在Java中序列化字符串数组中的xmlobject？
java缓存依赖项不适用于更高版本的Tomcat 9.0.37，同样适用于9.0.20

相关问题更多 >

编程相关推荐

热门问题

热门文章

计算数据帧行之间的相似性（通用计数值）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >