奇怪的DBSCAN聚类过程使用结果

clusters = pd.read_csv('cl.csv') def stb_metric(mac1, mac2): if mac1[0] == mac2[0]: return 0 print(mac1[0], mac2[0]) return 1 X = clusters.mac.unique().reshape(-1, 1) db = DBSCAN(eps = 1, min_samples = 1, metric = stb_metric).fit(X)

(8.354702571827299e+18, 2.9454553327798374e+17) (8.354702571827299e+18, 6.197480706091255e+17) (8.354702571827299e+18, 2.2314854373712773e+18) (8.354702571827299e+18, 2.5842000416550815e+18) (8.354702571827299e+18, 3.525512049236994e+18) (8.354702571827299e+18, 3.678065423036415e+18) (8.354702571827299e+18, 5.232482030018176e+18) (8.354702571827299e+18, 9.212176082078934e+18) (8.354702571827299e+18, 1.0293104245975763e+19) (8.354702571827299e+18, 1.2339113289676194e+19) (8.354702571827299e+18, 1.2848720441363968e+19) etc

1条回答

网友

1楼 · 发布于 2024-06-16 11:29:11

首先，与离散度量和minpts=1结合使用意味着滥用DBSCAN来检测重复。有很多更有效更聪明的方法。。。你知道吗

现在你的问题可能是：学习。你知道吗

它试图变得聪明，而且很可能试图使用一个球树来加速这一点。不幸的是，纯python速度很慢，所以这些部分是在Cython中构建的，这最终会迫使您的数据转换为浮点向量——因为这是这些子例程支持的唯一数据类型。你知道吗

解决方法是使用algorithm="brute"，但运行时将是O（n²）。不幸的是，使用预先计算的距离矩阵（如果你能负担得起0（n²）内存）通常比使用sklearn的ufunc距离要好。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章