用DBSCAN聚类word2vec输出的故障排除技巧

import sys import gensim import json from optparse import OptionParser import numpy as np from sklearn.cluster import DBSCAN from sklearn.preprocessing import StandardScaler # snip option parsing model = gensim.models.Word2Vec.load(options.file); words = sorted(model.vocab.keys()) vectors = StandardScaler().fit_transform([model[w] for w in words]) db = DBSCAN(eps=options.epsilon).fit(vectors) labels = db.labels_ core_indices = db.core_sample_indices_ n_clusters = len(set(labels)) - (1 if -1 in labels else 0) print("Estimated {:d} clusters".format(n_clusters), file=sys.stderr) output = [{'word': w, 'label': np.asscalar(l), 'isCore': i in core_indices} for i, (l, w) in enumerate(zip(labels, words))] print(json.dumps(output))

2条回答

网友

1楼 · 编辑于 2024-05-14 19:42:33

我也遇到了同样的问题，我试着用这些方法，把它贴在这里，希望能对你或其他人有所帮助：

调整DBSCAN中的min_samples值以适应您的问题，在我的例子中，默认值4太高了，因为有些集群也可以由2个单词组成。在
显然，从一个更好的语料库开始可以解决您的问题，如果模型初始化得不好，它将无法执行
也许DBSCAN不是更好的选择，我也在为这个问题接近K均值

反复创建模型也有助于我更好地理解选择哪些参数：

for eps in np.arange(0.1, 50, 0.1):
    dbscan_model = DBSCAN(eps=eps, min_samples=3, metric_params=None, algorithm="auto", leaf_size=30, p=None, n_jobs=1)
    labels = dbscan_model.fit_predict(mat_words)

    clusters = {}
    for i, w in enumerate(words_found):
        clusters[w] = labels[i]
    dbscan_clusters = sorted(clusters.items(), key=operator.itemgetter(1))
    n_clusters = len(set(labels)) - (1 if -1 in labels else 0)
    n_noise = len([lab for lab in labels if lab == -1])
    print("EPS: ", eps, "\tClusters: ", n_clusters, "\tNoise: ", n_noise)

网友

2楼 · 编辑于 2024-05-14 19:42:33

从word2vec的各种可视化效果来看，这些向量可能不会很好地聚集在一起。在

首先，word2vec目标中没有任何东西会鼓励集群。相反，它通过优化词与相邻词的相似度，使相邻词得到相似向量。这对于单词替换的目的是必要的。在

第二，根据这些地块，我不确定是否存在由低密度区域隔开的“密集”区域。相反，数据通常看起来更像一个大团。但当几乎所有的向量都在那个大团中时，它们几乎都在同一个簇中！在

最后，但并非最不重要的是，大多数单词可能不会聚集在一起。是的，数字可能会聚集在一起。你可以期待动词与名词的组合，但是“to bear”和“a bear”与word2vec相同，“bar”（动词和名词）等也是一样的-即使嵌入得很完美，这样的簇还是有太多的多义词无法很好地分开！在

你最好的猜测是增加未成年人和降低epsilon，直到大多数数据是噪音，你找到一些剩余的集群。在

相关问题更多 >

编程相关推荐

热门问题

热门文章