Python:聚类搜索引擎关键字

2024-03-28 11:21:38 发布

您现在位置:Python中文网/ 问答频道 /正文

Python:聚类搜索引擎关键字

嗨, 我有一个CSV,最多20000行(我有100000+不同的网站),每一行包含一个引用关键字(即,一个关键字某人键入搜索引擎中,以找到有问题的网站),以及访问次数。

我要做的是将这些关键字聚类到“相似含义”的聚类中,并创建一个聚类层次结构(按每个聚类的搜索总数的顺序排列)。

一个示例集群-“女式服装”-理想情况下包含以下关键字: 女装,1000 女装,300 女装,50 女装,6 女装,2

我可以使用类似于Python自然语言工具包:http://www.nltk.org/和WordNet的东西,但是,我猜对于某些网站,引用的关键字将是WordNet一无所知的单词/短语。例如,如果网站是名人网站,WordNet就不太可能知道“Lady Gaga”,如果网站是新闻网站,情况就更糟。

因此,我也猜测,解决方案必须是看起来只使用源数据本身的解决方案。

我的查询与How to cluster search engine keywords?中提出的查询非常相似,只是我在寻找一个可以开始的地方,但是使用Python而不是Java。

我也不知道Google Predict和/或Google Refine是否有用。

不管怎样,任何想法/建议都是最受欢迎的

谢谢, C类


Tags: csv键入层次结构网站google情况聚类关键字