Python:聚类搜索引擎关键字
嗨, 我有一个CSV,最多20000行(我有100000+不同的网站),每一行包含一个引用关键字(即,一个关键字某人键入搜索引擎中,以找到有问题的网站),以及访问次数。
我要做的是将这些关键字聚类到“相似含义”的聚类中,并创建一个聚类层次结构(按每个聚类的搜索总数的顺序排列)。
一个示例集群-“女式服装”-理想情况下包含以下关键字: 女装,1000 女装,300 女装,50 女装,6 女装,2
我可以使用类似于Python自然语言工具包:http://www.nltk.org/和WordNet的东西,但是,我猜对于某些网站,引用的关键字将是WordNet一无所知的单词/短语。例如,如果网站是名人网站,WordNet就不太可能知道“Lady Gaga”,如果网站是新闻网站,情况就更糟。
因此,我也猜测,解决方案必须是看起来只使用源数据本身的解决方案。
我的查询与How to cluster search engine keywords?中提出的查询非常相似,只是我在寻找一个可以开始的地方,但是使用Python而不是Java。
我也不知道Google Predict和/或Google Refine是否有用。
不管怎样,任何想法/建议都是最受欢迎的
谢谢, C类
目前没有回答
相关问题 更多 >
编程相关推荐