在网上追踪文章

2024-06-09 20:37:03 发布

您现在位置:Python中文网/ 问答频道 /正文

这是我的想法。你知道吗

我有来自BBC新闻网站的文章。这篇主要的文章最初由BBC新闻发表,但是它可能被网络上的许多其他网站所使用。你知道吗

方法1:

因为Google不提供任何API。我用Python和mechanize实现了一个从Google搜索结果中获取链接的程序。 但是,不建议使用这种方法,因为我的IP可能会被阻止。我不想冒险这么做。你知道吗

我怎么做到的?你知道吗

我使用文章标题和作者作为布尔查询组合,只得到与主文章相似的匹配文章。结果很好,但我不想接受这个。你知道吗

方法2:

我试着用Google自定义搜索查询关键字,从主文章限制搜索只限于有限的网站,而不是整个网站。但结果并不好。我只需要指向其他网站使用的文章的链接。你知道吗

有谁能告诉我更好的方法吗?有没有这样的图书馆我可以利用?你知道吗


Tags: 方法程序ip网络api标题网站链接
2条回答

如果你担心你的IP被禁止,因为你正在取消搜索结果,你可能想考虑另一个搜索引擎的API,它确实提供了你需要的数据(或阈值)。你知道吗

例如,微软提供了必应的网络搜索API

http://www.bing.com/developers/s/APIBasics.html

使用这种方法,您不会无意中违反某些TOS。你知道吗

由于您没有明确指定要搜索的内容,您可以在以下位置找到“文章”的API:

http://www.programmableweb.com/apis/directory/1?apicat=Search

解决这一问题的传统方法是通过信息检索和自然语言处理。对于初学者,请参阅Similarity between two text documents,或参阅有关此主题的任何书籍。合适的python库是sklearnNTLK

相关问题 更多 >