如何通过编程为网址数据库生成相关标签?

5 投票
2 回答
2098 浏览
提问于 2025-04-16 10:05

我正在用Python写一个RSS阅读器,作为学习练习,我希望能给每个条目加上关键词,以便于搜索。不过,现实中的大多数RSS源并没有提供关键词的相关信息。目前我在测试数据库里有大约60,000个条目,来自大约600个源,所以手动添加关键词根本不现实。到目前为止,我只找到两个解决方案:

1: 使用自然语言工具包(Natural Language Toolkit)来提取关键词:

  • 优点:灵活;不依赖外部服务;
  • 缺点:只能对文章摘要进行索引,而不能对整篇文章;写一个高质量的关键词提取工具本身就是一个不小的工程;

2: 使用谷歌广告API从文章网址获取关键词建议:

  • 优点:关键词质量非常高;基于整篇文章的内容;使用起来简单;
  • 缺点:可能不是免费的;查询速率限制不明;我很担心我的账户会被封,导致无法为我的商业网站运行广告;

有没有人能给点建议?我对广告账户被封的担忧是否多余?

2 个回答

2

根据你的具体需求,有很多免费的和收费的文本标注工具或服务可以选择,具体可以参考:

有没有比OpenCalais更好的工具?.

这些工具中有一些可以识别实体,有些可以衡量关键词的重要性,还有一些可以提供主题标签。

1

你可以使用 delicious 推荐标签的接口

这里有一个用 Python 调用这个接口的例子,详细内容可以查看 http://www.michael-noll.com/projects/delicious-python-api/

另一个选择是 Open Calais

撰写回答